CR Collecte ciblée: préparatoire
Merci de compléter:
Sommaire
Besoins
- ergonomie de l’interface
- cibles:
- Users
- Admin?
- Autres besoins?
Proposition de principes de transfert
- Si licence CC: alors pas besoin de demander a l'auteur.
- si PLOS: ok
- si ArXiv : pas le droit de l’uploader ds hal mais on pourrait peut etre télécharger les sources pour reconstituer un PDF à nous
- Autres sources ?
- Ajouter doc à une notice ds hal ou ajouter notice + doc
- Utilisation Orcid, idref etc… dans un avenir pas trop lointain (car pour l'instant, pas assez d'Orcid)
Problématiques
Problématique de l'enrichissement de métas (au delà de la collecte de fichiers
- Dev rennes1: enrichissement de métas de HAL
des exemples et des cas concrets
Laurent Jonchère se propose d’échanger la dessus: mettre en contact Isabelle Guay et Laurent
Compléter MD par croosref si celles d’unpaywall sont pas très bonnes
MAIS : politique de fusion à établir
Degré de confiance dans la source => la politique pourra même être affinée selon la source.
Marlène : si notice déjà ds hal, on la garde? on la remplace? on la complète? Now politique : on n’écrase pas on complète, on ajoute (dépend des champs) D’où vient la MD ds HAL (crossref? utilisateur? sword?)? si utilisateur alors faut garder mais pour le reste c à déterminer : règles à implémenter.
Les bases a considerer
Commande: docs avec DOI seulement
Solution choisie: Base Unpaywall enrichie par scanR pour savoir quels docs on va prendre
Base : auteurs avec compte dans hal on essaye de les repérer => on leur propose des docs qu’on ne trouve pas sur Hal et qui sont ds cette base.
qualité MD Unpaywall?
Laurent : unpaywall manque qqfois URL de fichiers exploitables => travailler avec crossref pour récupérer des URL de fichiers OK : voir cas avec Laurent
free access temporaires ou autres AO : comment faire le tri?
ScanR : s’intéresse aux affiliations, pas aux auteurs, mais ils font le dédoublonnage avec Hal
=> utilisation de notre graphe RDF auteurs/ co-auteurs pour améliorer la qualité de ce qu’on identifie comme auteur on préfère rater un doc que l’attribuer pas au bon Avec cette méthode : un auteur seul peut être moins bien identifié qu’un auteur avec co-auteurs.
Projets connexes
Projet Dissemin : intéressant à regarder car problématiques proches.
Processus
Questions=
L'envoie de message au déposant est-il nécessaire ?
Moins un problème de droit/autorisation que confirmation par l'auteur que c’est bien lui Si oui, affiliation correcte L’auteur valide
Si vrai identifiant d’auteur (orcid) alors dans ce cas, pas besoin de confirmation
La confirmation par l'auteur est donc conditionnelle
Définition des différents cas d’utilisation:
- si affiliation certaine alors oui on pourrait se passer de l’autorisation
- Pour l’instant on se contente d’unpaywall, après on pourrait envisager d’autres sources
- Règles à établir :
- si plos ok on prend
- si tel éditeur OK
- si telle autre chose : pas OK => on envoie un message à l’auteur
Production de jeux de tests
Qui
Résumé
Base en entrée avec docs avec doi + données unpaywall+ tel auteur corrspond à tel user de hal +connaissance de l’endroit où est le PDF (plos, etc…).
Sur quoi le user doit être interrogé pour se positionner : tjs? Oui transfert non transfert pas Doit-on lui proposer autre chose? 2 auteurs repérés :comment fait-on? QQfois infos sur l’affiliation: admin auront-ils une interface pour géré ça? Bref cas d’usage à définir+ règles
Marlène : compte déposant ou idhal? L’un implique l’autre
Bruno: compte user indispensable (ou identifiant tel orcid (ou idhal ou…))
+ ScanR : identifie structure française. Donc doit-on prévenir les admin des structures? => identifier les structures par le RNSR : donné par la base via ScanR doit correspondre au RNSR donné ds hal référentiel structures. D’autant plus que certains déposants peuvent être ‘institutionnels’ => structure identifiée mais les auteurs ne sont pas forcément présents ds hal
Alain: Base de départ issue d’unpaywall filtres? Faux positifs? doublons? -si on rate des choses tant pis on ne vise pas l’exhaustivité (voir conditor) mais faciliter les dépôts sans trop emmerder les auteurs : on préfère avoir des faux négatifs que des faux +ifs -on utilise now le travail de scanR: appariement déjà fait : filtre fait par eux, améliorable mais chez eux now; tel article est ds hal ou tel autre l’est .mais pbs de MAJ possibles car ce qu’ils ns ont donné a 6 mois donc refaire un peu le travail. Algorithme de détermination évolutif.
Alain : modération pour ces docs?
Bruno : pas de décision là dessus ce sont des questions, Pas forcément à traiter ici, pb plus général et règles à fixer pas forcément spécifiques à ce projet
Actions
- Faire un espace ds le wiki de casuhal pour le groupe projet.
- Bruno : document sur ce projet à envoyer, cadre + cas d’usage, Doc à commenter par le groupe.
- Mettre en contact IG avec LJ pour politique de fusion de meta
Évolution du projet
- autres sources que unpaywall?
- autres identifiants que le DOI : type orcid?
Planning
Travail sur le référentiel auteurs privilégié => ‘retard’ sur ce projet, 2019 sera difficile
- Que doit être la production du groupe
- Liste de fonctionnalité
- Description du processus.
- Réponses aux diverses questions et proposition de decision
objectif : avoir une Liste de fonctionnalités à prioriser
- workflow applicatif correspondant
- Production de jeux de tests
- choix de vocabulaire et process à faire…