CR Collecte ciblée: 2e réunion
Réunion du 11/07/2019
CR en cours
Présents :
- A. Monteil (INRIA)
- L. Jonchère (Rennes 1) LJ
- C. Lentretien (Lorraine)
- M. Delhaye (AMU)
- J. Lessard (CIRAD)
- JM. LeBechec (INP Toulouse)
- B. Marmol (CCSD)
- B. Kuntziger (CCSD)
- Khaoula Abaïdï stagiaire sur le projet jusque fin juillet 2019
Périmètre du GT, sources de l'application
L'API Unpaywall ne permettra de récupérer que des doc sous licence CC.
--> CORE, BASE sont-ils à envisager en complément ?
--> le moissonnage des AOI est-il ds le périmètre de ce GT ?
Le CCSD répond que HAL n'est pas un agrégateur comme Base ou OpenAire. Ce n'est pas la vocation de HAL. Le GT a été mis en place pour répondre à la demande de Marin Dacos de créer une application avec mise en place d'une validation par l'auteur --> le cadre et le périmètre ont été définis par le Ministère pour un aboutissement à court terme.
Moissonnage : le CCSD n'est pas prêt pour aborder le problème ds sa généralité (c'est pour cela qu'il parle plutôt de "collecte ciblée"). HAL ne travaille pas du tout avec OAI-PMH aujourd'hui --> problème du temps nécessaire pour s'y mettre.
Multiplier les sources ne sera pas forcément un problème à terme, mais la priorité est de développer l'appli ; multiplier les sources serait envisagé ds un 2d temps. Il faut voir aussi ce que va donner Conditor.
Le CCSD souligne que l'affiliation est ce qui fait la richesse de HAL et ce qui pose problème pour le moissonnage. Les représentants des AOI indiquent que leurs données sont de qualité et que les utiliser comme sources permettrait justement de faire des liens vers les bonnes affiliations.
A noter : OpenAire est en train de développer un service qui permettrait de signaler à des institutions un doc présent ds OpenAire mais pas dans une archive ouverte --> à voir comment HAL pourrait l'intégrer. (voir intervention de Pedro Principe lors de la conférence COAR 2019 le 1er jour)
Arxiv --> licence sur la diffusion qui empêche de récupérer les fichiers pour les importer ds HAL (sauf accord spécifique ? le CCSD les rencontre le 21/07). Voir si d'autres sources fonctionnent de la même manière.
OpenEdition --> tout n'est pas sous licence CC donc possibilité de croiser avec Unpaywall ? Obstacle principal sera sans doute les affiliations pr OE.
Autorisation des auteurs
Inutile si import de documents en CC (un filtre sur la licence appliquée au document est possible dans Unpaywall).
Le but est de solliciter au minimum les auteurs.
Le CCSD indique que la demande porterait plus sur une vérification de l'identification de l'auteur que sur une autorisation de transfert.
Proposition à tous les auteurs connus dans HAL. Si le 1er dit oui --> dépôt ds HAL et l'auteur a la propriété du document.
Mise en garde : des auteurs peuvent dire non simplement parce qu'ils ne comprennent pas la démarche, la loi, et craignent que ça ne soit pas autorisé.
--> veiller à une formulation claire, par ex. "Nous avons identifié ce document diffusable sur HAL. Confirmez-vous en être l'auteur ?"
Questions
- Déterminer quels seront les utilisateurs finaux de l'appli : des admins portails ou les auteurs ?
- Possibilité d'afficher les sources ?
- Définir des politiques de fusion
Travail de Laurent pour le développement de CrossHAL (en cours) --> définir les métadonnées qui doivent être écrasées/modifiées et celles qui doivent être protégées.
Se rapprocher d'Isabelle (CCSD) pour ce point.
Nécessité de protéger des champs ds HAL (ex. référence interne). Travail en cours, notamment pour les thèses, important pour les affiliations également (celles des équipes Inria notamment).
Si les métadonnées ne sont pas propres, est-ce qu'on va les chercher dans Crossref ? Est-ce qu'on peut écraser des données de HAL ? Est-ce qu'on ne fait qu'en ajouter ?
- Spécifier quand on prévient les auteurs et quand on ne le fait pas --> arbre de décision.
- L'interrogation de Unpaywall ne se fait pas sur le web en temps réel --> le CCSD télécharge de la base localement. La base publique est mise à jour tous les 3-6 mois. Est-ce que cela suffit ? Est-ce qu'il faut envisager un abonnement payant au service pour avoir des mises à jour + fréquentes ? (SCANR a un abonnement)
Jeux de tests
Besoin d'exemples pour illustrer la qualité des données. Trouver des ex. de métadonnées de qualité mais aussi lacunaires ou erronées. Ex :
- affiliation "méta" (université au lieu de labo, ou labo au lieu d'équipe)
- utilisateur non connu de HAL
- métadonnées différentes entre Unpaywall et Crossref
- tout ça avec et sans fulltext
- etc.
Description précise des cas relevés + DOI
SCANR a déjà travaillé sur les données Unpaywall et dédoublonné avec HAL. SCANR ne traite pas les structures étrangères. Ne travailler qu'avec ce qui est ds SCANR ds un 1er temps ?
Accès aux API d'ORCID via abonnement CNRS.
Prochaine réunion
12 septembre 2019, 14-16h