CR Collecte ciblée: 2e réunion

De HAL
Sauter à la navigation Sauter à la recherche

Réunion du 11/07/2019

CR en cours

Présents :

  • A. Monteil (INRIA)
  • L. Jonchère (Rennes 1) LJ
  • C. Lentretien (Lorraine)
  • M. Delhaye (AMU)
  • J. Lessard (CIRAD)
  • JM. LeBechec (INP Toulouse)
  • B. Marmol (CCSD)
  • B. Kuntziger (CCSD)
  • Khaoula Abaïdï stagiaire sur le projet jusque fin juillet 2019

Périmètre du GT, sources de l'application

L'API Unpaywall ne permettra de récupérer que des doc sous licence CC.

--> CORE, BASE sont-ils à envisager en complément ?

--> le moissonnage des AOI est-il ds le périmètre de ce GT ?

Le CCSD répond que HAL n'est pas un agrégateur co Base ou OpenAire. Ce n'est pas la vocation de HAL. GT mis en place pr répondre à la demande de Marin Dacos de créer une application ac mise en place d'une validation par l'auteur --> le cadre et le périmètre ont été définis par le ministère pr un aboutissement à court terme.

Moissonnage : le CCSD n'est pas prêt pr aborder le pb ds sa généralité. HAL ne travaille pas du tt ac OAI-PMH ajdh --> pb du tps nécessaire pr s'y mettre.

Multiplier les sources ne sera pas forcément un pb ms la priorité est de développer l'appli ; multiplier les sources serait envisagé ds un 2d tps.

Il faut voir aussi ce que va donner Conditor.

Le CCSD souligne que l'affiliation est ce qui fait la richesse de HAL et ce qui pose pb pr le moissonnage. Les représentants des AOI indiquent que leurs données sont de qualité et que les utiliser comme sources permettrait justement de faire des liens vers les bonnes affiliations.

A noter : OpenAire est en train de développer un service qui permettrait de signaler à des institutions un doc présent ds OpenAire ms pas ds l'AOI --> à voir comment HAL pourrait l'intégrer. (voir intervention de Pedro COAR 2019 le 1er jour)

Arxiv --> licence sur la diffusion qui empêche de récupérer les fichiers pr les importer ds HAL (sauf accord spécifique ? le CCSD les rencontre le 21/07). Voir si d'autres sources fonctionnent de la même manière.

OpenEdition --> tt n'est pas sous licence CC donc possibilité de croiser ac Unpaywall ? Obstacle principal sera sans doute les affiliations pr OE.


Autorisation des auteurs

Inutile si import de doc en CC (filtre sur licence possible ds Unpaywall).

Solliciter au minimum les auteurs.

Le CCSD indq que la demande porterait plus sur une vérif de l'identification de l'auteur que sur une autorisation de transfert.

Proposition à tous les auteurs connus ds HAL. Si le 1er dit oui --> dépôt ds HAL et l'auteur a la propriété du document.

Mise en garde : des auteurs peuvent dire non simplement parce qu'ils ne comprennent pas la démarche, la loi, et craignent que ça ne soit pas autorisé.

--> veiller à une formulation claire, par ex. "Nous avons identifié ce document diffusable sur HAL. Confirmez-vous en être l'auteur ?"


Questions

  • Déterminer quels seront les utilisateurs finaux de l'appli : des admins portails ou les auteurs ?
  • Possibilité d'afficher les sources ?
  • Définir des politiques de fusion

Travail de Laurent pr le dév de CrossHAL --> définir les métadonnées qui doivent être écrasées/modifiées et celles qui doivent être protégées. Se rapprocher d'Isabelle (CCSD) pr ce point. Nécessité de protéger des champs ds HAL (ex. référence interne). Travail en cours, notamment pr les thèses. Affiliation également (équipes Inria notamment). Si les métadonnées ne sont pas propres, est-ce qu'on va les chercher ds Crossref ? Est-ce qu'on peut écraser des données de HAL ? Est-ce qu'on ne fait qu'en ajouter ?

  • Spécifier qd on prévient les auteurs et qd on ne le fait pas --> arbre de décision.
  • Interro Unpaywall ne se fait pas sur le web en tps réel --> téléchargement de la base. Base publq mise à jour tous les 3-6 mois. Est-ce que cela suffit ? Est-ce qu'il faut envisager un abo pr avoir des màj + fréquentes ? (SCANR a un abo)


Jeux de tests

Besoin d'exemples pr illustrer la qualité des données. Trouver des ex. de métadonnées de qualité ms aussi lacunaires ou erronées. Ex :

- affiliation "méta" (université au lieu de labo, ou labo au lieu d'équipe)

- utilisateur non connu de HAL

- métadonnées différentes entre Unpaywall et Crossref

- tout ça avec et sans fulltext

- etc.

Description précise des cas relevés + DOI

SCANR a déjà travaillé sur les données Unpaywall et dédoublonné ac HAL. SCANR ne traite pas les structures étrangères. Ne travailler qu'avec ce qui est ds SCANR ds un 1er tps ?

Accès aux API d'ORCID via abo CNRS.


Prochaine réunion

12 septembre 2019, 14-16h