CR Collecte ciblée: 2e réunion : Différence entre versions

De HAL
Sauter à la navigation Sauter à la recherche
(Page créée avec « CR en cours '''Périmètre du GT, sources de l'application''' L'API Unpaywall ne permettra de récupérer que des doc sous licence CC --> CORE, BASE sont-ils à envisag... »)
 
 
(5 révisions intermédiaires par 2 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
 +
Réunion du 11/07/2019
 +
 
CR en cours
 
CR en cours
 +
 +
Présents :
 +
* A. Monteil (INRIA) 
 +
* L. Jonchère (Rennes 1) {{LJ}}
 +
* C. Lentretien (Lorraine)
 +
* M. Delhaye (AMU)
 +
* J. Lessard (CIRAD)
 +
* JM. LeBechec (INP Toulouse)
 +
* B. Marmol (CCSD)
 +
* B. Kuntziger (CCSD)
 +
* Khaoula Abaïdï stagiaire sur le projet jusque fin juillet 2019
 +
  
 
'''Périmètre du GT, sources de l'application'''
 
'''Périmètre du GT, sources de l'application'''
  
L'API Unpaywall ne permettra de récupérer que des doc sous licence CC
+
L'API Unpaywall ne permettra de récupérer que des doc sous licence CC.
  
 
--> CORE, BASE sont-ils à envisager en complément ?
 
--> CORE, BASE sont-ils à envisager en complément ?
Ligne 9 : Ligne 23 :
 
--> le moissonnage des AOI est-il ds le périmètre de ce GT ?
 
--> le moissonnage des AOI est-il ds le périmètre de ce GT ?
  
Le CCSD répond que HAL n'est pas un agrégateur co Base ou OpenAire. Ce n'est pas la vocation de HAL.
+
Le CCSD répond que HAL n'est pas un agrégateur comme Base ou OpenAire. Ce n'est pas la vocation de HAL.
GT mis en place pr répondre à la demande de Marin Dacos de créer une application ac mise en place d'une validation par l'auteur --> le cadre et le périmètre ont été définis par le ministère pr un aboutissement à court terme.
+
Le GT a été mis en place pour répondre à la demande de Marin Dacos de créer une application avec mise en place d'une validation par l'auteur --> le cadre et le périmètre ont été définis par le Ministère pour un aboutissement à court terme.
  
Moissonnage : le CCSD n'est pas prêt pr aborder le pb ds sa généralité. HAL ne travaille pas du tt ac OAI-PMH ajdh --> pb du tps nécessaire pr s'y mettre.
+
Moissonnage : le CCSD n'est pas prêt pour aborder le problème ds sa généralité (c'est pour cela qu'il parle plutôt de "collecte ciblée"). HAL ne travaille pas du tout avec OAI-PMH aujourd'hui --> problème du temps nécessaire pour s'y mettre.
 
 
Multiplier les sources ne sera pas forcément un pb ms la priorité est de développer l'appli ; multiplier les sources serait envisagé ds un 2d tps.
 
  
 +
Multiplier les sources ne sera pas forcément un problème à terme, mais la priorité est de développer l'appli ; multiplier les sources serait envisagé ds un 2d temps.
 
Il faut voir aussi ce que va donner Conditor.
 
Il faut voir aussi ce que va donner Conditor.
  
Le CCSD souligne que l'affiliation est ce qui fait la richesse de HAL et ce qui pose pb pr le moissonnage.
+
Le CCSD souligne que l'affiliation est ce qui fait la richesse de HAL et ce qui pose problème pour le moissonnage.
 
Les représentants des AOI indiquent que leurs données sont de qualité et que les utiliser comme sources permettrait justement de faire des liens vers les bonnes affiliations.
 
Les représentants des AOI indiquent que leurs données sont de qualité et que les utiliser comme sources permettrait justement de faire des liens vers les bonnes affiliations.
  
A noter : OpenAire est en train de développer un service qui permettrait de signaler à des institutions un doc présent ds OpenAire ms pas ds l'AOI --> à voir comment HAL pourrait l'intégrer. (voir intervention de Pedro COAR 2019 le 1er jour)
+
A noter : OpenAire est en train de développer un service qui permettrait de signaler à des institutions un doc présent ds OpenAire mais pas dans une archive ouverte --> à voir comment HAL pourrait l'intégrer. (voir intervention de Pedro Principe lors de la conférence COAR 2019 le 1er jour)
  
Arxiv --> licence sur la diffusion qui empêche de récupérer les fichiers pr les importer ds HAL (sauf accord spécifique ? le CCSD les rencontre le 21/07). Voir si d'autres sources fonctionnent de la même manière.
+
Arxiv --> licence sur la diffusion qui empêche de récupérer les fichiers pour les importer ds HAL (sauf accord spécifique ? le CCSD les rencontre le 21/07). Voir si d'autres sources fonctionnent de la même manière.
  
OpenEdition --> tt n'est pas sous licence CC donc possibilité de croiser ac Unpaywall ?
+
OpenEdition --> tout n'est pas sous licence CC donc possibilité de croiser avec Unpaywall ?
 
Obstacle principal sera sans doute les affiliations pr OE.
 
Obstacle principal sera sans doute les affiliations pr OE.
  
Ligne 31 : Ligne 44 :
 
'''Autorisation des auteurs'''
 
'''Autorisation des auteurs'''
  
Inutile si import de doc en CC (filtre sur licence possible ds Unpaywall).
+
Inutile si import de documents en CC (un filtre sur la licence appliquée au document est possible dans Unpaywall).
  
Solliciter au minimum les auteurs.
+
Le but est de solliciter au minimum les auteurs.
  
Le CCSD indq que la demande porterait plus sur une vérif de l'identification de l'auteur que sur une autorisation de transfert.
+
Le CCSD indique que la demande porterait plus sur une vérification de l'identification de l'auteur que sur une autorisation de transfert.
  
Proposition à tous les auteurs connus ds HAL. Si le 1er dit oui --> dépôt ds HAL et l'auteur a la propriété du document.
+
Proposition à tous les auteurs connus dans HAL. Si le 1er dit oui --> dépôt ds HAL et l'auteur a la propriété du document.
  
 
Mise en garde : des auteurs peuvent dire non simplement parce qu'ils ne comprennent pas la démarche, la loi, et craignent que ça ne soit pas autorisé.
 
Mise en garde : des auteurs peuvent dire non simplement parce qu'ils ne comprennent pas la démarche, la loi, et craignent que ça ne soit pas autorisé.
Ligne 46 : Ligne 59 :
 
'''Questions'''
 
'''Questions'''
  
> Déterminer quels seront les utilisateurs finaux de l'appli : des admins portails ou les auteurs ?
+
* Déterminer quels seront les utilisateurs finaux de l'appli : des admins portails ou les auteurs ?
 +
 
 +
* Possibilité d'afficher les sources ?
 +
 
 +
* Définir des politiques de fusion
 +
Travail de Laurent pour le développement de CrossHAL (en cours) --> définir les métadonnées qui doivent être écrasées/modifiées et celles qui doivent être protégées.
 +
 
 +
Se rapprocher d'Isabelle (CCSD) pour ce point.
  
> Possibilité d'afficher les sources ?
+
Nécessité de protéger des champs ds HAL (ex. référence interne). Travail en cours, notamment pour les thèses, important pour les affiliations également (celles des équipes Inria notamment).
  
> Définir des politiques de fusion
+
Si les métadonnées ne sont pas propres, est-ce qu'on va les chercher dans Crossref ? Est-ce qu'on peut écraser des données de HAL ? Est-ce qu'on ne fait qu'en ajouter ?
Travail de Laurent pr le dév de CrossHAL --> définir les métadonnées qui doivent être écrasées/modifiées et celles qui doivent être protégées.
 
Se rapprocher d'Isabelle (CCSD) pr ce point.
 
Nécessité de protéger des champs ds HAL (ex. référence interne). Travail en cours, notamment pr les thèses. Affiliation également (équipes Inria notamment).
 
Si les métadonnées ne sont pas propres, est-ce qu'on va les chercher ds Crossref ? Est-ce qu'on peut écraser des données de HAL ? Est-ce qu'on ne fait qu'en ajouter ?
 
  
> Spécifier qd on prévient les auteurs et qd on ne le fait pas --> arbre de décision.
+
* Spécifier quand on prévient les auteurs et quand on ne le fait pas --> arbre de décision.
  
> Interro Unpaywall ne se fait pas sur le web en tps réel --> téléchargement de la base. Base publq mise à jour tous les 3-6 mois. Est-ce que cela suffit ? Est-ce qu'il faut envisager un abo pr avoir des màj + fréquentes ? (SCANR a un abo)
+
* L'interrogation de Unpaywall ne se fait pas sur le web en temps réel --> le CCSD télécharge de la base localement. La base publique est mise à jour tous les 3-6 mois. Est-ce que cela suffit ? Est-ce qu'il faut envisager un abonnement payant au service pour avoir des mises à jour + fréquentes ? (SCANR a un abonnement)
  
  
 
'''Jeux de tests'''
 
'''Jeux de tests'''
  
Besoin d'exemples pr illustrer la qualité des données.
+
Besoin d'exemples pour illustrer la qualité des données.
Trouver des ex. de métadonnées de qualité ms aussi lacunaires ou erronées. Ex :
+
Trouver des ex. de métadonnées de qualité mais aussi lacunaires ou erronées. Ex :
  
 
- affiliation "méta" (université au lieu de labo, ou labo au lieu d'équipe)
 
- affiliation "méta" (université au lieu de labo, ou labo au lieu d'équipe)
Ligne 78 : Ligne 94 :
 
Description précise des cas relevés + DOI
 
Description précise des cas relevés + DOI
  
SCANR a déjà travaillé sur les données Unpaywall et dédoublonné ac HAL. SCANR ne traite pas les structures étrangères.
+
SCANR a déjà travaillé sur les données Unpaywall et dédoublonné avec HAL. SCANR ne traite pas les structures étrangères.
Ne travailler qu'avec ce qui est ds SCANR ds un 1er tps ?
+
Ne travailler qu'avec ce qui est ds SCANR ds un 1er temps ?
  
Accès aux API d'ORCID via abo CNRS.
+
Accès aux API d'ORCID via abonnement CNRS.
  
  

Version actuelle datée du 19 juillet 2019 à 12:54

Réunion du 11/07/2019

CR en cours

Présents :

  • A. Monteil (INRIA)
  • L. Jonchère (Rennes 1) LJ
  • C. Lentretien (Lorraine)
  • M. Delhaye (AMU)
  • J. Lessard (CIRAD)
  • JM. LeBechec (INP Toulouse)
  • B. Marmol (CCSD)
  • B. Kuntziger (CCSD)
  • Khaoula Abaïdï stagiaire sur le projet jusque fin juillet 2019


Périmètre du GT, sources de l'application

L'API Unpaywall ne permettra de récupérer que des doc sous licence CC.

--> CORE, BASE sont-ils à envisager en complément ?

--> le moissonnage des AOI est-il ds le périmètre de ce GT ?

Le CCSD répond que HAL n'est pas un agrégateur comme Base ou OpenAire. Ce n'est pas la vocation de HAL. Le GT a été mis en place pour répondre à la demande de Marin Dacos de créer une application avec mise en place d'une validation par l'auteur --> le cadre et le périmètre ont été définis par le Ministère pour un aboutissement à court terme.

Moissonnage : le CCSD n'est pas prêt pour aborder le problème ds sa généralité (c'est pour cela qu'il parle plutôt de "collecte ciblée"). HAL ne travaille pas du tout avec OAI-PMH aujourd'hui --> problème du temps nécessaire pour s'y mettre.

Multiplier les sources ne sera pas forcément un problème à terme, mais la priorité est de développer l'appli ; multiplier les sources serait envisagé ds un 2d temps. Il faut voir aussi ce que va donner Conditor.

Le CCSD souligne que l'affiliation est ce qui fait la richesse de HAL et ce qui pose problème pour le moissonnage. Les représentants des AOI indiquent que leurs données sont de qualité et que les utiliser comme sources permettrait justement de faire des liens vers les bonnes affiliations.

A noter : OpenAire est en train de développer un service qui permettrait de signaler à des institutions un doc présent ds OpenAire mais pas dans une archive ouverte --> à voir comment HAL pourrait l'intégrer. (voir intervention de Pedro Principe lors de la conférence COAR 2019 le 1er jour)

Arxiv --> licence sur la diffusion qui empêche de récupérer les fichiers pour les importer ds HAL (sauf accord spécifique ? le CCSD les rencontre le 21/07). Voir si d'autres sources fonctionnent de la même manière.

OpenEdition --> tout n'est pas sous licence CC donc possibilité de croiser avec Unpaywall ? Obstacle principal sera sans doute les affiliations pr OE.


Autorisation des auteurs

Inutile si import de documents en CC (un filtre sur la licence appliquée au document est possible dans Unpaywall).

Le but est de solliciter au minimum les auteurs.

Le CCSD indique que la demande porterait plus sur une vérification de l'identification de l'auteur que sur une autorisation de transfert.

Proposition à tous les auteurs connus dans HAL. Si le 1er dit oui --> dépôt ds HAL et l'auteur a la propriété du document.

Mise en garde : des auteurs peuvent dire non simplement parce qu'ils ne comprennent pas la démarche, la loi, et craignent que ça ne soit pas autorisé.

--> veiller à une formulation claire, par ex. "Nous avons identifié ce document diffusable sur HAL. Confirmez-vous en être l'auteur ?"


Questions

  • Déterminer quels seront les utilisateurs finaux de l'appli : des admins portails ou les auteurs ?
  • Possibilité d'afficher les sources ?
  • Définir des politiques de fusion

Travail de Laurent pour le développement de CrossHAL (en cours) --> définir les métadonnées qui doivent être écrasées/modifiées et celles qui doivent être protégées.

Se rapprocher d'Isabelle (CCSD) pour ce point.

Nécessité de protéger des champs ds HAL (ex. référence interne). Travail en cours, notamment pour les thèses, important pour les affiliations également (celles des équipes Inria notamment).

Si les métadonnées ne sont pas propres, est-ce qu'on va les chercher dans Crossref ? Est-ce qu'on peut écraser des données de HAL ? Est-ce qu'on ne fait qu'en ajouter ?

  • Spécifier quand on prévient les auteurs et quand on ne le fait pas --> arbre de décision.
  • L'interrogation de Unpaywall ne se fait pas sur le web en temps réel --> le CCSD télécharge de la base localement. La base publique est mise à jour tous les 3-6 mois. Est-ce que cela suffit ? Est-ce qu'il faut envisager un abonnement payant au service pour avoir des mises à jour + fréquentes ? (SCANR a un abonnement)


Jeux de tests

Besoin d'exemples pour illustrer la qualité des données. Trouver des ex. de métadonnées de qualité mais aussi lacunaires ou erronées. Ex :

- affiliation "méta" (université au lieu de labo, ou labo au lieu d'équipe)

- utilisateur non connu de HAL

- métadonnées différentes entre Unpaywall et Crossref

- tout ça avec et sans fulltext

- etc.

Description précise des cas relevés + DOI

SCANR a déjà travaillé sur les données Unpaywall et dédoublonné avec HAL. SCANR ne traite pas les structures étrangères. Ne travailler qu'avec ce qui est ds SCANR ds un 1er temps ?

Accès aux API d'ORCID via abonnement CNRS.


Prochaine réunion

12 septembre 2019, 14-16h