GT Moissonnage/Spécifications initiales
Sommaire
- 1 Contexte
- 2 Points d'attention:
- 3 Objectif du document:
- 4 Hypothèse de départ
- 5 Méthodologie
- 6 Usage:
- 7 Liste de plateformes candidates
- 8 Projets connexes en relation avec la problématique
- 9 Analyse de risques:
- 9.1 Les sites crawlés ne sont pas suffisamment significatif pour trouver des documents.
- 9.2 Les sites ne permettent pas la rediffusion de leur document (ex Arxiv)
- 9.3 Import de doublon
- 9.4 La recherche de documents n'est pas suffisamment bonne et le chercheur ne trouve au final que peu d'article le concernant.
- 9.5 Corrections de métas: Risques habituels
- 9.6 Les chercheurs seront-ils vraiment intéressé à faire ce load ?
- 9.7 Risque social: Concurrence avec d'autres projet
- 10 Ajout:
Contexte
L'archive ouverte HAL est depuis son origine, s'appuie sur l'auto-archivage, cela signifie que c'est aux chercheurs de venir déposer leurs publications (et notamment le full-text correspondant) dans l'archive. Comme Hal accepte également les notices sans full-text, on constate qu'un certain nombre de publications, pourtant présentes en open access sur le Web, ne sont présentes dans Hal que sous forme de notice. Pour augmenter la densité de full text dans Hal, nous proposons que Hal fasse évoluer son modèle d'auto-archivage vers un modèle mixte (auto-archivage / crawling de ressources) pour aller chercher, avec l'aide des chercheurs, leurs publications présentes sur d'autres plateformes ouvertes.
Points d'attention:
- Ergonomie
- Licence et autorisation de rediffusion
Objectif du document:
Le but de ce document est de proposer un cas d'usage sur le sujet de la récupération semi automatique de document/métadonnées sur des repositories ouverts.
Hypothèse de départ
Un auteur ayant un compte sur HAL, s'étant authentifié, et ayant rempli 1 ou plusieurs identifiants auteur sur son profil HAL. Le ou les identifiants "minimum" seront à discuter. Il semble intéressant d'avoir le domaine de compétence pour affiner les sources, notamment en ce qui concerne les SHS.
Méthodologie
Il sera nécessaire d'interroger des utilisateurs chercheurs.
Usage:
Phase initiale
- possibilité A: L'auteur clique sur un bouton: récupération d'informations externes "ME" concernant
- (pas d'autre paramètre demandé que ceux présents dans le profil)
- On affiche une page de résultat décrite ci-après
- possibilité B: L'auteur clique sur un bouton: récupération d'information externe me concernant
- on affiche une page permettant à l'auteur d'influencer la recherche qui sera effectuées
- cette page pourrait aussi permettre une sélection des sources, même si cela ne semble pas toujours pertinent. D'autre part, si le nombre de sources est important, la sélection risque d’être difficile et ergonomiquement inadaptée.
- puis on affiche la page de résultat
Page de résultats.
- Question: Une seule page? pagination ?
- Présentation du document par sa "citation"
- Indication de présence d'un document associé ou juste notice.
- Une case à cocher pour sélectionner/désélectionner le document, une case inverser la sélection
- Un bouton "import" pour importer les documents sélectionnés dans Hal
- Options d'import:
- N'importer que les full textes
- Importer les nouveaux documents (méta + full-texte)
- Importer les nouvelles notices (méta avec ou sans full-texte)
- Importer les métas existantes: Corriger/Augmenter les métas
Page de succès d'import
- Indique le résultat de l'import
- Pour les notices, un lien direct pour ajouter un fichier auteur peut-être proposé.
Lors d'un import ultérieur
Ne pas remettre les publications signalées précédemment mais non sélectionnées (et prévoir un bouton: afficher l'ensemble des publications)
Liste de plateformes candidates
- PLOS : déjà fortement demandé (Casuhal par exemple)
- Orcid: négociation en cours avec iorcid
- Arxiv: Pb de récupération du Pdf, faut-il recompiler
- Cairns ?
- Pubmed
- Base ?
- Zenodo
Projets connexes en relation avec la problématique
Dissem-In
Conditor
Analyse de risques:
- Criticité de 1 a 4: 1 pas d'impact, 4 fort impact
- Probabilités de 1 à 4 : 1 peu probable, 4 presque certain
Les sites crawlés ne sont pas suffisamment significatif pour trouver des documents.
Criticité | 3 |
Probabilités | 2 |
Les sites ne permettent pas la rediffusion de leur document (ex Arxiv)
Criticité | 4 |
Probabilités | 2 |
Import de doublon
La détection de doublon peut-être difficile suivant les informations dont on dispose et de la qualité des données
La recherche de documents n'est pas suffisamment bonne et le chercheur ne trouve au final que peu d'article le concernant.
Probabilité variable suivant les domaines scientifiques
Criticité | 4 |
Probabilités | 2 |
Corrections de métas: Risques habituels
- les métas sont-elles de meilleures qualités: cela dépendra évidemment des sources
- écrasement de corrections déjà effectuées par des administrateurs
- …
Criticité | 3 |
Probabilités | 4 |
Quelle politique de correction/ajout méta:
Les chercheurs seront-ils vraiment intéressé à faire ce load ?
(Va-t-on attirer des chercheurs avec cette fonctionnalité?
Criticité | 2 |
Probabilités | 2 |
Risque social: Concurrence avec d'autres projet
Ajout:
Cas souhaité:
Dépôt par un éditeur On propose pour rapatrier
Eric Jean Girard + Emmanuel
Travail sur Document:
Pool chercheur (mais voir CST) Casuhal