GT Moissonnage/Spécifications initiales

De HAL
Révision datée du 11 juillet 2019 à 12:51 par Marmol (discussion | contributions)
(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Sauter à la navigation Sauter à la recherche

Contexte

L'archive ouverte HAL est depuis son origine, s'appuie sur l'auto-archivage, cela signifie que c'est aux chercheurs de venir déposer leurs publications (et notamment le full-text correspondant) dans l'archive. Comme Hal accepte également les notices sans full-text, on constate qu'un certain nombre de publications, pourtant présentes en open access sur le Web, ne sont présentes dans Hal que sous forme de notice. Pour augmenter la densité de full text dans Hal, nous proposons que Hal fasse évoluer son modèle d'auto-archivage vers un modèle mixte (auto-archivage / crawling de ressources) pour aller chercher, avec l'aide des chercheurs, leurs publications présentes sur d'autres plateformes ouvertes.

Points d'attention:

  • Ergonomie
  • Licence et autorisation de rediffusion

Objectif du document:

Le but de ce document est de proposer un cas d'usage sur le sujet de la récupération semi automatique de document/métadonnées sur des repositories ouverts.

Hypothèse de départ

Un auteur ayant un compte sur HAL, s'étant authentifié, et ayant rempli 1 ou plusieurs identifiants auteur sur son profil HAL. Le ou les identifiants "minimum" seront à discuter. Il semble intéressant d'avoir le domaine de compétence pour affiner les sources, notamment en ce qui concerne les SHS.

Méthodologie

Il sera nécessaire d'interroger des utilisateurs chercheurs.

Usage:

Phase initiale

  • possibilité A: L'auteur clique sur un bouton: récupération d'informations externes "ME" concernant
    • (pas d'autre paramètre demandé que ceux présents dans le profil)
    • On affiche une page de résultat décrite ci-après
  • possibilité B: L'auteur clique sur un bouton: récupération d'information externe me concernant
    • on affiche une page permettant à l'auteur d'influencer la recherche qui sera effectuées
    • cette page pourrait aussi permettre une sélection des sources, même si cela ne semble pas toujours pertinent. D'autre part, si le nombre de sources est important, la sélection risque d’être difficile et ergonomiquement inadaptée.
    • puis on affiche la page de résultat

Page de résultats.

  • Question: Une seule page? pagination ?
  • Présentation du document par sa "citation"
  • Indication de présence d'un document associé ou juste notice.
  • Une case à cocher pour sélectionner/désélectionner le document, une case inverser la sélection
  • Un bouton "import" pour importer les documents sélectionnés dans Hal
  • Options d'import:
    1. N'importer que les full textes
    2. Importer les nouveaux documents (méta + full-texte)
    3. Importer les nouvelles notices (méta avec ou sans full-texte)
    4. Importer les métas existantes: Corriger/Augmenter les métas

Page de succès d'import

  • Indique le résultat de l'import
  • Pour les notices, un lien direct pour ajouter un fichier auteur peut-être proposé.

Lors d'un import ultérieur

Ne pas remettre les publications signalées précédemment mais non sélectionnées (et prévoir un bouton: afficher l'ensemble des publications)

Liste de plateformes candidates

  • PLOS : déjà fortement demandé (Casuhal par exemple)
  • Orcid: négociation en cours avec iorcid
  • Arxiv: Pb de récupération du Pdf, faut-il recompiler
  • Cairns ?
  • Pubmed
  • Base ?
  • Zenodo

Extraction WoS du 14/05/2019, affiliation France, 5 dernières années, filtre open access, tri des revues par nombre de publis recensées : Extraction wos.pdf
File:extraction_wos.pdf

Projets connexes en relation avec la problématique

Dissem-In

Conditor

Analyse de risques:

  • Criticité de 1 a 4: 1 pas d'impact, 4 fort impact
  • Probabilités de 1 à 4 : 1 peu probable, 4 presque certain

Les sites crawlés ne sont pas suffisamment significatif pour trouver des documents.

Criticité 3
Probabilités 2

Les sites ne permettent pas la rediffusion de leur document (ex Arxiv)

Criticité 4
Probabilités 2

Import de doublon

La détection de doublon peut-être difficile suivant les informations dont on dispose et de la qualité des données

La recherche de documents n'est pas suffisamment bonne et le chercheur ne trouve au final que peu d'article le concernant.

Probabilité variable suivant les domaines scientifiques

Criticité 4
Probabilités 2

Corrections de métas: Risques habituels

  • les métas sont-elles de meilleures qualités: cela dépendra évidemment des sources
  • écrasement de corrections déjà effectuées par des administrateurs
Criticité 3
Probabilités 4

Quelle politique de correction/ajout méta:

Les chercheurs seront-ils vraiment intéressé à faire ce load ?

(Va-t-on attirer des chercheurs avec cette fonctionnalité?

Criticité 2
Probabilités 2

Risque social: Concurrence avec d'autres projet

Ajout:

Cas souhaité:

Dépôt par un éditeur On propose pour rapatrier

Eric Jean Girard + Emmanuel

Travail sur Document:

Pool chercheur (mais voir CST) Casuhal .