CrossHAL

De HAL
Sauter à la navigation Sauter à la recherche

CrossHAL est un programme PHP Rennes 1 en cours de développement. Il permet notamment, par 2 opérations dissociées :

  • de corriger ou de compléter les métadonnées de dépôts HAL d'une collection,
  • d'ajouter à ces dépôts le PDF éditeur sous licence CC.

CrossHAL ne crée aucun dépôt, il ne traite que les dépôts existants dans HAL, à partir d'un code collection.

Mise à jour des métadonnées HAL

Sources utilisées : CrossRef + Pubmed, ISTEX (pour résumé, langue, mots-clés)

  • DOI : ajout si DOI absent dans HAL et si le titre est 100% identique dans CrossRef,
  • PMID (identifiant Pubmed) : ajout si absent ou différent dans HAL,
  • Identifiant revue : écrasé par la forme valide si non valide (INCOMING) dans HAL (via ISSN > recherche dans référentiel auteurs),
  • Pagination : écrasée si différente de CrossRef,
  • Volume et numéro : conservés dans HAL si différents de CrossRef,
  • Date de publication YYYY-MM-DD : écrasée dans HAL si date CrossRef YYYY différente, mais conservée si date CrossRef < date HAL mais uniquement pour l’année en cours (car la donnée CrossRef n’est souvent pas à jour pour les articles très récents),
  • Date de mise en ligne : modifiée dans HAL si différente de CrossRef,
  • Mots-clés (à partir de Pubmed et ISTEX) : ajout si absents dans HAL, mais pas de complétion si présents (mais lacunaires) dans HAL > sinon cela crée des doublons de mots-clés,
  • Langue : modifiée si différente dans HAL,
  • Résumé : écrasé si différent de Pubmed / ISTEX (sur la base d'un % de similarité calculé via la fonction Levenshtein),
  • Financement : ajouté si champ financement HAL est vide (chaîne de caractères),
  • ANR : pas de possibilité d’ajout dans HAL car une interrogation précise du référentiel AuréHAL retourne souvent plusieurs résultats (également vrai lors d’un dépôt manuel).

Ajout du PDF éditeur sous licence CC

Source utilisée : Unpaywall. Métadonnées utilisées :

  • Type de document PDF : "best_oa_location" / "evidence" (open OU oa repository), combinée avec "journal_is_oa" (true OU false) et "license" (null OU cc-by), et éventuellement avec "journal_is_in_doaj" (true OU false).
  • URL du PDF : "url_for_pdf"
  • version PDF : "version" ("publishedVersion" OU "submittedVersion" OU "acceptedVersion")

Idée : interroger ISTEX si le lien PDF Unpaywall n'est pas exploitable ?

Métadonnées manquantes d'Unpaywall pouvant être complétées par CrossRef

  • Volume, numéro, pagination
  • Date de mise en ligne
  • ORCID
  • Langue
  • Financements
  • Affiliations (très rare)

et pour les communications et chapitres d'ouvrages :

  • Pays de la conférence
  • Dates début / fin de la conférence
  • ISBN