CR Collecte ciblée: préparatoire

De HAL
Sauter à la navigation Sauter à la recherche

Merci de compléter:

Besoins

  • ergonomie de l’interface
  • cibles:
    • Users
    • Admin? Demande de précisions
  • Autres besoins? Demande de précisions

Proposition de principes de transfert

  • Si licence CC: alors pas besoin de demander a l'auteur.
    • si PLOS: ok
    • si ArXiv : pas le droit de l’uploader ds hal mais on pourrait peut etre télécharger les sources pour reconstituer un PDF à nous
    • Autres sources ?
  • Ajouter doc à une notice ds hal ou ajouter notice + doc
  • Utilisation Orcid, idref etc… dans un avenir pas trop lointain (car pour l'instant, pas assez d'Orcid)

Problématiques

Problématique de l'enrichissement de métas (au delà de la collecte de fichiers

  • Dev rennes1: enrichissement de métas de HAL

des exemples et des cas concrets
Laurent Jonchère se propose d’échanger la dessus: mettre en contact Isabelle Guay et Laurent Fait

Compléter MD par croosref si celles d’unpaywall sont pas très bonnes

MAIS : politique de fusion à établir Demande de précisions

Degré de confiance dans la source => la politique pourra même être affinée selon la source.

Marlène : si notice déjà ds hal, on la garde? on la remplace? on la complète? Now politique : on n’écrase pas on complète, on ajoute (dépend des champs) D’où vient la MD ds HAL (crossref? utilisateur? sword?)? si utilisateur alors faut garder mais pour le reste c à déterminer : règles à implémenter.


Les bases a considerer

Commande: docs avec DOI seulement

Solution choisie: Base Unpaywall enrichie par scanR pour savoir quels docs on va prendre

Base : auteurs avec compte dans hal on essaye de les repérer => on leur propose des docs qu’on ne trouve pas sur Hal et qui sont ds cette base.

qualité MD Unpaywall? Demande de précisions

 Laurent : unpaywall manque qqfois URL de fichiers exploitables
 => travailler avec crossref pour récupérer des URL de fichiers OK : voir cas avec Laurent
 free access temporaires ou autres AO : comment faire le tri? Demande de précisions

ScanR : s’intéresse aux affiliations, pas aux auteurs, mais ils font le dédoublonnage avec Hal

=> utilisation de notre graphe RDF auteurs/ co-auteurs pour améliorer la qualité de ce qu’on identifie comme auteur on préfère rater un doc que l’attribuer pas au bon Avec cette méthode : un auteur seul peut être moins bien identifié qu’un auteur avec co-auteurs.

Projets connexes

Projet Dissemin : intéressant à regarder car problématiques proches. Non accepté

Processus

Questions=

L'envoie de message au déposant est-il nécessaire ? Demande de précisions

 Moins un problème de droit/autorisation que  confirmation par l'auteur que c’est bien lui
 Si oui, affiliation correcte
 L’auteur valide
 Si vrai identifiant d’auteur (orcid) alors dans ce cas, pas besoin de confirmation
 La confirmation par l'auteur est donc conditionnelle

Définition des différents cas d’utilisation:

  • si affiliation certaine alors oui on pourrait se passer de l’autorisation
  • Pour l’instant on se contente d’unpaywall, après on pourrait envisager d’autres sources
  • Règles à établir :Demande de précisions
    • si plos ok on prend
    • si tel éditeur OK
    • si telle autre chose : pas OK => on envoie un message à l’auteur

Production de jeux de tests

   Qui Demande de précisions


Résumé

Base en entrée avec docs avec doi + données unpaywall+ tel auteur corrspond à tel user de hal +connaissance de l’endroit où est le PDF (plos, etc…).

Sur quoi le user doit être interrogé pour se positionner : tjs? Oui transfert non transfert pas Doit-on lui proposer autre chose? 2 auteurs repérés :comment fait-on? QQfois infos sur l’affiliation: admin auront-ils une interface pour géré ça? Bref cas d’usage à définir+ règles

Marlène : compte déposant ou idhal? L’un implique l’autre

Bruno: compte user indispensable (ou identifiant tel orcid (ou idhal ou…))

+ ScanR : identifie structure française. Donc doit-on prévenir les admin des structures? => identifier les structures par le RNSR : donné par la base via ScanR doit correspondre au RNSR donné ds hal référentiel structures. D’autant plus que certains déposants peuvent être ‘institutionnels’ => structure identifiée mais les auteurs ne sont pas forcément présents ds hal

Alain: Base de départ issue d’unpaywall filtres? Faux positifs? doublons? -si on rate des choses tant pis on ne vise pas l’exhaustivité (voir conditor) mais faciliter les dépôts sans trop emmerder les auteurs : on préfère avoir des faux négatifs que des faux +ifs -on utilise now le travail de scanR: appariement déjà fait : filtre fait par eux, améliorable mais chez eux now; tel article est ds hal ou tel autre l’est .mais pbs de MAJ possibles car ce qu’ils ns ont donné a 6 mois donc refaire un peu le travail. Algorithme de détermination évolutif.


Alain : modération pour ces docs? Bruno : pas de décision là dessus ce sont des questions, Pas forcément à traiter ici, pb plus général et règles à fixer pas forcément spécifiques à ce projet

Actions

Faire un espace ds le wiki de casuhal pour le groupe projet. Fait Bruno : document sur ce projet à envoyer, cadre + cas d’usage, Doc à commenter par le groupe. Fait Mettre en contact IG avec LJ pour politique de fusion de meta Fait

Evolution du projet

  • autres sources que unpaywall?
  • autres identifiants que le DOI : type orcid?

Planning

Travail sur le référentiel auteurs privilégié => ‘retard’ sur ce projet, 2019 sera difficile


  • Que doit être la production du groupe
    • Liste de fonctionnalité
    • Description du processus.
    • Réponses aux diverses questions et proposition de decision

objectif : avoir une Liste de fonctionnalités à prioriser + workflow applicatif correspondant

    • Production de jeux de tests
    • choix de vocabulaire et process à faire…