Télécharger le PDF

BSO ASNR — Mise en place et retour d’expérience

Rapport de stage (M1 GSI, Paris 8) : construction d’un Baromètre de la Science Ouverte pour l’ASNR.

Histogramme stylisé avec badge Open Access Trois barres en croissance, style tableau de bord, avec un pictogramme OA.

Résumé

Mon travail à l’ASNR s’inscrit dans la continuité d’initiatives antérieures autour de la science ouverte (constitution d’une base de thèses et mise en place d’une collection HAL IRSN), avec un objectif désormais central : concevoir et déployer un Baromètre de la Science Ouverte (BSO) institutionnel. Le BSO constitue un outil de pilotage : il consolide des sources hétérogènes (Scopus, OpenAlex, HAL), clarifie les périmètres (DOI vs DOI ∪ idHAL), fiabilise les indicateurs (taux d’OA, couverture des bases, apports marginaux) et documente les choix méthodologiques (dédoublonnage “DOI-first”, contrôle du bruit d’affiliation, traçabilité des transformations). Il permet ainsi d’objectiver la performance de l’établissement en matière d’accès ouvert, de prioriser les actions (dépôts, corrections de métadonnées) et de soutenir la décision dans un contexte de forte exigence de transparence. Le rapport présente d’abord le cadre (ASNR et périmètre d’analyse), puis la méthodologie et les résultats du BSO, avant d’ouvrir sur une analyse critique des points sensibles observés (définition des dénominateurs, qualité des correspondances d’affiliation, reproductibilité des traitements). Cette approche vise à offrir un dispositif robuste, réutilisable et aligné avec les exigences de la science ouverte.

Contexte

La création de l’ASNR (fusion ASN+IRSN) exige un suivi fiable de la production scientifique et du taux d’Open Access. Le BSO institutionnel vise à consolider 2013–2024 malgré l’hétérogénéité des bases et le bruit d’affiliation.

Approche

Pipeline “DOI-first” : construction d’une base maître, dédoublonnage, consolidation Scopus/OpenAlex/HAL, enrichissement Unpaywall (OA/licences), contrôles manuels ciblés. Périmètres explicités (DOI vs DOI∪idHAL), scripts reproductibles et traçabilité des choix.

Impact

Couverture objectivée (OpenAlex ≥70% avec ~20% hors Scopus), taux d’OA mieux estimés grâce aux dépôts/corrections HAL. Indicateurs actionnables pour la gouvernance et un processus pérenne qui réduit le bruit et le temps de curation.

Problématique et table des matières

Problématique

Comment fiabiliser un BSO institutionnel pour l’ASNR à partir de sources hétérogènes comme Scopus, OpenAlex et HAL en limitant le bruit et en maximisant le dépôt OA réel ?

Table des matières

Méthodologie

Design

Constitution d’une base maître, dédoublonnage par DOI, contrôle typologies.

Collecte

APIs OpenAlex/Scopus/HAL, ajout OA/licence via Unpaywall.

Analyse

Croisements, vérifs manuelles, dépôts HAL, reporting intermédiaire.

Points clés

Couverture & apports

  • Base V1 : 7092 lignes.
  • OpenAlex couvre >70% ; ~20% hors Scopus.
  • Scripts : enrichissement HAL id / OA / APC.

Points de vigilance

  • BSO national : utile mais peu transparent.
  • Affiliations : éviter requêtes texte, préférer DOI.
  • Typologies : préférer type_crossref.

Galerie de figures

Mindmap méthodologie
Méthodologie
Comparatif métadonnées
Comparatif des métadonnées

Formules (LaTeX)

  • Taux d’Open Access : sur 100 publications prises en compte, combien sont en libre accès. Deux périmètres : DOI seul (strict) vs DOI ∪ idHAL (plus large).
  • Couverture & apport : on compare OpenAlex et Scopus. La couverture indique la part visible dans OpenAlex, l’apport montre ce qu’OpenAlex ajoute au-delà de Scopus.
  • Qualité du matching : Précision (limiter le bruit), Rappel (ne pas rater de vrais cas), F1 (équilibre des deux).
  • Dédoublonnage “DOI-first” : si plusieurs lignes ont le même DOI, on garde la meilleure fiche et on fusionne les infos.
À éviter : comparer des taux OA calculés avec des dénominateurs différents (ex. DOI seul vs DOI∪idHAL). Toujours annoncer le périmètre.

1) Taux d’Open Access — périmètres explicités

\[ \text{Taux OA}_{\mathrm{DOI}} = \frac{\#\,\mathrm{OA\ (DOI\ Crossref)}}{\#\,\mathrm{publi\ (DOI\ Crossref)}} \times 100\% \] \[ \text{Taux OA}_{\mathrm{DOI}\cup\mathrm{idHAL}} = \frac{\#\,\mathrm{OA\ (DOI\ Crossref\ \lor\ idHAL)}}{\#\,\mathrm{publi\ (DOI\ Crossref\ \lor\ idHAL)}} \times 100\% \]

2) Couverture & apport marginal (OpenAlex vs Scopus)

\[ S=\text{Scopus},\quad A=\text{OpenAlex} \] \[ \text{Couverture}(A) = \frac{|A|}{|S\cup A|},\qquad \text{Apport}_{A\setminus S} = \frac{|A\setminus S|}{|S\cup A|}\times 100\% \]

3) Qualité du matching d’affiliation

\[ \mathrm{Pr\acute{e}cision}=\tfrac{TP}{TP+FP},\quad \mathrm{Rappel}=\tfrac{TP}{TP+FN},\quad \mathrm{F1}=2\cdot\tfrac{\mathrm{Pr\acute{e}cision}\cdot\mathrm{Rappel}}{\mathrm{Pr\acute{e}cision}+\mathrm{Rappel}} \]

4) Règle de dédoublonnage « DOI-first »

// Dédoublonnage "DOI-first" et fusion des métadonnées
for each DOI-group g:
  if |g| > 1:
    // Priorité de qualité : Scopus > OpenAlex > HAL (si présent)
    keep = argmax_r score_metadata(r)
    merge(keep, g \ {keep})  // union des champs non vides
  else:
    keep = only(g)
append(keep)

// Exemple de score simpliste
score_metadata(r) = w1*has_crossref_type(r) + w2*completeness(r) + w3*source_priority(r)

Annexes & téléchargements