Urfist Info

Syndiquer le contenu
Actualité des sciences de l'information
Mis à jour : il y a 12h 44 min

Pour une utilisation critique des réseaux sociaux académiques

14 févr. 2014 - 12:21

L’information n’a pas encore reçu beaucoup d’échos en France : et pourtant cela fait plusieurs mois maintenant qu’Elsevier demande régulièrement le retrait d’articles déposés par leurs auteurs sur le réseau social Academia. Si on le regarde sous l’angle de l’open access, cet exemple souligne incontestablement l’« injustice fondamentale de l’actuel écosystème de la communication académique » (John Dupuis). Mais il met également en lumière l’arrivée à maturité des réseaux sociaux académiques : à l’heure où Elsevier peine à se créer une place sur les outils 2.0 (échec de 2collab en 2011, rachat de Mendeley en 2013), il n’est pas étonnant que celui-ci attaque les nouveaux challengers qui se développent auprès des communautés académiques, après avoir laissé faire. Et ce n’est pas un hasard si Olivier Dumon, managing director chez Elsevier, vient de publier sur le Huffington Post un article intitulé « The Business of Science: Social Networking of Science » : ces challengers ne sont pas sans soulever, eux aussi, un certain nombre de questions.

Réseaux sociaux académiques ?

Qu’ils soient outils de production et de diffusion de l’information (comme les wikis, les blogs ou Twitter) ou outils sociaux et de partage (comme les plateformes de contenus et les réseaux sociaux), le web 2.0 propose désormais des outils capables de répondre aux attentes et usages des chercheurs (Anatoliy Gruzd, Melissa Goertzen et Philip Mai, 2012). « Réseaux sociaux académiques », « réseaux sociaux scientifiques », « réseaux sociaux de chercheurs », « academic social networks »… Si les premiers réseaux sociaux numériques grand public se sont développés à partir de la fin des années 1990 et si les chercheurs ont d’abord utilisé Facebook, c’est seulement à partir de 2007-2008 qu’ils ont pu profiter de réseaux qui leur étaient spécifiquement destinés avec des caractéristiques propres à leurs besoins (CV, diffusion de documents, outils de visualisation, métries…) (Emma Bester) .

Ces réseaux se développent progressivement dans le paysage académique français. S’il faut rester prudent sur les méthodes d’enquête employées, on estimait en 2013 que 94 % des établissements de l’enseignement supérieur étaient sur les réseaux contre 68 % 2 ans plus tôt (étude Arces, 2013), et du côté des organismes de recherche, cette  présence est même considérée comme « incontournable » (étude Wanacôme, 2012). Du côté des chercheurs proprement dits, 70 % utiliseraient les réseaux sociaux (étude CNRS, 2013), contre 42 % en 2011 (étude URFIST de Nice, 2011). Mais toutes les études soulignent, d’une part, une certaine méconnaissance des réseaux sociaux spécifiquement académiques, au profit de Facebook et Twitter par exemple, et d’autre part, l’extrême dispersion des informations et des réseaux – les sciences informatiques et les SHS utilisant ainsi plus les réseaux sociaux que d’autres disciplines.

Il est difficile aujourd’hui d’avoir une idée précise du nombre de réseaux sociaux académiques existants dans le monde, tant ils se sont multipliés ces cinq dernières années, depuis les grands réseaux généralistes (Academia et ResearchGate) jusqu’aux réseaux de niche (Malaria World…), en passant par les réseaux thématiques (Biomed Experts, MyScienceWork).

Parmi tous ces réseaux, trois sortent plus particulièrement du lot :

  • Academia : ouvert en 2008 par un docteur de philosophie à Oxford et hébergé à San Francisco, c’est actuellement le réseau le plus important au monde, avec plus de 7,4 millions de comptes, et celui qui se développe le plus vite. Plutôt orienté SHS, il est centré sur le partage de documents (2,4 M. à l’heure actuelle) selon une démarche de peer-review post-publication. On notera que l’extension « .edu » ne renvoie pas à un établissement d’enseignement supérieur à but non lucratif, mais a été déposée avant la régulation des noms de domaine en « .edu » ;
  • ResearchGate : ouvert en 2008 par deux virologues et un informaticien et localisé à Berlin, le réseau affiche 3 millions de comptes, plutôt dans le domaine des sciences, techniques et médecine. Permettant de partager des documents, comme Academia, il met surtout en valeur d’une part son moteur de recherche sémantique interrogeant de nombreuses bases de données et d’autre part sa bourse de jobs ; en revanche, si l’on en croit l’un de ses co-fondateurs, il se voit moins comme un concurrent au mode de publication classique qu’un complément favorisant la diffusion de la science ;
  • MyScienceWork : un des derniers venus, puisqu’ouvert il y a tout juste un an, tout en étant adossé à un blog de vulgarisation scientifique ouvert précédemment, le réseau social MyScienceWork a commencé à se faire une place dans les réseaux sociaux académiques du fait de son orientation résolument open access, là encore en utilisant un moteur de recherche sémantique. Créé par une docteur en nanotechnologies et un ingénieur financier français et basé au Luxembourg, il comptait en septembre 40 000 inscrits.

Derrière les chiffres annoncés, on aimerait cependant connaître le taux d’engagement réel. Rappelons que dans le cas de Twitter, au moins 20 % des comptes seraient inactifs, et que  les principaux réseaux sociaux, comme Facebook ou Google+, communiquent plus maintenant en terme d’utilisateurs actifs que de nombre d’inscrits…

 

De quelques enjeux de ces réseaux

Un contexte de recherche toujours plus concurrentiel et précaire, la recherche d’une meilleure visibilité tant des institutions que des chercheurs, des services personnalisés et l’intérêt aussi pour les métries et l’auto-évaluation expliquent sans nul doute cet engouement récent pour les réseaux sociaux académiques. Néanmoins si les dernières journées d’étude et les débats sur ces questions insistent bien sur l’utilité de ces réseaux et leurs enjeux ([1]), ils se placent souvent davantage du point de vue du chercheur ou de l’institution ([2]) que de celui des réseaux sociaux eux-mêmes.

Communauté, partage et visibilité. Tant les slogans que le discours de leurs fondateurs ( [3]) se placent dans la droite ligne des préoccupations des chercheurs. Il faut dire que ces fondateurs étant eux-mêmes des (anciens) chercheurs, ils ont une certaine connaissance du contexte. Mais dans le même temps, ne nous leurrons pas : les sociétés derrière ces réseaux ne sont nullement des philanthropes et ont (aussi) des préoccupations financières. À l’heure actuelle, peu de réseaux sociaux bénéficient de fonds publics – citons à titre de contre-exemple AgriVivo, projet initié et mené par le GFAR (Global Forum on Agricultural Research), en collaboration avec l’université de Cornell et la FAO. Academia a levé depuis sa création 17, 7 M $, tandis que la troisième levée de fonds de ResearchGate au printemps dernier s’est monté à 35 M $, en intéressant Bill Gates lui-même. Quant au petit poucet MyScienceWork, après une première levée de 1,2 M. € provenant d’une part d’un fond d’investissement et d’autre part d’une subvention publique, il espérait lever fin 2013 entre 6 et 8 M. € supplémentaires. L’enjeu est bien pour toutes ces entreprises de « faire fonctionner […] [un] business model rentable » (Tristan Davaille, de MyScienceWork). Si, pour l’instant, au contraire des réseaux sociaux professionnels de type LinkedIn, les réseaux sociaux académiques sont gratuits, ils ne repoussent pas l’idée de services payants à l’avenir, comme des partenariats commerciaux avec des entreprises industrielles pour ResearchGate. De son côté, MyScienceWork envisage une offre premium où « l’accessibilité à certains articles serait alors payante moyennant un forfait avec des fonctionnalités supplémentaires ». Que l’on s’en offusque ou que l’on y voit l’opportunité de développer de tels services, ces quelques exemples illustrent bien la part toujours plus importante des capitaux privés dans le monde académique.

Autre question que devrait se poser tout utilisateur de service en ligne, celle du contenu et de la propriété des données. Et l’on ne s’étonnera guère de voir dans les terms d’Academia que l’inscrit « grant to Academia.edu a worldwide, irrevocable, perpetual, non-exclusive, transferable, royalty-free license, with the right to sublicense, to use, view, copy, adapt, modify, distribute, license, sell, transfer, publicly display, publicly perform, transmit, stream, broadcast and otherwise exploit such Member Content only on, through or by means of the Site or Services ». Et pour MyScienceWork, dont les articles et pages sont placés sous licence Creative Commons, cela s’applique-t-il à la partie réseau social également ou seulement au blog ?

Quant à la protection du droit d’auteur, même si ces réseaux donnent la possibilité de demander le retrait d’articles en cas de non-respect du droit d’auteur, on ne peut pas dire qu’Academia et ResearchGate fassent beaucoup d’efforts pour contrôler les téléchargements de fichiers a priori, reprenant ainsi les modes de fonctionnement d’un YouTube par exemple. A la question « Do I have copyright to upload papers to my profile page?  » la FAQ d’Academia répond simplement : « According to Sherpa , which tracks journal publishers’ approach to copyright, 90% of journals allow uploading of either the pre-print or the post-print of your paper »… Quant à l’origine des données moissonnées, Stéphane Pouyllau soulignait récemment que MyScienceWork n’indiquait pas l’origine des publications retournées par le moteur de recherche, quand bien même elles étaient sur des plateformes d’archives ouvertes, et allait jusqu’à parler d’une « certaine privatisation du savoir ».

A l’instar des évolutions d’interface de Facebook ou de Twitter, nombre de ces réseaux donnent déjà l’impression, voire nécessitent de devoir s’inscrire pour accéder au contenu ou aux profils détaillés. On ne peut qu’être un peu étonné que la consultation de MyScienceWork, spécialisé dans le contenu en libre accès, nécessite une inscription, toute gratuite soit-elle ; il est vrai que c’est le seul moyen pour avoir des suggestions personnalisées. Or, la question est loin d’être anecdotique : si les profils de réseaux sociaux sont mieux références sur Google et que la visibilité des papiers d’un chercheur est meilleure sur les réseaux sociaux que sur des plateformes d’archives ouvertes, quel intérêt aurait-il à déposer sur ces dernières ? Et dans le scénario du pire – si les chercheurs déposent plus volontiers sur les réseaux sociaux ou si l’un des réseaux sociaux devient dominant -, c’est l’ensemble du système des plateformes institutionnelles et des archives ouvertes qui pourrait être remis en cause (Centre for Research Communications, University of Nottingham, 2011, point 5.4 notamment). Situation qui ne manquerait pas d’avoir de graves conséquences également si ces réseaux rendaient alors accessibles leurs contenus, au mieux, aux seuls abonnés, au pire, contre une forme ou une autre de monétisation au chercheur ou un rachat par des prédateurs – le rachat de Mendeley par Elsevier s’élevait à 45 M. £. Néanmoins, elles sont encore peu nombreuses les institutions qui, à l’instar du laboratoire lyonnais Triangle (UMR5206), indiquent comme bonne pratique à leurs personnels de ne déposer sur Academia qu’un lien vers le texte dans HAL ou sur le site des revues. Au vu du turn-over rapide de ce genre de plateforme jusque-là (qui se souvient de Labmeeting, UniPHY ?), c’est bien de l’accessibilité et de la pérennité des données scientifiques qu’il s’agit.

Enfin, on aimerait connaître les services que ces réseaux envisagent de développer à destination des chercheurs, car, pour l’instant, les services proposés se fondent totalement dans les pratiques académiques actuelles, en mettant l’accent avant tout sur les éléments quantitatifs. Academia propose ainsi un certain nombre d’analytics sur le nombre de vues des profils, des documents… Mais dans ce domaine, c’est sans doute ResearchGate qui est à la pointe avec son indicateur RG Score, lancé à l’été 2012 et qui vise à mesurer la réputation académique des chercheurs en fonction de leurs contributions et de leurs interactions dans le réseau. Si les données de ce RG Score sont largement à relativiser, il n’en demeure pas moins que ResearchGate montre bien dans quelle direction se développent désormais les métries, celle de l’auto-évaluation. Mais loin de remettre en cause le système actuel, il doit être, de l’avis même de ResearchGate, « used in combination with other metrics ». Et une nouvelle fois, difficile de ne pas voir les arrière-pensées commerciales d’un tel réseau, à l’image d’un Thomson-Reuters et son Impact Factor… Deux écueils apparaissent alors clairement. D’une part, mais ce n’est pas une nouveauté, on peut craindre que de tels métries incitent les chercheurs à développer leurs recherches dans les domaines les plus populaires (cf. témoignages sur Academia) – or, comme le rappelle avec humour, Frédéric Clavert, « si Febvre et Bloch s’étaient souciés de leur RGScore, ils n’auraient pas fondé l’école des Annales ». D’autre part, on peut craindre que « des entités privées deviennent les acteurs centraux de l’e-réputation scientifique » (Bastien Guerry).

 

Des pistes de réflexion

Que l’on ne se méprenne pas, le but ici n’est pas de jeter le bébé avec l’eau du bain ; plusieurs études montrent en effet tout l’intérêt des outils 2.0, dont les réseaux sociaux font partie, comme complément des pratiques traditionnelles en matière de communication scientifique  (étude RIN, 2010) et en matière de veille et de recherche [4]. La question centrale est de pouvoir utiliser ces réseaux en connaissance de cause. Or, par bien des aspects, les enjeux des réseaux sociaux ne sont pas sans rappeler les questions liées à l’open access et à la gestion des données de la recherche ; car ce qui explique également le développement de ces réseaux, c’est le manque de connaissance et de visibilité des archives ouvertes auprès des chercheurs. Dès lors, c’est aux institutions et aux knowledge intermediaries de poursuivre, encore et toujours, la veille et l’information/formation sur ces problématiques (Rob Procter et al., 2010 et Françoise Gouzi). De fait, ces outils ne sont pas des outils scientifiques professionnels [5], et il convient d’avoir conscience de leurs limites pour ne pas y investir plus de temps et de données que nécessaire.

Ne nous leurrons pas : à l’heure actuelle, ces réseaux n’ont pas de concurrent institutionnel valable – les différents projets envisagés de réseaux aux Etats-Unis ou en Allemagne  ou encore les projets français autour des humanités numériques  ne semblent pas avoir abouti. Et même si l’idée d’une couche sociale dans HAL (v3 de HAL, projet IDHAL , prévue au printemps[6], est séduisante, elle n’aura aucun sens si elle ne propose pas le genre de services qui font la force de ces réseaux comme les suggestions personnalisées, et ne favorise pas l’interopérabilité avec d’autres services étrangers. Dès lors, « un effort coordonné de nos tutelles s’impose pour le promouvoir plus fortement, quitte à mettre en avant les interactions possibles de cet outil avec les réseaux sociaux » (Eric Verdeil).

Et pourtant, ce genre de service pourrait créer de véritables valeurs ajoutées pour le chercheur et son institution. A l’heure du Big Data, de l’e-science et des Digital Humanities, on pourrait en attendre des fonctionnalités plus développées que de simples métries ou des suggestions à la Amazon, et, quitte à utiliser nos données ou des données en open access, pourquoi ne pas envisager, comme certains le font ici, ou encore , de les voir proposer des modèles payants (selon le principe du freemium) pour le chercheur (gestion de l’identité numérique, outils de visualisation, suggestions plus poussées via le text-mining, achat de documents sous droits voire aide au recrutement) ou les institutions (conseil et formation, collections institutionnelles, outils analytiques poussés, lien vers les ressources de l’institution via OpenURL, organisation d’événements[7]…). Car les institutions aussi peuvent profiter de ces réseaux – l’IHA (Institut historique allemand), par exemple, dispose  de comptes sur Academia pour valoriser ses différentes collections numériques. À condition cependant que ces plateformes et les institutions publiques partagent véritablement les mêmes politiques et les mêmes intérêts pour le bénéfice de tous, et non celui des seuls investisseurs…

Notes :
[1] Sur cette question, on pourra se reporter aux références indiquées par Odile Contat, « Réseaux sociaux pour les chercheurs – A lire ou à relire » et aux échanges autour du billet de Frédéric Clavert. « Appel à commentaires: pourquoi les réseaux sociaux pour chercheurs intéressent-ils tant? » (retour).
[2] Citons par exemple la journée Identité numérique et visibilité du chercheur sur le web, organisées à la Maison de l’Orient et de la Méditerrannée, le 6/12/2013 (retour).
[3] « Join the global research community » (MyScienceWork), « Share research » (Academia), « For Scientists. Make your research visible » (ResarchGate)(retour).
[4] Carole Tisserand-Barthole. « Veille et recherche scientifique 2.0 : au-delà des ressources classiques ». Bases, n°206, 09/2012. p. 1-6.
(retour).
[5] En l’absence de contrôle et de dédoublonnage, par exemple, Academia propose près d’un million de research interests. (retour).
[6] La nouvelle version de HAL doit permettre de créer un projet de fédération des identités du chercheur, en permettant de générer son CV en plus des publications (en lien avec IdRef ?). Restent en question l’ajout des icônes de partage sur les réseaux sociaux et une orientation plus chercheur-centré que document-centré (retour).
[7] Pour un exemple de ce débat public/privé, on pourra se reporter à la discussion autour de l’organisation de l’Open access week de 2013 (retour).

Ressources documentaires électroniques en milieu universitaire : Retours sur Investissements

23 janv. 2014 - 17:18

Le laboratoire ELICO et le consortium national Couperin organisent une journée d’étude le vendredi 21 février 2014 à Lyon (Université Lyon 1, Campus de la Doua, Bâtiment Astrée) intitulée :

“Ressources documentaires électroniques en milieu universitaire : Retours sur Investissements”

Cette journée sera l’occasion de :

-              Présenter les résultats de trois études de Retour sur Investissements pour les bibliothèques académiques basées sur l’usage de bouquets de revues électroniques. La première étude a été menée au Royaume Uni par les chercheurs de l’équipe CIBER et le RIN ; la seconde  étude est américaine, menée par des chercheurs de l’Université du Tennessee ; la troisième est française, menée par des chercheurs du laboratoire Elico.

Mais aussi :

-              Aborder les questions de méthodes d’élaboration d‘indicateurs basés sur les statistiques d’usages des ressources électroniques.

-              Interroger sur la pertinence de la mesure des usages en regard des enjeux financiers afin d’évaluer la valeur des bibliothèques et de leurs activités.

-              Dégager, à partir des résultats présentés, des pistes méthodologiques complémentaires à explorer.

En outre,  Couperin présentera les projets MESURE et analogIST qui met en place le recueil systématique des statistiques d’usage.

Vous pouvez prendre connaissance du pré-programme et vous inscrire en suivant ce lien : http://roi-couperin.sciencesconf.org/

 

“Données” de la recherche, les mal-nommées

15 nov. 2013 - 17:34
D’où tu parles ?

L’accès aux données de la recherche fait partie des dossiers d’actualité des bibliothèques universitaires françaises. A ce stade, la question est posée de manière générale ; et avec un effet positif : rappeler que globalement, la collectivité doit se soucier de garantir l’accessibilité aux productions intellectuelles de l’activité publique, et notamment de la recherche publique. Pour les publications, la question de l’accès n’a pas été posée d’emblée, et la communauté scientifique se trouve aujourd’hui dans l’impasse où l’a conduite l’emballement d’une machine commerciale folle : une partie des établissements dans lesquels travaillent les chercheurs n’a pas ou plus les moyens de se payer certaines revues, et l’autre partie se les paye en renonçant à d’autres achats qui contribuaient pourtant à maintenir une diversité éditoriale. Tous les maillons de la chaîne de diffusion des savoirs  y ont pris, souvent inconsciemment, une petite (ou grande) part : les auteurs, les éditeurs, les lecteurs, les relecteurs, les acheteurs, les vendeurs, les médiateurs, les financeurs… Et c’est bien parce que cette faillite est celle d’un système et non d’individus que l’open access peine à renverser la vapeur. Pour cette raison, même si les données de la recherche font figure de cerise sur le gâteau quand on a déjà du mal à généraliser le dépôt dans les archives ouvertes, il est quand même réjouissant d’entendre énoncé l’impératif d’accès aux données, et on peut espérer (suis-je naïve ?) que le mécanisme de publication dont nous subissons les effets pervers ne se réenclenche pas pour d’autres objets. Tout l’enjeu est de préserver le caractère public des données de la recherche publique, et d’éviter la privatisation de leur diffusion (à propos du positionnement des éditeurs scientifiques sur la question des données, voir entre autres l’aperçu synthétique que donne Odile Hologne, « Professionnels de l’IST et données de la recherche : des discours incantatoires aux actions concrètes », Documentaliste, 2013, 3, p.30-31).

Mais une fois passé le positionnement d’ensemble de la problématique, si on veut essayer d’agir très concrètement, et à notre modeste échelle, dans l’intérêt collectif, comment procéder ? Car jusqu’à présent, « données de la recherche » me semble être cette grande valise que me confie un voyageur bien sous tous rapports mais dont je n’ai pas vérifié le contenu. Bon sang mais qu’est ce qu’il y a dedans ? En l’entrebaillant je suis assaillie de questions, et je profite du carnet des Urfist pour les partager, en espérant en réponse vos avis, expériences et autres réflexions, de contrebande ou pas.

 

 Données de la recherche qui es-tu ?

A minima, on s’accorde implicitement sur l’idée suivante : quand on évoque « les données de la recherche », on désigne des chiffres, relevés, mesures, résultats d’expérience, réponses à des enquêtes, statistiques, comptages, et autres donnés quantitatives sur la base desquels va s’élaborer une hypothèse, et/ou qui serviront à infirmer ou valider cette hypothèse… bref essentiellement du quantitatif, que l’on pourra traiter, trier, exploiter, visualiser de manière homogène. La publication de telles données fait déjà partie, dans certaines disciplines du moins, des canons de la rédaction d’un article scientifique (par exemple, la partie « Materials and methods » dans les recommandations pour la rédaction d’articles dans des revues médicales).

Mais suivant les disciplines et les thèmes de recherche, les matériaux qui nourrissent une proposition scientifique varient considérablement : les « données » d’un linguiste peuvent des écrits ou des discours, des enregistrements de locuteurs ; les « données » d’un médiéviste sont des sources archivistiques, archéologiques, épigraphiques, iconographiques, littéraires ; les « données » d’un géologue rassemblent des coupes et observations de terrain consignées sur un carnet, des résultats de carottage, des analyses d’échantillons, des données sismographiques… Bref il n’y a pas, et loin de là, que des données quantitatives de même nature qui constitueraient des séries homogènes relativement faciles à manipuler, échanger et compiler.

La notion de données elle-même est à géométrie variable. Pour ce point je m’appuie sur le projet Ecrito, projet de recherche porté par Muriel Lefebvre avec l’Urfist de Toulouse sur la question des archives de chercheurs (http://ecrito.hypotheses.org/). L’enquête auprès d’un laboratoire de mécanique des fluides a montré que les données brutes issues des expériences étaient soumises à des modèles de validation, qui permettaient d’éliminer certains résultats non probants, les « fausses données » (sic) pour ne conserver que les « vraies données » (re-sic) : les données ici ne sont pas un matériau brut, mais le résultat d’une première opération scientifique, fruit d’une méthodologie propre à la discipline ; dans ce cas, le profane est incapable de définir les contours de la masse de données.

Parallèlement, l’absence de définition restrictive du terme « données » rend poreuse la frontière entre données et publications. Certains chercheurs par exemple revendiquent d’utiliser blogs et réseaux sociaux comme canal de publication, et de ne rédiger qu’ensuite, et pas systématiquement, un article soumis à des revues, article qui compte tenu des délais de publication paraîtra in fine entre 6 et 12 mois plus tard. Est-ce que les éléments originaux d’une proposition scientifique, diffusés et discutés par exemple sous forme lapidaire sur un réseau social, se rangent sous l’étiquette « données de la recherche » ? Ils ne sont pas un matériau brut, mais ils sont dépouillés de l’apparat conventionnel des formes éditoriales, sans autre validation que celle de l’auteur, et diffusés via des canaux que les institutions ne savent pas (encore) exploiter totalement. Comment faire en sorte de les prendre néanmoins en compte en tant que forme la plus rapide de divulgation d’un résultat, voire en tant que support d’une co-construction de savoir ?

 

Pour quoi faire ?

Il me semble qu’il n’y a que trois raisons qui justifient le souci de conserver et transmettre cette masse protéiforme de données :

  1. Une raison d’ordre socio-économique : la mise en place de certaines expériences ou enquêtes coûte cher ; communiquer leurs résultats pour les rendre exploitables par d’autres chercheurs est un moyen de les rentabiliser. Et plus largement, dans une optique citoyenne, on peut considérer que les données produites par une recherche financée par des fonds publics doivent rester à la disposition de la communauté scientifique pour être exploités au mieux.
  2. Une raison plus épistémologique : la diffusion des données sur lesquelles s’appuie la formulation d’une hypothèse est un gage de scientificité ; publier ses données, c’est aussi soumettre son interprétation et ses conclusions à la communauté, ce qui vaut implicitement validation par les pairs (ou mise au pilori). Il est à noter que l’unanimité n’est pas acquise sur ce point. D’abord parce que cette forme d’exposition peut être parfois ressentie comme une mise en danger, porteuse de polémiques potentielles sur des choix de traitement et d’interprétation. Ensuite parce qu’elle se heurte à des objections d’ordre méthodologique ; en sociologie ou en anthropologie par exemple, qui s’appuient beaucoup sur des enquêtes de terrain, certains chercheurs expriment de fortes réserves quant aux réelles possibilités de réexploitation d’enquêtes qualitatives ; selon eux, l’interaction entre enquêteur et enquêtés est telle dans ce type d’études que les résultats n’en sont pas réutilisables hors contexte. Ces freins renvoient au fond aux mécanismes à l’œuvre dans la controverse scientifique, puisque les données font partie des clés qui ouvrent la « boîte noire » de la recherche.
  3. Une raison patrimoniale : conserver la trace de la totalité d’un processus de recherche, de la collecte des données à la publication du résultat, est un moyen de transmettre à terme la culture scientifique et de contribuer à une forme d’histoire de la recherche.

 

Pour quel public ?

Si l’on part des objectifs définis ci-dessus, on peut en déduire deux grandes catégories :

  1. Des données qui doivent être réexploitables par de nouveaux programmes de recherche : cela implique de les restituer prioritairement sous des formes et formats conformes aux méthodes et outils dont les chercheurs se servent ; cela peut parfois différer des standards canoniques de conservation ; et cela suppose une activité proche de la curation de données, qui se pratique déjà au sein de nombre de laboratoires. Mais se placer dans la perspective d’une réutilisation ultérieure des données, cela implique aussi de documenter de manière très précise la manière dont ces données ont été constituées, les conditions de l’expérience ou de l’enquête… bref toute information scientifique qui permet, sur le plan épistémologique, de les réutiliser ; et d’indiquer aussi toutes les spécifications techniques ou juridiques qui conditionnent leur exploitation ; c’est-à-dire de créer des métadonnées qui fournissent toutes les informations nécessaires. De plus, pour que des données soient scientifiquement réutilisables à long terme de manière fiable, il faut pouvoir garantir leur intégrité, donc recourir à des infrastructures de type « coffre-fort » électronique qui permettent d’authentifier et de sécuriser les données, sans risque d’altération. On se rapproche de démarches de type archivistique :  travailler avec un producteur d’information pour analyser et consigner son organisation et ses procédures, contextualiser les documents recueillis dans ce cadre, organiser la conservation et l’accessibilité de corpus de données…
  2.  Des données qui s’insèrent dans un ensemble documentaire (archives, publications) pour témoigner de la manière dont s’est opéré le travail scientifique, et pour en témoigner à l’ensemble de la société et non uniquement à la communauté scientifique : ici la notion de médiation est essentielle, car ce sont moins les données elles-mêmes qui comptent que la manière dont elles ont été produites et exploitées dans un processus de recherche, les publications auxquelles elles ont donné lieu, etc. On se situe davantage dans une approche de vulgarisation, avec une forme d’éditorialisation des informations que l’on veut transmettre. Ici, ce qui importe, c’est aussi de maintenir un lien entre des objets que les cloisonnements institutionnels séparent souvent : des archives (dossiers techniques, documents « administratifs », notes, carnets, projets, papiers de recherche, fichiers divers…), des données sous diverses formes (bases, corpus d’images, tables…), des articles et autres publications, des objets (instruments, prototypes, maquettes…), bref tout autant de jalons d’une même chaîne de recherche.

 

Mettre à disposition sous quelle forme ?

Il existe déjà des exemples de mise à disposition organisée des données. Les chercheurs en ont bien sûr été les premiers promoteurs ; les banques de données en génétique et bio-informatique en sont les exemples les plus connus. A côté de ces communautés d’utilisateurs très structurées, il y a aussi place pour des initiatives de mutualisation très diverses : partage de workflows et d’expériences (par exemple MyExperiment, la plateforme portée par les universités de Manchester et Southampton : http://www.myexperiment.org), partage de toutes formes de graphes, schémas, figures, images (y compris ceux d’expériences négatives sur un site comme figshare : http://figshare.com)

Une constante pour ces diverses initiatives : elles fonctionnent par et pour un réseau disciplinaire qui ne se limite pas aux frontières d’un inter-établissement ; il y a un caractère inter-académique inhérent au travail de recherche. A propos des archives ouverte, on a observé aussi un ancrage de départ fortement disciplinaire, lié à la dimension personnelle et militante du choix de cette forme de dépôt ; le développement de l’open access étant passé par une institutionnalisation, on a assisté au développement d’archives ouvertes propres à un établissement, qui répondent à une préoccupation nouvelle : faire connaître la production scientifique de l’établissement ; l’interopérabilité permet d’éviter l’écueil de la dispersion et garantit une accessibilité globale, quels que soient les serveurs sur lesquels on dépose ses publication. Il est néanmoins intéressant de constater que les grands réservoirs disciplinaires comme Arxiv ne disparaissent pas pour autant et continuent d’apparaître comme un lieu « naturel » de dépôt. Cette dimension trans-institutionnelle est tout aussi forte pour les données de la recherche : si l’établissement est le premier lieu de sensibilisation et de formation, l’intérêt de diffuser des données de recherche est bien de toucher une communauté internationale regroupée autour d’un domaine de recherche. Pour cette raison, il me semble qu’un dispositif de collecte et d’accès à des données de recherche ne peut se mettre efficacement en place que sous une forme mutualisée, adossée à un réseau de chercheurs. Car il ne s’agit pas simplement de rendre accessibles les données existantes à l’instant T, mais d’envisager aussi l’alimentation du système au fur et à mesure de la production de nouvelles données, et son évolution par l’intégration de précisons, corrections, annotations partagées…

La question de la forme sous laquelle on rend les données accessibles convoque aussi la figure tutélaire (ces temps-ci du moins) du web sémantique : web of data, linked data, open data, big data, patata. Sur une toile idéale, je n’aurais qu’à tirer le fil d’Ariane. Mais il y a la réalité aussi, qui nous dit que fabriquer du vrai web sémantique, c’est lourd parce que ça signifie tout « traduire » en rdf. Pas folles les nombreuses institutions qui mettent en ligne des fichiers excel ou autre format avec l’étiquette « ouverture des données ». C’est un bon moyen de publier rapidement. En revanche, cela ne permettra pas l’agrégation automatique ni le lien vers d’autres données ; et cela rendra très difficile l’exploitation des métadonnées (quand elles existent…) spécifiant les conditions de constitution du corpus de données. Je ne sais pas trop vers quoi nous devons essayer de porter notre effort : vers un vrai passage des données aux formats du web sémantique, qui ouvre des possibilités d’échange et de traitement fantastiques ; ou vers une mise en ligne beaucoup plus rustique, qui peut s’opérer à moindre frais et plus rapidement ? Il me semble que seule la première branche de l’alternative rendrait à terme de vrais services à la communauté et autoriserait une réexploitation complète des données ; mais est-ce que le mieux risque en l’occurrence d’être l’ennemi du bien ?

 

Libres de droits ?

On entend souvent dire que « les données de la recherche sont libres de droit ». C’est pratique mais je ne suis pas sûre hélas que ça tienne la route sur toute la distance. Il y a un cadre juridique pour les « données du secteur public », cadre juridique qui évolue d’ailleurs au fur et à mesure des directives européennes (voir http://www.etalab.gouv.fr pour l’avancée de l’idée de « gouvernement ouvert »). Mais si l’on s’intéresse à tout le spectre des « données de la recherche », il est difficile de postuler une liberté de droits complète. Dans le matériau que brassent la recherche, il y a certes des mesures, relevés, observations etc. qui sont bien des « données du secteur public » ; mais pas que… Quelques exemples :

  • En philologie, pour l’établissement d’un texte ancien, les « données de la recherche » sont les enseignements fournis par les divers manuscrits ou éditions : variantes textuelles et codicologiques, dont l’établissement est en soi un travail de recherche. Or dans un tel processus, on peut à plusieurs étapes se retrouver confronté à des questions de droit : les manuscrits étudiés peuvent être détenus par un organisme qui n’autorise pas, ou qui commercialise, leur reproduction ; le travail intermédiaire de lecture, de relevé des variantes et d’analyse est un travail auquel s’applique le droit d’auteur ; et l’édition finale, établie à partir d’une comparaison de diverses versions et d’hypothèses génétiques, est souvent publiée sous le régime privé des contrats d’édition.
  • En sociologie, anthropologie ou histoire contemporaine, le matériau de base de certaines recherches est une campagne d’entretiens et d’observations enregistrés ou filmés. La trame de l’entretien est un travail du chercheur ou de l’équipe de recherche. Le contenu recueilli est en revanche l’oeuvre des interviewés, soumis à leur autorisation pour toute diffusion.
  • En histoire de l’art ou histoire culturelle, certains travaux se fondent sur le repérage et la constitution d’un corpus de sources iconographiques, sur lesquelles peuvent coexister plusieurs droits (celui de l’auteur de l’œuvre originale si elle n’est pas dans le domaine public, celui de l’auteur de la prise de vue ou de la reproduction, celui de l’agence ou de l’institution gestionnaire des droits photo, etc)

On est loin d’épuiser la totalité des cas de figure. Ces exemples ont pour but de montrer que, suivant ce qu’on qualifie de données de la recherche, on peut avoir à appliquer diverses strates juridiques. C’est pourquoi il serait peut-être plus simple de dissocier quand c’est possible la question du droit d’auteur de celle de l’open access : en effet, mettre en libre accès des documents ou des données, ce n’est pas supprimer le droit d’auteur qui les protège ; c’est simplement empêcher qu’il y ait une exclusivité de leur exploitation. Ainsi un auteur qui publie son travail sur une plateforme open access conserve bien sûr sa qualité d’auteur et les droits moraux qui y sont attachés ; il conserve aussi le droit, s’il le souhaite, de gérer lui-même toute forme de reproduction ou de représentation ultérieure de son article (exploitation publique, adaptation, traduction…) ; il peut aussi publier son article dans une revue et céder à l’éditeur les droits d’exploitation sur la forme publiée par la revue ; en revanche il ne peut vis-à-vis de cet éditeur s’engager sur le caractère inédit de son article, pas plus que céder tous les droits patrimoniaux de manière exclusive. C’est dans cet ordre d’idées que certains bailleurs de fonds ou institutions exigent la publication en open access des productions issues de programmes de recherche qu’ils ont portés ou financés.

 

Peut-on conclure ?

A supposer que vous ayez lu jusque là, oui, je me dépêche.

La transmission de ces données est indissociable des usages et des besoins des chercheurs, et ne peut être assurée qu’avec eux. Mais justement pour cette raison, de vraies questions à travers ce sujet sont posées aux bibliothèques et plus largement aux professionnels de l’information :

  1. Quelle place désormais pour l’article ? La forme réputée reine de la publication est un peu bousculée, à la fois par la diminution de la part de contenu original (beaucoup d’articles de type « état de l’art » ou de reprises de publications antérieures), par l’émergence de nouveaux canaux de diffusion (réseaux sociaux scientifiques, blogs…), et par la prise en compte croissante d’autres productions (rapports, documents techniques…). Or beaucoup de modèles reposent sur une distinction nette entre publication et reste de l’activité scientifique, la répartition entre bibliothèques et archives ou les modalités d’évaluation, pour ne citer que quelques broutilles. L’évolution des contours de la publication remet ces modèles en question, même si c’est à la marge (il faut bien commencer).
  2. Mieux prendre en compte l’ensemble des productions de la recherche : limitée à une partie seulement des publications, et qui plus est une partie qui ne constitue plus à coup sûr le premier lieu de diffusion de la recherche comme on vient de le dire, l’actuelle bibliométrie perd de sa légitimité. Notre rôle pourrait être aussi de faire valoir l’argument suivant : les articles ne présentent qu’une part limitative, à la fois « lissée » et peu réexploitable, de l’activité de recherche ; prendre en compte la totalité de l’activité scientifique suppose de s’intéresser à la totalité des productions (rapports, cours, papiers de recherche, mémoires…).
  3. Penser l’ensemble des productions documentaires de la recherche : données, notes, carnets, échanges, brouillons, articles. La totalité de ces formes est englobée sous l’appellation « archives » (= tous les documents produits ou reçus dans l’exercice d’une activité). Archivistes et bibliothécaires ont beaucoup à apprendre les uns des autres, pour assurer la cohésion de cette chaîne de production. Et idéalement, leur travail devrait aussi s’articuler avec celui des services chargés de la conservation du patrimoine scientifique matériel ou immatériel (objets et instruments, histoire et anthropologie des sciences).
  4. Comprendre les méthodes et les besoins des chercheurs : avec la question de la documentation électronique, les bibliothèques se sont positionnées sur des questions techniques, administratives et juridiques liées à l’acquisition et à la mise en œuvre des accès ; elles ne sont pas rentrées dans les contenus. Concernant les données de la recherche en revanche, les questions d’acquisition, d’accès et d’exploitation sont indissociables des impératifs scientifiques et ne peuvent être envisagés qu’avec la communauté des chercheurs. Le cadre de l’établissement n’est pas forcément pertinent, pas plus que les standards documentaires traditionnels. Entre recherche et documentation, il y a un espace à investir pour les bibliothécaires et les chercheurs qui ont envie de travailler ensemble à la diffusion des données.
  5. Et last but not least, à travers nos actions de formation ou d’autres initiatives, faire prendre conscience à la communauté scientifique que ce qu’elle produit est un bien collectif, qu’il faut conserver et diffuser dans un cadre public, et que les données de la recherche en font partie.

 

Former à l’information Brevets dans l’enseignement supérieur

30 oct. 2013 - 18:17

La culture académique française fut longtemps peu encline à dispenser l’enseignement des principes de la propriété industrielle (P.I.). Dans les cursus S.T.M. (Science, Technologie, Médecine), elle a principalement favorisé la publication scientifique classique valorisée par la bibliométrie.
Par-delà les bases de données chimiques mettant l’accent sur les brevets et les données spécialisées issues notamment de l’agence britannique Derwent, l’Internet permet à un public large, étudiant en particulier, d’appréhender aisément l’information Brevets, à travers la base Espacenet produite par l’Office européen des brevets. Les biais induits par cette facilité impliquent un enseignement méthodologique rigoureux propre à renforcer la représentativité de la P.I. dans les cursus S.T.M. Est ici présentée la relation d’une expérience de formation à l’innovation en milieu universitaire.

Manuel Durand-Barthez « Former à l’information Brevets dans l’enseignement supérieur », Revue internationale d’intelligence économique 1/2013 (Vol. 5), p. 25-38.
URL : www.cairn.info/revue-internationale-d-intelligence-economique-2013-1-page-25.htm.
DOI : 10.3166/R2IE.5.25-38.