vendredi 20 février 2015

Données sans licence ne sont que ruine de la science

Le 16 janvier dernier, l'ADBS (association des professionnels de l'information et de la documentation) a consacré une journée d'étude à la gestion des données de la recherche, journée assez passionnante du fait de la diversité des expériences de terrain et des domaines scientifiques envisagés. J'en retiens notamment la première intervention, qui présentait les grandes lignes d'un "Data Management Plan" multi-disciplinaire, ayant vocation à s'appliquer à l'échelle de l'ensemble des établissements de l'enseignement supérieur rattachés à la Communauté d'Universités et d'Etablissements Sorbonne Paris Cité. C'est en soi une première en France, et il est très probable que d'autres établissements universitaires s'engageront dans le sillon tracé par la COMUE SPC. Vous pouvez retrouver l'ensemble des présentations sur le site de l'InVisu.


De l'enjeu des licences en matière d'open data


Durant la journée, il a beaucoup été question de stockage matériel des données, condition concrète de leur conservation et de leur mise à disposition, et de l'élaboration de politiques de coopération avec les laboratoires afin de collecter et de conserver des données normées dans des formats interopérables. Cependant, la question de la réutilisation, plus précisément des conditions juridiques garantissant la pleine réutilisabilité de ces données, a été assez peu abordée. Non pas que les questions juridiques aient été totalement évacuées des présentations; mais elles ont surtout été abordées dans le cas particulier des silos de données semi-fermés, dont l'accès est restreint à un certain type de population. Telle BeQuali, la Banque d'Enquêtes Qualitatives développée par le Centre de données socio-politiques UMS 828 IEP Paris-CNRS, et destinée à mettre à disposition des enquêtes en Sciences Humaines et Sociales: pour des raisons touchant essentiellement à la protection des données personnelles, l'accès de cette base est réservé aux enseignants-chercheurs et aux étudiants justifiant d'un projet de recherche. La mise en ligne de BeQuali a nécessité deux ans de réflexion sur la délimitation en amont d'un cadre juridique permettant un accès contrôlé aux données.

Toujours est-il qu'il manquait une mise en perspective sur le choix des licences applicables aux données de la recherche lorsqu'elles sont destinées à être librement réexposées et réutilisées. La question de l'open data et des licences types idoines est restée globalement absente des présentations.

On sait que les risques liés à la non-apposition d'une licence à un jeu de données sont multiples. Qu'il s'agisse de la captation des données de la recherche par des réseaux sociaux académiques, susceptibles de revendiquer la propriété des données en vertu des Conditions Générales d'Utilisation que les chercheurs signent au moment de s'inscrire sur leurs sites. Qu'il s'agisse de la monétisation de l'accès aux données de la recherche par le biais de la republication sur des plateformes dédiées mises à disposition par des éditeurs scientifiques. Ou qu'il s'agisse de la privatisation des données de la recherche dans le cadre de contrats de recherche signés entre un établissement universitaire et une entreprise privée, même dans le cas où le financement est majoritairement issu de fonds publics.

Le loup et agneau G-F Townsend 1867 GB
Le loup et l'agneau. Par G-F Townsend, 1867, sur Wikimedia Commons. Sans licence, les données seront à la merci du premier prédateur venu qui se les appropriera "sans autre forme de procès"...

L'enjeu des licences ne s'appréhende pas seulement en creux, mais peut être aussi défini positivement. Une licence spécifiant les conditions de réutilisation des données de la recherche permet de répondre à trois objectifs:

  • impératif épistémologique de réutilisation - La science se construit par la réutilisation, la confrontation et la critique des travaux précédents. L'exploitation et la réutilisation des données produites jouent dans la méthode scientifique un rôle grandissant
  • impératif technique d'intégration - A l'heure du Big Data, les volumes considérables de données à entrecroiser font de l'interopérabilité des données une nécessité.
  • impératif juridique de simplification - "La forêt des termes et conditions autour des données rend l'intégration difficile à réaliser légalement dans de nombreux cas". (Protocol for Implementing Open Access Data de la fondation Science Commons
Ceci ainsi posé, quelles sont les principales licences recommandées en matière d'open data appliqué aux données de la recherche ?


CC0 et PDDL, les deux principales licences standard pour l'ouverture des données de la recherche


De nombreux entrepôts de données de recherche internationaux ont fait le choix de licences ouvertes standard.

Le cas de Dryad, entrepôt spécialisé dans la biologie de l'évolution et l'écologie est intéressant. Les concepteurs de Dryad ont fait le choix de la licence CC0, licence qui aménage le reversement des données dans le "domaine public vivant". Pourquoi le choix de la licence CC0, qui implique la renonciation à tous droits d'auteur y compris le droit à la paternité, plutôt que le choix de la licence CC-BY ? Parce que la licence CC0 a été conçue pour éviter les obstacles juridiques liés à la revendication de droits d'auteurs. Pour autant, comme l'explique très bien l'équipe de Dryad sur son blog [1], la licence CC0 ne dispense pas en pratique les chercheurs de citer leurs sources: cela fait partie des normes universitaires véhiculées et appliquées au travers de processus tels que l'examen par les pairs. Cet état de fait est rappelé dans la FAQ des Panton Principles for Open Data in Science de l'Open Knowledge Foundation :
Q11: What are community norms and why are they important?
A given community has a set way of working, an intrinsic methodology of activities, processes and working practices for which a consensus exists for the appropriate way in which these practices are carried out. For example, in the scholarly research community the act of citation is a commonly held community norm when reusing another community member’s work.
Community norms can be a much more effective way of encouraging positive behaviour, such as citation, than applying licenses. A well functioning community supports its members in their application of norms, whereas licences can only be enforced through court action and thus invite people to ignore them when they are confident that this is unlikely.
Loin de céder le pas aux licences, les pratiques érigées en normes par la communauté ont une efficacité plus grande que les clauses contractuelles.

Prenons un cas différent. Les concepteurs de Pangaea, entrepôt de données allemand spécialisé en sciences marines, ont fait le choix de déposer les données sous licence Creative Commons Attribution (CC-BY). Cependant, on ne peut que s'interroger sur la pertinence de ce choix qui va à l'encontre des préconisations de la fondation Science Commons énoncées dans le Protocol for Implementing Open Access Data:
“5.3 Attribution stacking

Last, there is a problem of cascading attribution if attribution is required as part of a license approach. In a world of database integration and federation, attribution can easily cascade into a burden for scientists if a category error is made. Would a scientist need to attribute 40,000 data depositors in the event of a query across 40,000 data sets? How does this relate to the evolved norms of citation within a discipline, and does the attribution requirement indeed conflict with accepted norms in some disciplines? Indeed, failing to give attribution to all 40,000 sources could be the basis for a copyright infringement suit at worst, and at best, imposes a significant transaction cost on the scientist using the data.”
En effet, dans le cadre d'une fouille de données réalisée à partir d'un nombre conséquent de bases de données, il devient proprement irréaliste de citer chaque producteur de jeu de données. La Licence CC-BY s'avère donc particulièrement  inadaptée.

Hormis la licence CC0, quelles autres licences sont appropriées pour garantir l'ouverture des données de la recherche ? Il existe déjà un grand nombre d'autres licences standard orientées open data. Des licences nationales, telle la Licence Ouverte de la mission Etalab. Ou bien les trois licences Open Data Commons de l'Open Knowledge Foundation : la licence ODbL (Open Database License), la licence ODC-By (Open Data Commons Attribution License) et la licence PDDL (Public Domain Dedication and Licence).

Cependant, parmi toutes ces licences, seule la dernière permet, tout comme la licence CC0, de reverser les données de la recherche dans le domaine public. C'est pourquoi l'OKFN recommande fortement l'emploi de l'une ou l'autre licence pour les données de la recherche (point 4 des Principes de Panton) :
"Furthermore, in science it is STRONGLY recommended that data, especially where publicly funded, be explicitly placed in the public domain via the use of the Public Domain Dedication and Licence or Creative Commons Zero Waiver. This is in keeping with the public funding of much scientific research and the general ethos of sharing and re-use within the scientific community. Explicit dedication of data underlying published science into the public domain via PDDL or CCZero is strongly recommended and ensures compliance with both the Science Commons Protocol for Implementing Open Access Data and the Open Knowledge/Data Definition."
D'après le Datahub de l'OKFN, il existe actuellement dans le monde 190 jeux de données sous licence PDDL et 441 jeux de données sous licence CC0.

CGU ou licence open standard ?


L'une des questions que je me suis posées dans un précédent billet est la suivante: peut-on mettre à disposition des données de la recherche sans licence standard? A priori, on peut faire l'économie d'une licence type si l'on spécifie des conditions générales d'utilisation qui déterminent les conditions de réutilisation des données entreposées. Voici quelques exemples de CGU remplissant cette fonction : 
  • GenBank: "NCBI places no restrictions on the use or distribution of the GenBank data. However, some submitters may claim patent, copyright, or other intellectual property rights in all or a portion of the data they have submitted."
"1. The INSD has a uniform policy of free and unrestricted access to all of the data records their databases contain. Scientists worldwide can access these records to plan experiments or publish any analysis or critique. Appropriate credit is given by citing the original submission, following the practices of scientists utilizing published scientific literature.
2. The INSD will not attach statements to records that restrict access to the data, limit the use of the information in these records, or prohibit certain types of publications based on these records. Specifically, no use restrictions or licensing requirements will be included in any sequence data records, and no restrictions or licensing fees will be placed on the redistribution or use of the database by any party."
"Information that is created by or for the US government on this site is within the public domain. Public domain information on the National Library of Medicine (NLM) Web pages may be freely distributed and copied. However, it is requested that in any subsequent use of this work, NLM be given appropriate acknowledgment."
"Unless otherwise noted, publications and webpages on this site were created for the U.S. Department of Energy Human Genome Project program and are in the public domain. Permission to use these documents is not needed, but credit the U.S. Department of Energy Human Genome Project and provide the URL http://www.ornl.gov/hgmis when using them. Materials provided by third parties are identified as such and not available for free use."
Ces quatre exemples peuvent laisser à penser que  l'apposition d'une licence à un jeu de données ne procède d'aucune nécessité. Mais les cas cités concernent des bases en génomique de notoriété mondiale. Les règles de réutilisation sont connues et appliquées par la communauté scientifique depuis plusieurs années, voire plusieurs décennies. Elles ont été élaborées à l'heure où la fouille de données en était à ses balbutiements.

A l'heure où le Big Data entraîne une révolution épistémologique dont on n'a pas peut-être pas encore saisi toute la portée, à l'heure où les techniques d'extraction automatisée de données permettent d'interroger simultanément une quantité infinie de sources, à l'heure où la production de jeux de données, devenue partie intégrante de la démarche scientifique, connaît une augmentation exponentielle, il paraît nécessaire de faire le choix de licences standard de façon à faciliter la réutilisation de ces jeux de données.

En définitive, il en va ni plus ni moins de la visibilité internationale des résultats de la recherche française : sans réutilisation, point de rayonnement... Les remarques du rapport Trojette sur l'ouverture des données publiques valent aussi pour les données de la recherche:
"L’administration devrait privilégier le recours à des licences types auxquelles d’éventuelles licences spécifiques seraient automatiquement compatibles. Ces licences types pourraient avoir l’avantage d’une formulation compatible avec les standards internationaux–à la définition desquels la France a un rôle à jouer –et faire l’objet d’une traduction pour accroître l’attractivité des plateformes hors de France."

***

Last but not least, en laissant les données de la recherche dans une zone grise d'indétermination, escomptant par là même une plus grande souplesse d'adaptation à la diversité des cas d'espèce, autrement dit si aucune licence ou condition générale d'utilisation ne vient spécifier les conditions de réutilisation des données,  il se pourrait que l'effet obtenu soit exactement l'inverse de celui escompté. Si l'on se rapporte à un arrêt récent et surprenant de la Cour de Justice de l'Union Européenne, une telle indétermination pourrait se traduire, par un verrouillage centralisé en lieu et place de l'ouverture et de la dissémination des données...





[1] Référence glanée dans le mémoire très documenté de Rémi Gaillard, "De l’Open data à l’Open research data : quelle(s) politique(s) pour les données de recherche ?", ENSSIB, janvier 2014.