mercredi 28 janvier 2015

Données sans licence ne sont que ruine de la science

Le 16 janvier dernier, l'ADBS (association des professionnels de l'information et de la documentation) a consacré une journée d'étude à la gestion des données de la recherche, journée assez passionnante du fait de la diversité des expériences de terrain et des domaines scientifiques envisagés. J'en retiens notamment la première intervention, qui présentait les grandes lignes d'un "Data Management Plan" multi-disciplinaire, ayant vocation à s'appliquer à l'échelle de l'ensemble des établissements de l'enseignement supérieur rattachés à la Communauté d'Universités et d'Etablissements Sorbonne Paris Cité. C'est en soi une première en France, et il est très probable que d'autres établissements universitaires s'engageront dans le sillon tracé par la COMUE SPC. Vous pouvez retrouver l'ensemble des présentations sur le site de l'InVisu.


De l'enjeu des licences en matière d'open data


Durant la journée, il a beaucoup été question de stockage matériel des données, condition concrète de leur conservation et de leur mise à disposition, et de l'élaboration de politiques de coopération avec les laboratoires afin de collecter et de conserver des données normées dans des formats interopérables. Cependant, la question de la réutilisation, plus précisément des conditions juridiques garantissant la pleine réutilisabilité de ces données, a été assez peu abordée. Non pas que les questions juridiques aient été totalement évacuées des présentations; mais elles ont surtout été abordées dans le cas particulier des silos de données semi-fermés, dont l'accès est restreint à un certain type de population. Telle BeQuali, la Banque d'Enquêtes Qualitatives développée par le Centre de données socio-politiques UMS 828 IEP Paris-CNRS, et destinée à mettre à disposition des enquêtes en Sciences Humaines et Sociales: pour des raisons touchant essentiellement à la protection des données personnelles, l'accès de cette base est réservé aux enseignants-chercheurs et aux étudiants justifiant d'un projet de recherche. La mise en ligne de BeQuali a nécessité deux ans de réflexion sur la délimitation en amont d'un cadre juridique permettant un accès contrôlé aux données.

Toujours est-il qu'il manquait une mise en perspective sur le choix des licences applicables aux données de la recherche lorsqu'elles sont destinées à être librement réexposées et réutilisées. La question de l'open data et des licences types idoines est restée globalement absente des présentations.

On sait que les risques liés à la non-apposition d'une licence à un jeu de données sont multiples. Qu'il s'agisse de la captation des données de la recherche par des réseaux sociaux de la recherche, susceptibles de revendiquer la propriété des données en vertu des Conditions Générales d'Utilisation que les chercheurs signent au moment de s'inscrire sur leurs sites. Qu'il s'agisse de la monétisation de l'accès aux données de la recherche par le biais de la republication sur des plateformes dédiées mises à disposition par des éditeurs scientifiques. Ou qu'il s'agisse de la privatisation des données de la recherche dans le cadre de contrats de recherche signés entre un établissement universitaire et une entreprise privée, même dans le cas où le financement est majoritairement issu de fonds publics.

Le loup et agneau G-F Townsend 1867 GB
Le loup et l'agneau. Par G-F Townsend, 1867, sur Wikimedia Commons. Sans licence, les données seront à la merci du premier prédateur venu qui se les appropriera "sans autre forme de procès"...

L'enjeu des licences ne s'appréhende pas seulement en creux, mais peut être aussi défini positivement. Une licence spécifiant les conditions de réutilisation des données de la recherche permet de répondre à trois objectifs :

  • impératif épistémologique de réutilisation - La science se construit par la réutilisation, la confrontation et la critique des travaux précédents. L'exploitation et la réutilisation des données produites jouent dans la méthode scientifique un rôle grandissant
  • impératif technique d'intégration - A l'heure du Big Data, les volumes considérables de données à entrecroiser font de l'interopérabilité des données une nécessité.
  • impératif juridique de simplification - "La forêt des termes et conditions autour des données rend l'intégration difficile à réaliser légalement dans de nombreux cas". (Protocol for Implementing Open Access Data de la fondation Science Commons
Ceci ainsi posé, quelles sont les principales licences recommandées en matière d'open data appliqué aux données de la recherche ?


CC0 et PDDL, les deux principales licences standard pour l'ouverture des données de la recherche


De nombreux entrepôts de données de recherche internationaux ont fait le choix de licences ouvertes standard.

Le cas de Dryad, entrepôt spécialisé dans la biologie de l'évolution et l'écologie est intéressant. Les concepteurs de Dryad ont fait le choix de la licence CC0, licence qui aménage le reversement des données dans le "domaine public vivant". Pourquoi le choix de la licence CC0, qui implique la renonciation à tous droits d'auteur y compris le droit à la paternité, plutôt que le choix de la licence CC-BY ? Parce que la licence CC0 a été conçue pour éviter les obstacles juridiques liés à la revendication de droits d'auteurs. Pour autant, comme l'explique très bien l'équipe de Dryad sur son blog [1], la licence CC0 ne dispense pas en pratique les chercheurs de citer leurs sources: cela fait partie des normes universitaires véhiculées et appliquées au travers de processus tels que l'examen par les pairs. Cet état de fait est rappelé dans la FAQ des Panton Principles for Open Data in Science de l'Open Knowledge Foundation :
Q11: What are community norms and why are they important?
A given community has a set way of working, an intrinsic methodology of activities, processes and working practices for which a consensus exists for the appropriate way in which these practices are carried out. For example, in the scholarly research community the act of citation is a commonly held community norm when reusing another community member’s work.
Community norms can be a much more effective way of encouraging positive behaviour, such as citation, than applying licenses. A well functioning community supports its members in their application of norms, whereas licences can only be enforced through court action and thus invite people to ignore them when they are confident that this is unlikely.
Loin de céder le pas aux licences, les pratiques érigées en normes par la communauté ont une efficacité plus grande que les clauses contractuelles.

Prenons un cas différent. Les concepteurs de Pangaea, entrepôt de données allemand spécialisé en sciences marines, ont fait le choix de déposer les données sous licence Creative Commons Attribution (CC-BY). Cependant, on ne peut que s'interroger sur la pertinence de ce choix qui va à l'encontre des préconisations de la fondation Science Commons énoncées dans le Protocol for Implementing Open Access Data:
“5.3 Attribution stacking

Last, there is a problem of cascading attribution if attribution is required as part of a license approach. In a world of database integration and federation, attribution can easily cascade into a burden for scientists if a category error is made. Would a scientist need to attribute 40,000 data depositors in the event of a query across 40,000 data sets? How does this relate to the evolved norms of citation within a discipline, and does the attribution requirement indeed conflict with accepted norms in some disciplines? Indeed, failing to give attribution to all 40,000 sources could be the basis for a copyright infringement suit at worst, and at best, imposes a significant transaction cost on the scientist using the data.”
En effet, dans le cadre d'une fouille de données réalisée à partir d'un nombre conséquent de bases de données, il devient proprement irréaliste de citer chaque producteur de jeu de données. La Licence CC-BY s'avère donc particulièrement  inadaptée.

Hormis la licence CC0, quelles autres licences sont appropriées pour garantir l'ouverture des données de la recherche ? Il existe déjà un grand nombre d'autres licences standard orientées open data. Des licences nationales, telle la Licence Ouverte de la mission Etalab. Ou bien les trois licences Open Data Commons de l'Open Knowledge Foundation : la licence ODbL (Open Database License), la licence ODC-By (Open Data Commons Attribution License) et la licence PDDL (Public Domain Dedication and Licence).

Cependant, parmi toutes ces licences, seule la dernière permet, tout comme la licence CC0, de reverser les données de la recherche dans le domaine public. C'est pourquoi l'OKFN recommande fortement l'emploi de l'une ou l'autre licence pour les données de la recherche (point 4 des Principes de Panton) :
"Furthermore, in science it is STRONGLY recommended that data, especially where publicly funded, be explicitly placed in the public domain via the use of the Public Domain Dedication and Licence or Creative Commons Zero Waiver. This is in keeping with the public funding of much scientific research and the general ethos of sharing and re-use within the scientific community. Explicit dedication of data underlying published science into the public domain via PDDL or CCZero is strongly recommended and ensures compliance with both the Science Commons Protocol for Implementing Open Access Data and the Open Knowledge/Data Definition."
D'après le Datahub de l'OKFN, il existe actuellement dans le monde 190 jeux de données sous licence PDDL et 441 jeux de données sous licence CC0.


CGU ou licence open standard ?


L'une des questions que je me suis posées dans un précédent billet est la suivante: peut-on mettre à disposition des données de la recherche sans licence standard? A priori, on peut faire l'économie d'une licence type si l'on spécifie des conditions générales d'utilisation qui déterminent les conditions de réutilisation des données entreposées. Voici quelques exemples de CGU remplissant cette fonction : 
  • GenBank: "NCBI places no restrictions on the use or distribution of the GenBank data. However, some submitters may claim patent, copyright, or other intellectual property rights in all or a portion of the data they have submitted."
"1. The INSD has a uniform policy of free and unrestricted access to all of the data records their databases contain. Scientists worldwide can access these records to plan experiments or publish any analysis or critique. Appropriate credit is given by citing the original submission, following the practices of scientists utilizing published scientific literature.
2. The INSD will not attach statements to records that restrict access to the data, limit the use of the information in these records, or prohibit certain types of publications based on these records. Specifically, no use restrictions or licensing requirements will be included in any sequence data records, and no restrictions or licensing fees will be placed on the redistribution or use of the database by any party."
"Information that is created by or for the US government on this site is within the public domain. Public domain information on the National Library of Medicine (NLM) Web pages may be freely distributed and copied. However, it is requested that in any subsequent use of this work, NLM be given appropriate acknowledgment."
"Unless otherwise noted, publications and webpages on this site were created for the U.S. Department of Energy Human Genome Project program and are in the public domain. Permission to use these documents is not needed, but credit the U.S. Department of Energy Human Genome Project and provide the URL http://www.ornl.gov/hgmis when using them. Materials provided by third parties are identified as such and not available for free use."
Ces quatre exemples peuvent laisser à penser que  l'apposition d'une licence à un jeu de données ne procède d'aucune nécessité. Mais les cas cités concernent des bases en génomique de notoriété mondiale. Les règles de réutilisation sont connues et appliquées par la communauté scientifique depuis plusieurs années, voire plusieurs décennies. Elles ont été élaborées à l'heure où la fouille de données en était à ses balbutiements.

A l'heure où le Big Data entraîne une révolution épistémologique dont on n'a pas peut-être pas encore saisi toute la portée, à l'heure où les techniques d'extraction automatisée de données permettent d'interroger simultanément une quantité infinie de sources, à l'heure où la production de jeux de données, devenue partie intégrante de la démarche scientifique, connaît une augmentation exponentielle, il paraît nécessaire de faire le choix de licences standard de façon à faciliter la réutilisation de ces jeux de données.

En définitive, il en va ni plus ni moins de la visibilité internationale des résultats de la recherche française : sans réutilisation, point de rayonnement... Les remarques du rapport Trojette sur l'ouverture des données publiques valent aussi pour les données de la recherche:
"L’administration devrait privilégier le recours à des licences types auxquelles d’éventuelles licences spécifiques seraient automatiquement compatibles. Ces licences types pourraient avoir l’avantage d’une formulation compatible avec les standards internationaux–à la définition desquels la France a un rôle à jouer –et faire l’objet d’une traduction pour accroître l’attractivité des plateformes hors de France."

***

Last but not least, en laissant les données de la recherche dans une zone grise d'indétermination, escomptant par là même une plus grande souplesse d'adaptation à la diversité des cas d'espèce, autrement dit si aucune licence ou condition générale d'utilisation ne vient spécifier les conditions de réutilisation des données,  il se pourrait que l'effet obtenu soit exactement l'inverse de celui escompté. Si l'on se rapporte à un arrêt récent et surprenant de la Cour de Justice de l'Union Européenne, une telle indétermination pourrait se traduire, par un verrouillage centralisé en lieu et place de l'ouverture et de la dissémination des données...





[1] Référence glanée dans le mémoire très documenté de Rémi Gaillard, "De l’Open data à l’Open research data : quelle(s) politique(s) pour les données de recherche ?", ENSSIB, janvier 2014. 





mardi 21 octobre 2014

De l'article aux données: essai de clarification


Le 15 octobre dernier, lors d'une journée organisée par l'Académie des Sciences de Toulouse et intitulée "Démarches scientifiques: quand le numérique bouleverse la donne", les propos des divers intervenants se sont principalement focalisés sur la question de l'émergence d'une nouvelle méthodologie scientifique, basée non plus sur les hypothèses, mais sur les données.

Dans un remarquable exposé, Christine Gaspin (INRA) a expliqué comment la génomique est depuis longtemps basée sur l'exploitation de gigantesques banques de données et comment l'informaticien est amené à occuper une place nouvelle au sein des équipes de chercheurs en sciences du vivant.

Romain Jullien (Muséum d'Histoire Naturelle) a montré comment fonctionne concrètement une science dite participative, qui fait appel à la masse considérable d'observations collectées sur le terrain par des contributeurs bénévoles. Un programme collaboratif tel que Vigie Nature permet d'assurer un meilleur suivi de la biodiversité

Philippe Solal, épistémologue, a exposé les implications de la controverse scientifique suscitée par la parution en 2011 dans la revue Wired, de l'article intitulé "Le déluge de données va rendre la méthode scientifique obsolète". Pour son auteur, Chris Anderson, l'avènement de la science des données vient sonner le glas de l'ancienne démarche scientifique. La méthodologie de cette science 2.0 pourrait se résumer par la formule : "les chiffres parlent d'eux-mêmes". Une science data-driven vient se substituer à une science hypothesis-driven. On ne parle plus de scientist mais de data-scientist.

Mon intervention a consisté à donner une perspective juridique en insistant sur la nécessité de maintenir une science pleinement ouverte. Elle reprenait le contenu de deux billets, parus l'un sur le site Archives Ouvertes, l'autre sur le site de SavoirsCom1.


Rétrospectivement, il m'apparaît nécessaire de préciser certains termes. L'expression "résultats de la recherche" recouvre deux réalités hétérogènes : les articles scientifiques et les données. Ces dernières proviennent elles-mêmes de deux types de sources. Or ces distinctions ne sont pas neutres au regard des mécanismes juridiques enclenchés.



Article/données


Quand on parle de « résultats de la recherche », on reste à un niveau très général qui ne permet pas d'appréhender certains types de traitements spécifiques de l'information, telle la fouille de données. L'expression "résultats de la recherche" recouvre au moins deux notions: l’article et les données.
On pourrait retenir pour les données la définition proposée par l’OCDE [1]
Dans le cadre de ces Principes et Lignes directrices, les «données de la recherche» sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche

Il faudrait distinguer au moins deux types de données : les données primaires issues de la collecte systématique de mesures permettant d'évaluer un phénomène physique quelconque et les données secondaires issues du dépouillement d'une base préexistante, qu'elle soit constituée de chiffres, de texte, de sons ou d'images (cas du produit de la fouille de données appliquée à une plate-forme de revues scientifiques ou à Google...). Ainsi le Text Mining produit des données secondaires, car il consiste en un procédé qui transforme un corpus de textes préexistant en un ensemble de données analysables.

A y regarder de plus près, en un certain sens, les données primaires sont elles-mêmes secondes, dans la mesure où elles sont souvent dérivées, par le biais d'instruments, d'une série de mesures de phénomènes physiques. Mais disons que la distinction entre données primaires et secondaires reste une approximation acceptable.

 On entendra par "article", un texte qui expose et explicite les résultats issus d'une expérience ou produits par l'exploitation de jeux de données.



Double régime juridique


La distinction article/données est primordiale. Car elle conditionne l'application de licences différentes

A) Articles

Comment garantir le droit au libre accès ainsi qu'à la libre réutilisation des articles scientifiques ? Une licence de type CC-BY (Creative Commons - Mention de la Paternité) semble parfaitement convenir. Non seulement elle garantit le respect de l'une des composantes du droit moral, le droit à la paternité, mais elle garantit aussi la réutilisation large des articles scientifiques. C'est cette licence qui est préconisée par la Déclaration BOAI de 2012 :

2.1 Nous recommandons la licence CC-BY, ou toute autre licence équivalente, comme licence optimale pour la publication, la distribution, l'usage et la réutilisation des travaux universitaires.
  • Les archives ouvertes dépendent de permissions de tiers, comme les auteurs ou les éditeurs, et sont donc rarement en position d'exiger des licences libres. Cependant, les décideurs en position d'imposer le dépôt dans les archives devraient exiger des licences ouvertes, de préférence CC-BY, chaque fois qu'ils le peuvent.
  • Les revues en libre accès sont toujours en position d'exiger des licences ouvertes ; pour autant un grand nombre d'entre elles ne se prévalent pas de cette possibilité. Nous recommandons CC-BY pour toutes les revues en libre accès.

B) Données


Pour les données, les choses sont un peu différentes. Par nature, les données forment d'emblée une masse et c'est donc d'abord comme éléments intégrés à un corpus qu'elles doivent être appréhendées juridiquement.

1) Données primaires

Il existe actuellement, comme on le verra plus bas, d'immenses banques de données internationales qui ne sont placées sous aucune licence juridique particulière. Il est toutefois précisé dans les conditions générales d'utilisation des sites qui les hébergent qu'aucune restriction d'usage n'est imposée.

Si nécessité se fait jour d'apposer une licence à ces corpus, le raisonnement sera le suivant. Ou bien l'on considère ce corpus comme un tout et c'est le droit des bases de données qui s'applique. Ou bien l'on ne s'intéresse qu'à une portion de la base de données, et dans ce cas il peut paraître opportun de s'interroger sur la nécessité d'attribuer un statut juridique à chacune des données prises isolément.
Appliquée aux bases de données, une licence de type CC-0 (Domaine public) ou ODBL (Open Data Base Licence) semble parfaitement convenir. Elle garantit une pleine réutilisabilité des données. Pour les données en elles-mêmes, la licence CC-0 semble convenir.

L'intérêt de ces licences est de garantir la poursuite des objectifs énoncés dans l'article 111-2 du Code de la Recherche [2] :
La recherche publique a pour objectifs :

a) Le développement et le progrès de la recherche dans tous les domaines de la connaissance;
b) La valorisation des résultats de la recherche au service de la société, qui s'appuie sur l'innovation et le transfert de technologie;
c) Le partage et la diffusion des connaissances scientifiques en donnant priorité aux formats libres d'accès ;
c bis) Le développement d'une capacité d'expertise et d'appui aux associations et fondations, reconnues d'utilité publique, et aux politiques publiques menées pour répondre aux défis sociétaux, aux besoins sociaux, économiques et du développement durable;
d) La formation à la recherche et par la recherche;
e) L'organisation de l'accès libre aux données scientifiques.
.... "et leur réutilisation" a-t-on envie d'ajouter au petit e). Précisons que, contrairement à ce que l'on entend parfois, la source des données n'est pas oblitérée en cas d'apposition d'une licence CC0. Les métadonnées permettent en effet de mentionner la source: les données ne sont pas laissées orphelines.

2) Données secondaires

Quel doit être le statut juridique des données issues du Text and Data Mining et le statut de l'acte de fouille de données en lui-même ? Des discussions au niveau européen sont en cours. En l'absence de la consécration d'une exception en faveur du Text and Data Mining, les données extraites des bases de données ne sont pas d'emblée libres d'usage. Comme elles sont incorporées à un corpus sur lequel le producteur de la base de données détient un droit de propriété intellectuelle, leur collecte dépend des licences concédées par l'éditeur.



Information/expression


Le droit d'auteur ne protège pas les idées ("les idées sont de libre parcours"), à moins que leur expression ne soit originale. Une donnée ou un article sont-ils suffisamment originaux au point de déclencher la protection du droit d'auteur?


A) Données

Cela va de soi : les données brutes ou primaires ne portent pas la marque d'une originalité. Quant aux données secondaires, elles sont le produit d'un usage qu'on pourrait qualifier, comme le propose le rapport Hargreaves de mai 2014 sur le Text and Data Mining, de "non expressif". Il faut entendre par non-expressif, un acte de reproduction dépourvu d’originalité, notamment s’il est issu d'un traitement automatisé. «Le législateur pourrait adopter une démarche normative et ne reconnaître une protection [au nom du droit de reproduction de la Propriété Intellectuelle] que pour les actes de reproduction ou d’extraction qui comportent effectivement un acte d’exploitation expressif». Cette préconisation est en phase avec la jurisprudence américaine, qui a consacré depuis longtemps la dichotomie idée/expression (jurisprudence Baker vs Selden, codifiée dans le §102(b) du Copyright Act of 1976).

B) Articles

On peut s'interroger sur le statut des articles scientifiques: sont-ils le produit d'un usage expressif ou non? Pour ma part, je serais tenté de répondre que, au contraire d'un jeu de données, un article porte toujours la marque subjective de son ou de ses rédacteurs. C'est vrai au premier chef des articles en sciences humaines et sociales, mais on pourrait dire que, même dans les sciences dites "dures", la rédaction d'un article laisse toujours affleurer la subjectivité du locuteur.

Est-ce à dire qu'il faut considérer les articles scientifiques comme des œuvres de l'esprit? Est-ce cela que l'on veut : une production scientifique intégralement assujettie au régime du Copyright "Tous droits réservés", bref une "science propriétaire"? Ne veut-on pas au contraire que les articles soient librement partagés et réutilisables, conformément aux préconisations de la déclaration BOAI de 2012? Voilà pourquoi la Proposition de loi Attard proposait d'intégrer dans le domaine public "les idées, procédures, procédés, systèmes, méthodes d’opération, concepts, principes ou découvertes, quelle que soit la forme dans laquelle ils sont décrits, expliqués, illustrés ou intégrés à une œuvre"

Dans le même ordre d'idées, le collectif SavoirsCom1 en appelle à la révision de la loi DADVSI de 2006. Transposition en droit français de la directive européenne 2001/29/CE sur l’harmonisation de certains aspects du droit d’auteur et des droits voisins dans la société de l’information, cette loi confère au chercheur «un droit de propriété incorporelle exclusif et opposable à tous» sur ses travaux. Lors même que c'est principe de réutilisabilité qui devrait prévaloir : non pas "Tous droits réservés" mais "Certains droits réservés". Il faudrait dépasser le cadre de la "propriété" pour faire entrer pleinement la recherche dans celui du domaine public.



Libérer les résultats de la recherche de l'emprise du droit sui generis des bases de données



Le droit sui generis des bases de données est issu de la directive communautaire du 11 mars 1996 transposée par la loi du 1er juillet 1998. Il confère aux producteurs de bases de données un droit sur la réutilisation du contenu des bases de données du moment qu'ils justifient d'un investissement matériel, financier ou humain substantiel. Le droit des bases de données conforte la captation par les éditeurs académiques des résultats de la recherche.

A) Articles



C'est seulement si l'article est assorti d'une licence libre, qu'il soit publié sur la plate-forme d'un éditeur  (Gold Open Access) ou dans une archive ouverte, que le droit à la réutilisation est pleinement garanti.


B) Données 

Concernant les données; il faut distinguer deux cas, selon qu'il s'agit de données "primaires" ou "secondaires".

1) Données primaires

La communauté scientifique n'a pas attendu les années 2000 pour alimenter de vastes silos de données issues de l'expérimentation. Ainsi, en sciences du vivant: 
C'est au début des années 80 que les premières banques de données sont apparues sous l'initiative de quelques équipes de par le monde. Très rapidement les initiatives visant à fédérer la collecte et la diffusion des données de la biologie sont apparues en Europe, aux Etats-Unis et au Japon avec, respectivement, l'entrepôt de données de l'EMBL hébergé à l'EBI, la banque de données GenBank hébergée au NCBI et la DDBJ au NIG.[3]
Si l'on regarde les conditions générales d'utilisation de certaines de ces bases, on s'aperçoit qu'aucune restriction n'est mise à la réutilisation. Ainsi pour les bases hébergées sur le site du National Center for Biotechnology Information (NCBI) :
Molecular Database Availability
Databases of molecular data on the NCBI Web site include such examples as nucleotide sequences (GenBank), protein sequences, macromolecular structures, molecular variation, gene expression, and mapping data. They are designed to provide and encourage access within the scientific community to sources of current and comprehensive information. Therefore, NCBI itself places no restrictions on the use or distribution of the data contained therein. Nor do we accept data when the submitter has requested restrictions on reuse or redistribution.
 Cependant, (est-ce là une précaution purement formelle ou l'aveu du risque bien réel d'une revendication de droits sur une partie de ces données?), les CGU précisent que la pleine réutilisabilité des données n'est pas garantie à 100 %:
However, some submitters of the original data (or the country of origin of such data) may claim patent, copyright, or other intellectual property rights in all or a portion of the data (that has been submitted). NCBI is not in a position to assess the validity of such claims and since there is no transfer or rights from submitters to NCBI, NCBI has no rights to transfer to a third party. Therefore, NCBI cannot provide comment or unrestricted permission concerning the use, copying, or distribution of the information contained in the molecular databases.
Les conditions générales d'utilisation de l'International Nucleotide Sequence Database Collaboration (INSDC), organisme qui coordonne les mises à jour des différentes bases, font également le choix de l'ouverture et de la réutilisation des données:

1. The INSD has a uniform policy of free and unrestricted access to all of the data records their databases contain. Scientists worldwide can access these records to plan experiments or publish any analysis or critique. Appropriate credit is given by citing the original submission, following the practices of scientists utilizing published scientific literature.2. The INSD will not attach statements to records that restrict access to the data, limit the use of the information in these records, or prohibit certain types of publications based on these records. Specifically, no use restrictions or licensing requirements will be included in any sequence data records, and no restrictions or licensing fees will be placed on the redistribution or use of the database by any party.

Espérons que le principe général d'ouverture de ces vastes banques de données internationales perdurera et ne sera pas mis à mal par les tentatives de toutes sortes pour monétiser l'exploitation de ces données. L'éditeur Thomson Reuters commercialise depuis peu une base payante intitulée Data Citation Index, qui propose une évaluation bibliométrique du taux de citation des jeux de données de la recherche, exactement comme ce qui est déjà fait pour les revues.

2) Données secondaires

A partir du moment où l'on considère les données de la recherche comme le produit d'un usage non-expressif, il y a lieu d'envisager, comme le fait le rapport Hargreaves, la non-application du droit sui generis des bases de données aux données elles-mêmes issue de la fouille de ces bases.
Sans cette exception, les chercheurs sont contraints de négocier avec chaque éditeur pour obtenir un droit de réutilisation. Si le projet Text2Genome, qui impliquait l'analyse de millions d'articles a pris trois ans, c'est parce qu'il a fallu perdre un temps considérable à négocier au cas par cas les droits avec chacun des éditeurs.
Par ailleurs, l'indépendance de la recherche s'en trouve menacée : les chercheurs qui désirent analyser les données de la base SpringerLink doivent déposer préalablement auprès de Springer une déclaration précisant l'objet de la recherche et la méthodologie employée.


Et l'Open data dans tout ça ?


Pourquoi ne pas appliquer une politique d'Open Data aux données de la recherche? Pourquoi cela ne va-t-il pas de soi ?
Tout d'abord, en Europe, la directive Public Sector Information (PSI) de 2013 exclut de son champ d'application les données de la recherche. Mais cette exclusion n'est pas de nature à empêcher les Etats-membres de faire entrer les données de la recherche dans le champ leur politique nationale d'open data.
Il existe un autre blocage. D'après l'article 2 b de la directive PSI de 2003, non modifiée sur ce point par celle de 2013, ne sont pas considérés comme des informations publiques les documents sur lesquels des tiers détiennent des droits de propriété intellectuelle. Il faut alors à nouveau distinguer :

A) Données primaires

Dans les faits, on l'a vu, les données primaires sont stockées dans des silos libres d'accès et de réutilisation. Tant que ces banques de données ne sont pas assorties de licences d'utilisation restrictives, une politique d'Open Data est parfaitement compatible. On pourrait même dire que d'une certaine façon, ces silos sont déjà la concrétisation en actes d'une politique d'Open Data appliquée au domaine de la recherche.

B) Données secondaires

Elles sont susceptibles de faire l'objet d'un droit de propriété intellectuelle à un double titre: le droit du producteur de la base de données et celui de chaque chercheur sur chacun de ses articles. On entre parfaitement dans le cas de figure où un tiers détient un droit de propriété sur les articles ou la base dont sont extraites les données via le TDM. Les données sont comme capturées et perdent leur statut d'informations publiques. Leur dissémination est bloquée... 



Nécessité d'un Domaine Public de l'information


L'apposition d'une licence libre à un jeu de données ou à un article est fonction à la fois du bon vouloir du chercheur et des clauses qui le lient en vertu de son contrat d'édition. Aucun systématisme n'est donc garanti. Seule la consécration d'un Domaine Public de l'Information, tel que défini par l'UNESCO en 2001, intégrant pleinement les résultats de la recherche (qu'ils soient associés à une licence libre de type CC-BY ou CC-0 ou dépourvus de toute licence...), serait susceptible de garantir leur libre réutilisation pleine et entière et d'éviter les risques d'enclosures informationnelles. On trouve les linéaments du concept de DPI dans l'arrêt d'Assemblée plénière de la Cour de Cassation du 30 octobre 1987 : dans l'affaire Microfor, la Cour a consacré le principe selon lequel les pratiques d'indexation ou d'extraction de mots-clés ne sont pas soumises au droit d'auteur.

Vous croyez que le domaine public de l'information est une fiction ? Assurément pas dans les pays de droit anglo-saxon. Voyez comme le site du NCBI le clame et haut et fort :
Copyright Status
Information that is created by or for the US government on this site is within the public domain. Public domain information on the National Library of Medicine (NLM) Web pages may be freely distributed and copied. However, it is requested that in any subsequent use of this work, NLM be given appropriate acknowledgment.

***

Au terme de ce parcours, une question se pose. En plaçant les articles et les données dans le périmètre d'un Domaine Public de l'Information, fait-on vraiment sortir les résultats de la recherche hors du cadre de la Propriété Intellectuelle, comme le préconisait l'avocat Alain Bensoussan lors du récent congrès ADBU ? Le domaine public ne représente-t-il pas une vraie-fausse sortie hors du droit de la Propriété Intellectuelle ? Il y a peut-être là une divergence d'approches entre SavoirsCom1 et le projet de charte porté par le CNRS, l’ADBU et le réseau international d’avocats Lexing.

Le domaine public au sens de la Propriété Littéraire et Artistique se définit au regard de la protection appliquée aux œuvres de l’esprit. Notions indissolublement liées, œuvres de l'esprit et domaine public sont comme les deux faces d'une même pièce. Le domaine public se définit en creux, à partir d'une construction jurisprudentielle élaborée à propos de la protection des œuvres de l'esprit. La proposition de loi Attard inversait le rapport entre œuvres de l'esprit et domaine public, les premières devenant l'émanation du second; il n'en reste pas moins que c'est dans et par le Code de la Propriété Intellectuelle que la proposition de loi définissait le domaine public. 

Voilà pourquoi il n'est pas si simple de "sortir" du cadre de la propriété intellectuelle par la porte du domaine public. Peu ou prou, on y est toujours ramené.







[1][2][3] Merci à Christine Gaspin pour la fourniture de ces références.
[3] Extrait d'un texte non publié où C. Gaspin expose les grandes lignes de son intervention. 







mardi 9 septembre 2014

Vers un accroissement de l’ouverture et du partage des données de la recherche ?

Mise à jour du 11 septembre. L'ADBU a mis en ligne sur son site trois dépêches de l'agence AEF, dont la dernière précise les contours de l'intervention d'Alain Bensoussan lors du récent congrès ADBU. Le CNRS, l’ADBU et le réseau international d’avocats Lexing soutiennent le projet de rédaction d'une "charte universelle de l'open science". Le scénario d'une simple exception au droit d'auteur n'est pas retenu, dans la mesure où une exception ne fait que confirmer la règle, à savoir le maintien des résultats de la recherche dans le pré carré des éditeurs. Il s'agit de fonder un droit de l'open science en écrivant "une charte, puis une loi, puis une convention mondiale”.


Le 15 octobre prochain, aura lieu à Toulouse, dans le cadre de la Novela, une Rencontre Interdisciplinaire de l’Académie des Sciences Inscriptions et Belles Lettres de Toulouse, à laquelle je participerai. Intitulée «Démarches Scientifiques : Le numérique bouleverse la donne», la rencontre se fixera pour enjeu d'analyser les impacts du numérique sur la démarche scientifique elle-même. Plusieurs acteurs du monde de la recherche en sciences "dures" ou en sciences humaines et sociales y participeront. Voici le fascicule provisoire de présentation de l'événement :



Avec l'aimable accord d'Alain-Michel Boudet, organisateur de la rencontre, et Professeur Émérite au Laboratoire en Recherche en Sciences Végétales de Toulouse, je publie avec plus d'un mois d'avance la trame de mon intervention.

***

Le colloque porte sur les impacts du numérique sur la démarche scientifique elle-même. En ce qui concerne les archives ouvertes et l’open access, on serait tenté de répondre, en première analyse, que le numérique n’a pas d’impact sur ces domaines précis. En effet, les notions d’archive ouverte et d’open access ne préexistent pas au numérique, elles en sont au contraire l’émanation : sans numérique, pas d’archives ouvertes et pas d’open access. Les premières archives ouvertes sont issues d’un mouvement mondial parti des physiciens avec la création d’ArXiv sous l’impulsion de Paul Ginsparg. D’un strict point de vue chronologique, la naissance d’ArXiv date du 14 août 1991, soit 8 jours seulement après que Tim Berners-Lee a rendu public le projet WorldWideWeb [1]. On pourrait donc considérer, au mieux, la naissance des archives ouvertes et celle du World Wide Web comme quasi-contemporaines. Cependant l’adoption du mot « Internet » et du protocole TCP/IP datent de 1983. On ne se trouve donc pas dans une situation où le numérique vient modifier un domaine préexistant.

Une seconde approche révèle qu’il n’en reste pas moins que le numérique bouleverse de fond en comble les principales dimensions indissociables de l’ouverture des données de la recherche : la «chaîne éditoriale» classique, les coûts de publication, le partage des résultats et le droit d’auteur.

La question de la désintermédiation dans la chaîne éditoriale est l’occasion de balayer une idée reçue selon laquelle les publications en open access ab initio seraient de moins bonne qualité scientifique que les publications d'abord publiées par des éditeurs scientifiques [2]. Trois cas nous permettent de battre en brèche ce préjugé.
a) Les épi-revues sont des revues à comité de lecture dont les articles sont déposés intégralement en archives ouvertes. Le Centre pour la communication scientifique directe (CCSD) a mis en ligne en janvier 2013 une plate-forme baptisée Episciences qu’il présente ainsi : « Les comités éditoriaux des épi-revues organisent l'activité d'évaluation et de discussion scientifique des prépublications soumises ou sélectionnées. Les épi-revues peuvent ainsi être considérées comme une « sur-couche » aux archives ouvertes ; ils y apportent une valeur ajoutée en apposant la caution scientifique d’un comité éditorial à chaque article validé.» Hélas, à l'heure actuelle, seule une revue est publiée par le biais d'Episciences : le Journal of Data Mining and Digital Humanities.
b) PLOS (Public Library of Science) est un projet américain à but non lucratif basé sur le modèle de l’auteur-payeur. Au départ, en 2001, PLOS est une pétition invitant les chercheurs à boycotter les éditeurs qui imposent un embargo supérieur à 6 mois pour l’accès libre et gratuit aux articles publiés. Soutenu par le Prix Nobel Harald Varmus, le projet PLOS devient une entreprise d’édition scientifique de revues en biologie et en médecine. En 2003, la revue scientifique à comité de lecture PLOS Biology voit le jour. Paraîtront ensuite PLOS Medicine, PLOS Computational Biology, PLOS Genetics et PLOS Pathogens. En 2006 s’ajoute PLOS One, revue ouverte à tous les domaines scientifiques et pas simplement la médecine et la biologie.
c) Le projet hybride porté par le CERN, SCOAP3, (Sponsoring Consortium for Open Access Publishing in Particle Physics), opérationnel depuis janvier 2014, permet de « libérer » en open access dix des revues les plus prestigieuses en physique des hautes énergies. Les éditeurs ne sont pas pour autant écartés du processus de relecture et de validation. Ils continuent à organiser le peer-reviewing.

Par ailleurs, les éditeurs scientifiques ne sont pas exempts de tout reproche en ce qui concerne la qualité des articles publiés. Récemment encore, un article paru dans la revue Nature révélait que Cyril Labbé, chercheur en informatique à l’Université Joseph Fourier de Grenoble, avait repéré parmi les revues publiées entre 2008 et 2013 par les principaux éditeurs scientifiques, la présence d’articles générés par ordinateur. 16 de ces articles provenaient de l’éditeur Springer et plus de 100 de l’éditeur américain Institute of Electrical and Electronic Engineers (IEEE).

Concernant les coûts de publication, ils ont fortement diminué avec le développement exponentiel de la diffusion en ligne des revues, mais le coût des abonnements institutionnels a augmenté dans le même temps. C'est cette considération qui a motivé principalement l'appel au boycott d'Elsevier lancé par le mathématicien Timothy Gowers en 2012. S'ajoutait également la prise en considération du fait qu'Elsevier soutenait le Research Work Act, projet de loi américain dont certaines clauses visaient à interdire le libre accès aux publications scientifiques financées par l'État.

C’est surtout sur le partage des travaux de recherche et le droit d'auteur que nous nous arrêterons. Avec le numérique, ce n’est pas seulement la question de l’accès aux données de la recherche qui est revisitée, mais aussi celle de leur réutilisation. En effet, si les conditions de réutilisation ne sont pas prévues expressément, les données de la recherche sont susceptibles de faire l'objet de prédations de toutes sortes : via les réseaux sociaux scientifiques (MyScienceWork, Mendeley, Academia.Edu...), via les pressions exercées sur les auteurs pour renoncer à leurs droits moraux, notamment le droit à la paternité, via les clauses limitant les possibilités de Text and Data Mining, ou bien encore via la promotion récente par STM, (association internationale des éditeurs en Sciences-Techniques-Médecine), d’une série de nouvelles licences prétendument ouvertes.

Les licences Creative Commons constituent un outil efficace permettant aux auteurs de préciser les conditions de réutilisation de leurs travaux. La Déclaration « Open Access Initiative » de Budapest en 2002 encourageait le développement des publications sous licence libre. Dix ans plus tard, la nouvelle Déclaration de Budapest, BOAI 10, fait de la licence CC-BY (licence Creative Commons avec mention de la paternité) la licence par excellence du mouvement open access. C’est seulement en 2014 que les archives ouvertes commencent à intégrer les licences Creative Commons. La nouvelle version de HAL, qui sera mise en ligne en octobre 2014, en est une bonne illustration.

SavoirsCom1, collectif qui milite pour la défense des communs de la connaissance et notamment pour l'ouverture des données de la recherche, insiste sur la résultante de cette évolution trop lente :
"Comme, en France ou ailleurs, ce point précis de la Déclaration de Budapest est resté longtemps non suivi d’effets [3], le paysage contemporain des archives ouvertes présente une situation paradoxale : l’usage des licences Creative Commons est bien moins fréquent du côté de la « Voie verte » des archives ouvertes, que du côté de la « Voie dorée », c’est-à-dire du modèle controversé auteur/payeur, proposé par de grands éditeurs comme Springer et Elsevier." 
Il est vrai que les chercheurs se sentent bien souvent noyés sous la masse des clauses juridiques dont se composent les contrats d'édition. L'organisation à but non lucratif Science Commons propose des modèles d'addenda leur permettant d'aménager ces contrats de façon à pouvoir déposer leurs travaux dans une archive ouverte avec une licence libre.

La question ultime qui se pose est : faut-il légiférer sur le libre accès ? Les exemples américain, allemand, anglais et mexicain nous y invitent. Les sceptiques se diront qu'on en est encore loin, puisque, au niveau européen, la Directive PSI (Public Sector Information) de 2013, qui porte sur la réutilisation des informations du secteur public, exclut les données de la recherche de son champ d’application.

On sent pour autant les lignes bouger en France. Lors du dernier congrès ADBU (Association des Directeurs et personnels de direction des Bibliothèques Universitaires et de la Documentation), l'avocat Alain Bensoussan, spécialisé en droit du numérique, est venu plaider dans une allocution intitulée « Droit des plateformes et open science », pour la fondation d'un "droit de la science ouverte". Émancipé du cadre juridique trop restreint de la Propriété Littéraire et Artistique et du double écueil que peut constituer la revendication de droits tant du côté des éditeurs que des auteurs, ce "droit de l'open science" aurait pour visée d'assurer "un libre partage et une libre réutilisation" des données de la recherche (je me base ici sur le LiveTweet assuré par @lamateur37, que je remercie). La position prônée par Christophe Perales, président de l'ADBU, au congrès ou sur son blog, semble aller dans le même sens, et l'on ne peut que s'en réjouir.

L'idéal à terme serait sans doute (rêvons un peu) la consécration inter-étatique d'un domaine public de l'information ou "indivis mondial de l'information", tel que défini par l'UNESCO en 2011. Mais de quoi s'agit-il exactement ? Constitué intégralement d'informations et de données, et non d’œuvres marquées par l'empreinte de l'originalité d'un auteur, le domaine public de l'information serait autonome par rapport aux règles régissant la Propriété Intellectuelle. Il serait immédiatement réutilisable et partageable. Le droit moral serait ou bien inexistant (l'équivalent d'une licence CC0...) ou bien réduit à sa portion congrue: le droit à la paternité (l'équivalent d'une licence CC-BY...); de sorte que le droit moral ne constituerait pas un obstacle à la dissémination et à la réutilisation des contenus.

***

[1] En fait, Paul Ginsparg a appris l’existence du programme WorldWideWeb en 1992. Il l’a réutilisé quasi-immédiatement pour faire d’Arxiv l’un des premiers serveurs web :
In the fall of 1992, a colleague at CERN emailed me: ‘Q: do you know the worldwide-web program?’ I did not, but quickly installed WorldWideWeb.app, serendipitously written by Tim Berners-Lee for the same NeXT computer that I was using, and with whom I began to exchange emails. Later that fall, I used it to help beta-test the first US Web server, set up by the library at the Stanford Linear Accelerator Center for use by the high-energy physics community. Use of the Web grew quickly after the Mosaic browser was developed in the spring of 1993 by a group at the National Center for Supercomputer Applications at the University of Illinois (one of those supercomputer sites initiated a decade earlier, but poised to be replaced by massive parallelism), and it was not long before the Los Alamos ‘physics e-print archive’ became a Web server as well.” Paul GINSPARG, “It was twenty years ago today”, http://arxiv.org/abs/1108.2700

[2] Préjugé véhiculé par exemple dans un article du 4 octobre 2013 de la revue Science : John BOHANNON, « Who’s afraid of Peer Review ? », Science, http://www.sciencemag.org/content/342/6154/60.full. Pour une réfutation de la méthodologie employée par Bohannon, se reporter à l’article de Sylvain DEVILLE, « Articles bidons dans les revues : non, ce n’est pas la faute à l’Open Access », Rue89, 5 octobre 2013. http://rue89.nouvelobs.com/2013/10/05/articles-bidons-les-revues-non-nest-faute-a-lopen-access-246324

[3] Il existe bien sûr des exceptions. Les revues publiées par l'European Geosciences Union sont placées sous Creative Commons depuis 2008. Ces revues sont actuellement au nombre de 16. Merci à Manuel Durand-Barthez de m'avoir signalé ce cas.

vendredi 6 juin 2014

Archéologie du commun

Dans un ouvrage important paru récemment, Pierre Dardot et Christian Laval étudient les fondements de l'émergence des nombreux mouvements politiques qui revendiquent les "communs" contre les nouvelles formes d'appropriation privée et étatique. Les auteurs refusent d'employer le terme de "biens communs", source d'ambiguïtés selon eux, parce que l'expression présente l'inconvénient de réifier les communs. Ils préfèrent parler "du commun". Non seulement le commun ne recouvre pas que des éléments donnés par nature comme l'eau, la terre ou l'air. Mais surtout, le commun se définit comme la résultante d'une activité commune de co-construction. L'institution précède l'essence, en quelque sorte.
Pour étayer la thèse, les auteurs mènent une enquête archéologique. L'enjeu est de retrouver dans l'Histoire du droit et des institutions les linéaments d'un concept du commun comme pensée de la mise en commun, qui aurait été occulté par une relecture rétrospective menée au travers du prisme déformant du paradigme propriétaire.



Les res communes : une notion en lisière du juridique


En droit romain, on distingue traditionnellement les res communes, les choses communes, ("l'air, l'eau courante, la mer et le rivage de la mer" [1]) qui sont inappropriables et les res nullius (biens sans maître), biens "simplement inappropriés et, par là même, appropriables par le premier occupant" [2] : "animaux sauvages qui se chassent et se pêchent, pierres ou perles ramassées sur la grève, trésors inventés."[3]

Il existe cependant une deuxième catégorie de res nullius, les res nullius in bonis, ou choses publiques ("les fleuves, les routes, les places et les théâtres" p. 35). Or il y a une certaine difficulté à opérer une distinction entre "choses publiques" (res nullius in bonis) et choses communes (res communes). Choses publiques et choses communes ne se distinguent pas par l'usage: elles sont affectées à l'usage de tous. De plus, choses publiques et choses communes sont pareillement inappropriables. 

La différence tient à l'acte de qualification qui institue les choses publiques. Celles-ci sont rendues inappropriables en vertu d'une décision institutionnelle visant à les retrancher de la sphère de la propriété, alors que les res communes sont considérées comme inappropriables par nature. Ne relevant pas d'un acte instituant, les res communes ne s'intègrent pas vraiment dans le droit romain, elles forment un "enclos pré-juridique"[4]. Pour le dire autrement, la notion de chose commune n'est pas une notion pleinement juridique au regard du droit romain, dans la mesure où son caractère d'inappropriabililité est défini en fonction d'un donné naturel. Inversement, les choses publiques ou les choses de droit divin sont rendues inappropriables par un acte de droit public ou un acte sacral.

La notion de choses communes par nature est d'autant plus située dans une zone en marge du droit romain, qu'elle est très éloignée dans sa conception du concept de res. Initialement, ce dernier ne désigne pas un objet par opposition à un sujet, mais définit plutôt un processus :
"le noyau sémantique de la notion [de res] renvoie d'abord et avant tout au procès, à l'affaire à débattre, et c'est à partir de ce noyau qu'on est passé de l' "affaire" contestée à la "chose" qui est  l'origine du conflit" (p. 36)
La conclusion de Dardot et Laval est sans appel :
"Il y a donc peu d'enseignements à tirer de cette catégorie située à la limite du juridique. Aussi ne doit-on pas étendre la notion de "choses communes" que nous avons héritée du droit romain. Bien plutôt convient-il de l'abandonner et de renoncer une fois pour toutes à l'idée qu'il existe des choses par nature inappropriables pour fonder vraiment et entièrement en droit l'inappropriabilité." (p. 37)
Dardot et Laval en viennent à mettre en question certains des fondements de la théorie économique des biens communs. Adosser la philosophie des communs à la distinction entre biens rivaux et exclusifs (les biens purement privés, telles les marchandises), biens non rivaux et non exclusifs (biens purement publics, tels l'éclairage public, la défense nationale, l'éclairage des phares, etc.), biens exclusifs et non rivaux (biens de club tels les autoroutes à péage ou spectacles sportifs payants), biens non exclusifs mais rivaux, (les biens communs, tels les zones de pêche, les pâturages ouverts, les systèmes d'irrigation...), c'est encore et toujours faire dépendre le commun "des qualités intrinsèques des biens eux-mêmes". C'est en rester à "un naturalisme qui voudrait classer les biens selon leurs caractères intrinsèques" (p. 157)

Le commun doit être bien plutôt conçu comme la résultante d'une praxis : "c'est seulement l'activité pratique des hommes qui peut rendre des choses communes" (p. 49). Dardot et Laval décèlent les linéaments de cette pensée dans Les Politiques d'Aristote. Ils en déduisent par là même une redéfinition du commun à rebours de l'illusion naturaliste :
"Voilà ce qui éclaire singulièrement ce que nous appelons le "renversement dans la méthode" par lequel il faut remonter à l'agir commun comme étant au principe de tout commun au lieu de présenter le commun comme un donné naturel indépendant de l'agir humain (p. 239)
Le commun doit résulter d'un acte de mise en commun. Mais à quel horizon se déploie-t-il ? Le commun échappe-t-il à la sphère de la propriété ?

Instituer le commun comme inappropriable


La Summa Divisio  (division du droit entre le droit public et le droit privé) est considérée en droit comme la mère de toutes les divisions. Elle structure l'espace juridique autour de deux propriétés: la propriété publique et la propriété privée. C'est dire que la Summa Divisio arrime le droit tout entier à la propriété, perçue comme le substrat sur lequel se déploient les racines du droit. Le droit de propriété est "fondé comme droit exclusif et absolu" (p. 231) et il n'est pas possible de sortir de l'alternative: propriété publique ou propriété privée.

Selon une idée répandue, la bipartition droit public/droit privé serait un héritage direct du droit romain. Il s'agirait d'un héritage continu et intangible. Et non seulement la doctrine juridique majoritaire présente cette structuration comme indépassable, mais les théoriciens du néo-libéralisme invoquent sa prétendue immuabilité pour l'instituer comme justification des accords de mondialisation les plus récents, fondés sur la prévalence du contrat (droit privé) sur les législations étatiques (droit public).

Laval et Dardot se demandent si cette structuration juridique a toujours été insurmontable, si elle relève véritablement d'une continuité quasi atemporelle. En fait, la division du droit public et du droit privé est une distinction assez récente, puisque sa première expression date du XVIe siècle, au moment de l'émergence d'un "individualisme propriétaire"Et si la nécessité d'une Summa Divisio ne s'est pas fait sentir avant ce moment, c'est qu'initialement, le droit romain n'était pas scindé entre deux types de propriétés, la propriété publique et la propriété privée. Le droit était le lieu d'un clivage d'une toute autre nature: entre l'appropriable et l'inappropriable. D'un côté, les biens sans maître (res nullius), parties intégrantes d'un patrimoine public, et susceptibles à ce titre de faire l'objet d'une appropriation par le premier occupant. De l'autre, les choses publiques (res nullius in bonis) affectées à un usage public, rendues inappropriables en vertu d'un acte instituant.

Tirant la leçon de ce détour qui est en même temps une relecture de l'histoire des institutions et des faits sociaux, les auteurs prônent la refondation du commun sur la base d'un acte instituant de mise en commun, contre et hors de la sphère de la propriété. Il faut opposer le droit d'usage à la propriété :
L'usage instituant des communs n'est pas un droit de propriété, il est la négation en acte du droit de propriété sous toutes ses formes parce qu'il est la seule forme de prise en charge de l'inappropriable (p. 480)
***

Le livre de Dardot et Laval recèle bien d'autres analyses et il me faudrait plusieurs autres billets pour tenter d'en faire le tour. Je ne peux que vous inviter à vous y plonger...


Notes :
Dans leur enquête archéologique, les auteurs s'appuient principalement sur trois sources :
[1] et [2] Marie-Alice CHARDEAUX, Les choses communes, LGDJ, Paris, 2006.
[3] Yan THOMAS, "La valeur des choses. Le droit romain hors la religion", Annales. Histore, Sciences sociales, 2002/6, pp. 1431-1462.
[4] Yan THOMAS, "Res, chose et patrimoine. Note sur le rapport sujet-objet en droit romain." Archives de philosophie du droit, n°25, 1980.



mercredi 28 mai 2014

EoD : quand les bibliothèques numérisent et diffusent des œuvres du domaine public

Cet article est conçu comme un complément au récent article de @Silvae, publié sur Bibliobsession : Quand bibliothèques et éditeurs financent des contenus sous licence Creative Commons.

La perspective ici est un peu différente : le but visé n'est pas de permettre la libre diffusion de contenus sous droits, mais de garantir la libre diffusion du produit de la numérisation d’œuvres du domaine public. Lancé en 2006 dans le cadre du projet « Numérisation à la demande » cofinancé par le Programme eTEN, et bénéficiant du financement de la Communauté européenne dans le cadre du Programme Culture, le programme eBooks on Demand (EoD) porte sur la numérisation de tout livre publié entre 1500 et 1900, autrement dit de toute œuvre appartenant de façon indubitable au domaine public. Actuellement, 36 bibliothèques européennes participent au programme.



Le principe de fonctionnement est simple. Un usager repère un ouvrage papier publié entre 1500 et 1900 sur le catalogue en ligne d'une bibliothèque partenaire du programme EoD. S'il souhaite que le contenu soit numérisé, il a la possibilité de cliquer sur l'icône EoD figurant dans la notice : il accède ainsi à un formulaire, lui permettant de demander à la bibliothèque de numériser l'exemplaire en sa possession. Le tarif, à la charge de l'usager, est fixé par la bibliothèque.


Voilà pour le processus en amont de la numérisation. Mais qu'en est-il des conditions de diffusion du produit de la numérisation ? L'ouvrage dans sa version numérique sera-t-il disponible seulement et uniquement pour l'usager, avec interdiction pour lui de partager l'œuvre en dehors du cercle de famille (copie privée)? Ou bien le produit de la numérisation devient-il librement accessible, partageable  et réutilisable pour tout un chacun, une fois exaucée la première demande de numérisation ?

La première phrase de la réponse donnée par EoD dans la Foire aux Questions d'EOD est très claire :
Y a-t-il des restrictions pour utiliser les eBooks EOD ? 

Non, il n’existe aucune restriction pour utiliser les fichiers de documents tombés dans le domaine public.
Rien que de très normal dans la réponse d'EoD. La numérisation d’œuvres du domaine public ne fait pas renaître des droits. Le Ministère de la Culture l'explique bien sur son site :
Les opérations de numérisation de documents ne confèrent à la bibliothèque aucun droit de propriété littéraire et artistique sur les œuvres ainsi reproduites 
Par conséquent, il n'y a pas lieu de restreindre par une quelconque licence les conditions de réutilisation des fichiers issus de la numérisation d’œuvres du domaine public.

***

Seulement, dans la FaQ d'EoD, la réponse citée plus haut se poursuit ainsi :
Néanmoins, les législations locales et nationales varient légèrement. Pour connaître le détail, cliquez ici
Non seulement, le principe de non-restriction de la réutilisation des œuvres du domaine public numérisées est susceptible d'être mis à mal par la surimposition de législations nationales voire locales, mais EoD autorise chaque bibliothèque à fixer elle-même ses propres conditions de réutilisation. De fait, on constate que la majeure partie des bibliothèques partenaires du programme EoD verrouillent par le biais de clauses contractuelles la réutilisation des œuvres numérisées. Parmi les 36 bibliothèques partenaires, 27 (sans doute 29 si l'on inclut la Bibliothèque de l’Académie Hongroise des Sciences et la Bibliothèque Universitaire de Vienne pour lesquelles une impossibilité d'accès ne permet pas de connaître exactement les conditions d'utilisation) imposent comme la Bibliothèque Universitaire de Bratislava, la condition que la réutilisation des fichiers numérisés doit être personnelle et non commerciale. La clause-type qui revient le plus souvent est la suivante :
Unless agreed otherwise, the Customer is granted the right to use the delivered products for his/her own purposes on any hardware to be provided by the Customer. All uses in excess thereof are subject to separate written agreement. The Customer is only entitled to use the products within the scope of these General Terms and Conditions. He/She is not entitled to make products available to third parties, whether for consideration or free of charge.
Le client n'a le droit que de télécharger l’œuvre numérisée sur son disque dur. Tout autre usage doit être soumis à un accord écrit séparé. Le client n'est pas autorisé à rendre le produit de la numérisation disponible pour des parties tierces, que ce soit pour une exploitation commerciale ou pour une mise à disposition gratuite. La clause est tellement restrictive, qu'on peut se demander si elle ne fait pas barrage à l'application de l'exception pour copie privée.

Cette restriction d'usage est plus que problématique. La pratique qui consiste à imposer des restrictions d'utilisation allant au-delà de ce que la loi permet a un autre nom : le "Copyfraud", tel que défini par le juriste Jason Mazzone.

Elle paraît d'autant plus incompréhensible que les mêmes bibliothèques précisent systématiquement, par une autre clause-type, que les fichiers de la numérisation sont importés dans des dépôts numériques dédiés, et bénéficient ainsi d'un archivage pérenne (voir par exemple ici : "Public domain books or books for which we receive a declaration of consent from the author or publishing houses are imported by us into the digital library of the Library Am Guisanplatz and are thus globally available and also preserved for the long term.) On retombe dans un cas de schizophrénie bien connu des lecteurs assidus comme moi du blog de @Calimaq : dans le même temps où ces bibliothèques mettent en ligne des œuvres du domaine public, elles en restreignent la réutilisation, niant par là même la notion même de domaine public.

***

Au contraire, d'autres bibliothèques partenaires du programmes EoD jouent le jeu de la libre réutilisation. Six bibliothèques apposent au produit de la numérisation la licence Public Domain Mark. Il s'agit de la Bibliothèque Universitaire de l'Académie des Beaux-Arts de Vienne, de la Bibliothèque Universitaire et Régionale du Tyrol, de la Bibliothèque Centrale de Zurich, de la Bibliothèque Royale du Danemark, de la Bibliothèque Universitaire de Berne et de la Bibliothèque Nationale de Suède.

Quant à la Bibliothèque Interuniversitaire de Santé (BIUS),elle a fait le choix de la Licence Ouverte/Open Licence élaborée par la mission Etalab. Bien que garantissant une libre réutilisation du produit de la numérisation, cette licence paraît moins appropriée que la licence Public Domain Mark, conçue pour garantir une protection contre les enclosures informationnelles. Mais l'essentiel, c'est que la BIUS libère au lieu d'emprisonner par le biais de clauses abusives, le produit de la numérisation des œuvres du domaine public

***
En résumé, il n'est parfois pas de pire ennemi à la diffusion des œuvres du domaine public que les bibliothèques elles-mêmes. Les bibliothèques qui souhaitent adopter une démarche de dissémination des œuvres du domaine public, doivent réfléchir non pas simplement aux conditions techniques et logistiques de la numérisation, mais aux conditions juridiques de la réutilisation du produit de la numérisation des œuvres du domaine public.



Post Scriptum du 29 mai 2014. Suite à la publication de cet article, deux personnes m'ont signalé via le réseau qui gazouille, deux initiatives visant la même finalité que le programme EoD :

1) @Calimaq me signale le site de réédition à la demande Numalire.
Lancé en septembre 2013 par la société YABé, Numalire repose sur un partenariat construit avec des bibliothèques patrimoniales. Actuellement, ces bibliothèques sont au nombre de huit : la Bibliothèque Sainte Geneviève, la Bibliothèque des Arts Décoratifs, la Bibliothèque Historique de la Ville de Paris (BHVP, la Bibliothèque de l’Hôtel de Ville de Paris (BHdV), la Bibliothèque Forney, la Bibliothèque Marguerite Durand, la Bibliothèque de l'Académie Nationale de Médecine et la Bibliothèque de l'INRA. Le financement repose sur le principe du crowdfunding : un lecteur souhaite voir numérisée une oeuvre du domaine public ; il demande à Numalire un devis ; une fois le devis établi, il lance par le biais de Numalire une souscription, afin de solliciter la participation d'autres personnes. Le montant minimum de participation est de 10€. Si la souscription aboutit, les contributeurs obtiennent la possibilité de télécharger un exemplaire en format pdf –copie conforme de l’original - sous licence Public Domain Mark 1.0.

2) @LAlbaret m'indique que le Service Interétablissement de la Documentation SID2 Grenoble a mis en place un service gratuit et ouvert à tous de numérisation à la demande pour les œuvres du domaine public. Le produit de la numérisation est diffusé sous licence CC0. Bravo au SID2 !