Open data, Big (brother) data et intelligence artificielle : vers la meilleure des justices ?, par Anne Triolet

 Open data, Big (brother) data et intelligence artificielle : vers la meilleure des justices ?

Les articles 20 et 21 de la loi n° 2016-1321 du 7 octobre 2016 pour une République numérique ont modifié le code de justice administrative (CJA) et le code de l’organisation judiciaire (COJ). L’article L.10 du CJA qui mentionnait :

« Les jugements sont publics. Ils mentionnent le nom des juges qui les ont rendus. »

S’est vu ajouter quatre alinéas:

« Ces jugements sont mis à la disposition du public à titre gratuit dans le respect de la vie privée des personnes concernées./ Cette mise à disposition du public est précédée d’une analyse du risque de ré-identification des personnes./ Les articles L. 321-1 à L. 326-1 du code des relations entre le public et l’administration sont également applicables à la réutilisation des informations publiques figurant dans ces jugements./ Un décret en Conseil d’Etat fixe, pour les jugements de premier ressort, d’appel ou de cassation, les conditions d’application du présent article. »

Le conseil national des barreaux estime que cet article L. 10, du fait du premier alinéa, est incompatible avec l’anonymisation du juge au stade de la mise à disposition du public. Ce problème ne se pose pas au judiciaire où l’article L. 111-13 a été ajouté au code de l’organisation judiciaire. Son premier alinéa est ainsi rédigé :

« Sans préjudice des dispositions particulières qui régissent l’accès aux décisions de justice et leur publicité, les décisions rendues par les juridictions judiciaires sont mises à la disposition du public à titre gratuit dans le respect de la vie privée des personnes concernées ».

Les trois alinéas suivants sont les mêmes que dans le code de justice administrative.

Les décrets d’application, annoncés par le Garde des Sceaux pour mars 2017, n’ont pas été pris à ce jour. La mission d’étude et de préfiguration en charge de préparer la rédaction de ces textes et qui a entendu les organisations syndicales va rendre son rapport. Un groupe de travail a été constitué le 9 mai 2017 sous l’autorité du professeur Cadier.

Le contexte

Depuis quelques années, obligation est faite aux administrations européennes de mettre à disposition les données qu’elles produisent. Cela présente des avantages lorsqu’on souhaite accéder au plan d’un réseau de transport d’une ville.

Cependant, cela concerne également des informations individuelles. Ces données, fournies en format ouvert donc modifiables, pourront être réutilisées par tous, y compris à des fins totalement étrangères au motif de leur production.

Ce mouvement a été notamment amorcé par la directive 2013/37/UE qui modifie la directive 2003/98/CE concernant la réutilisation des informations du secteur public.

Cette directive a été transposée par la loi n° 2015-1779 du 28 décembre 2015, dite loi Valter, qui prévoit une mise à disposition gratuite, alors que la directive autorisait une facturation au coût marginal. Ce n’est pas indifférent.

La loi dispose en outre que les informations du secteur public mises à disposition sous forme électronique doivent l’être « si possible, dans un standard ouvert et aisément réutilisable, c’est-à-dire lisible par une machine » (article 2)».

Toutefois l’amendement dans la loi de 2016 pour une République numérique va très au-delà en incluant l’ensemble des décisions de justice, toujours à titre gratuit.

L’objectif de la mise à disposition

La mise à disposition de l’ensemble des jugements n’offre-t-elle pas à chacun de nos concitoyens un plus large accès au droit ?

Pourtant, si le but était d’informer le public, il faudrait s’y prendre de manière complètement inverse. Il faudrait mettre à disposition gratuitement un nombre restreint de décisions, du juge de cassation essentiellement, choisies de façon pertinente en ce qu’elles font la jurisprudence, qu’elles disent la règle de droit.

Le président Stahl, dans un article intitulé « Open data » et jurisprudence, paru dans la revue Droit administratif en 2016, soulignait l’évidence : « pour la bonne compréhension et l’intelligibilité de la jurisprudence, ce qui compte n’est pas l’exhaustivité, mais au contraire la sélection ». Cela est vrai pour le juge et l’avocat et l’est encore plus pour le profane.

Quel cerveau a besoin des décisions de l’ensemble des juridictions ? Assurément plus celui d’une machine, qui peut traiter la masse et raisonne par induction, que celui d’un homme.

D’ailleurs sur le site du Sénat l’objet de l’amendement relatif au juge judiciaire est ainsi défini :

« La mise à disposition de données est un ferment fort de développement de nouveaux services en ligne. L’open data sur les décisions rendues par les juridictions judiciaires permettra l’avènement de nouvelles applications qui apporteront une meilleure prévisibilité du droit applicable et anticipation des risques. La mise en place de base de données permettra la création de référentiels et d’instruments de « prédictivité » qui favoriseront le règlement amiable des litiges notamment en matière de réparation ».

Il est donc fallacieux de parler de meilleur accès au droit pour nos concitoyens.

La gratuité

Des données publiques dont la production représente un coût important pour la société vont être mises à disposition, à titre gratuit, pour être réutilisées afin d’engendrer des profits privés colossaux.

Pire cette mise à gratuite va être très coûteuse (v. infra).

Nos jugements représentent une double source de profit :

  • le commerce des données personnelles,
  • les logiciels d’intelligence artificielle.

Le commerce des données personnelles

Nos jugements ne sont pas censés alimenter le colossal marché des données personnelles que les géants de l’informatique tiennent pour le « pétrole du XXIème siècle ».

Les textes prévoient une analyse du risque de ré-identification.

Nos décisions contiennent le passé judiciaire des justiciables, la description minutieuse de leur patrimoine, leurs préférences sexuelles, le nombre et l’âge de leurs enfants, leur employeur, le détail de leurs pathologies…

Or, il ne suffit pas d’enlever le nom des requérants pour empêcher les recoupements.

Les données cadastrales étant libres et la référence à la parcelle systématique en matière d’urbanisme, on ne voit pas comment un marchand de données ignorera les détails des fâcheries entre voisins ou ceux d’une nouvelle construction. On pourrait se dire que cela n’est pas bien grave. Cependant, il n’y a qu’une seule secrétaire dans la mairie de X, victime de harcèlement moral ou auteur de fautes disciplinaires… Le problème est sûrement le même en matière prud’homale. En matière de responsabilité médicale et hospitalière, la ré-identification serait tout à fait catastrophique.

Il faut donc enlever plusieurs données et déterminer lesquelles, ce qui est très complexe. Ensuite, pour verser un très grand nombre de décisions, seul un logiciel peut procéder à cette anonymisation. La Cour de Cassation, par laquelle transitent toutes les décisions publiées sur Legifrance, est déjà confrontée à ce problème de masse. Les marchés publics auprès des éditeurs de logiciels d’anonymisation sont coûteux et les moins disant veulent un « accès premium », un droit d’usage de la donnée brute. En outre, les échecs du logiciel engagent la responsabilité de l’Etat. La gratuité de la mise à disposition pose d’autant plus question.

La ré-identification est aussi grave que difficile à prévenir. Or, les marchands de données personnelles cherchent à centraliser le plus d’informations possibles. Plus l’on en sait sur une personne, plus le « pack » a de valeur commerciale. Plus l’on en sait sur une personne, plus on peut ré-identifier par recoupement. De nombreux marchands de données ont connaissance de nombreuses informations : adresse, numéro de téléphone, date et lieu de naissance, divorce, propriétaire/locataire, modèle du véhicule etc… Si en plus des informations personnelles apparaissent sur internet via des réseaux sociaux, le « pack » de données est considérable, le risque de ré-identification également.

Si nous ne parvenons pas à anonymiser nos jugements, le secteur privé est tout prêt à s’en charger. Le GFII (groupement français de l’industrie de l’information) se présente, sur son site internet, comme un « groupe de réflexion consacré à l’ouverture et à la réutilisation des données publiques créé en 1997 » et qui « rassemble 130 des principaux acteurs de la chaîne de l’information spécialisée, issus du secteur public ou du secteur privé ».On peut lire sur son site les demandes formulées depuis 1997 par ce groupement et qui ont fini par se traduire dans la loi. A noter que le GFII lui-même ne demandait pas la gratuité et proposait une facturation au coût marginal.

S’agissant du point particulier de la ré-identification, le GFII « considère que la responsabilité de l’anonymisation doit, par principe, incomber à la personne publique mais que ces opérations doivent pouvoir être déléguées à un prestataire via une délégation ou une concession de service public ou, en dernier recours, être réalisées sous certaines conditions définies dans les licences, par les réutilisateurs eux-mêmes. »

Il ajoute : 

« Il existe nécessairement un moyen terme entre le traitement et l’utilisation en interne de données non anonymisées par les seuls « producteurs » publics et la diffusion par leurs soins de données 100 % anonymisées. Ce moyen terme pourrait se traduire par la création d’un statut de « réutilisateur tiers de confiance », dûment accrédité par la CNIL et autorisé à traiter des données non anonymisées, ou par la mise à disposition de ces données auprès des professionnels du droit tenus au secret professionnel.

Le GFII, connaissant le caractère sensible des données personnelles figurant dans les décisions de justice, propose que toute demande d’accréditation auprès de la CNIL soit accompagnée d’un dossier explicitant le traitement technique appliqué aux données et les modalités internes et externes de leur exploitation.

La CNIL pourrait bien sûr procéder à des audits et à toute modification des processus ou de la finalité du traitement. »

La CNIL est déjà en difficulté face à l’impressionnante prolifération des marchands de données, supposés être encadrés et contrôlés par elle. On ne saurait envisager que nos jugements soient confiés, tout juste tamponnés, aux bons soins des « réutilisateurs » fussent-ils accrédités par la CNIL.

Le commerce de la « justice prédictive »

Un algorithme d’intelligence artificielle raisonne de façon inductive. Il tente de prédire une décision future à partir d’une sélection de données factuelles issues d’un grand nombre de décisions. Il n’analyse pas la règle de droit. Il tente d’inférer l’issue d’un litige à partir de celle de très nombreux litiges, qui lui semblent similaires au regard des données qu’on lui donne pour pertinentes. Ce mode de raisonnement particulier explique pourquoi il faut à ces algorithmes la base de décision la plus large et non les décisions faisant jurisprudence. Le taux de fiabilité augmente avec la taille de l’échantillon de base.

Parmi les données que le logiciel prend en considération pour tenter de prédire l’issue d’un litige figure le nom des professionnels qui sont intervenus, notamment celui des juges.

Faut-il faire disparaître le nom des juges dans les décisions mises à disposition ? Les conférences des premiers présidents, procureurs généraux et présidents de l’ordre judiciaire se sont prononcées contre l’anonymisation. Seule la conférence des procureurs, craignant des pressions, a voté pour.

Il faut pourtant bien distinguer entre la décision adressée au justiciable, au nom du peuple français, et qui comporte en toute transparence le nom des juges et le jugement « simple collection d’informations », donné en pâture à un logiciel. S’il est normal qu’un justiciable sache qui le juge, il ne l’est pas qu’un ordinateur analyse qui juge.

Le logiciel Supra Legem se présente ainsi sur son site :

« La puissance de l’intelligence artificielle au service du juriste

Nos algorithmes prédictifs analysent la jurisprudence administrative et extraient la thématique de la décision, la nature du demandeur, la nature du défendeur et le sens du dispositif. Ces attributs permettent de dégager des tendances invisibles autrement.

Anticipez votre juge

Les données extraites permettent de révéler la position de chaque juge administratif sur les questions qu’il a eu à connaître à l’aide de visualisations graphiques présentant les données sous forme agrégée.

C’est un vrai changement de paradigme pour les juristes ! L’approche statistique et systématique de Supra Legem vous donne une vision d’ensemble non biaisée sur les tendances de chaque juge ».

Supra Legem a déjà fait parler de lui en diffusant un tableau montrant le taux de confirmation des mesures d’éloignement de ressortissants étrangers, sur 4 années, dans 6 chambres de 4 cours, ayant rendu un nombre suffisant d’arrêts et désignées par le nom du président de la formation de jugement. Il y a bien entendu d’importantes différences qui perdurent sur la période.

Dévoiler l’homme derrière la fonction ne fait-il pas perdre toute légitimité ?

Le conseil national des barreaux a adopté le 3 février 2017, dans l’urgence, une résolution écartant l’anonymisation de l’avocat. La profession encourt pourtant le même risque que le juge : qu’un pourcentage d’affaires gagnées par tel ou tel cabinet dans une matière donnée ne devienne le critère de performance. Il est très difficile, pour ne pas dire impossible pour un non professionnel, de connaître la qualité du travail juridique de l’avocat ou du juge. Un critère aussi simple et convaincant qu’une statistique aura beaucoup de poids. Il sera d’ailleurs le seul.

Cependant tous les cabinets n’auront probablement pas les moyens de disposer de ces outils et de dévoiler aux clients un comparatif de leurs résultats avec ceux de leurs collègues. Les grands cabinets qui ont déjà recours à importante division du travail (comme l’analyse « par grille » des dossiers par du personnel moins expérimenté ou moins qualifié), pourront, en outre, encore accroître l’automatisation des requêtes. Le métier d’avocat aussi changera, vraisemblablement au profit d’une plus grande concentration.

L’outil présente également un risque s’il est mis à la disposition de la hiérarchie du juge et, pire encore, s’il devenait un outil de travail du juge.

Dans un article sur les enjeux de la justice prédictive, JCP 2017. 31, Antoine Garapon, parle d’un « savoir non-juridique » à l’œuvre avec son cortège d’effets peu souhaitables : réduction de la liberté du juge, minimisation de l’expérience et de la sagesse pratique, restriction du contradictoire, pression accrue sur la décision du juge et risque de conservatisme et de rigidité des solutions qui se reproduisent sans se renouveler.

Comment croire que le juge ne sera pas confronté, par les parties mais aussi par sa hiérarchie, à son éventuelle anomalie statistique ? Il donne trop ou trop peu en matière de dommage corporel. Un avocat est venu, « preuve à l’appui », le dire au président de la juridiction. Il annule trop en matière d’étrangers… Ce qui était le « biais », qu’un préfet fasse des statistiques d’annulation et se plaigne à un président de TA, deviendra la norme.

Un magistrat membre de la commission d’admission des plaintes devant le Conseil Supérieur de la Magistrature s’inquiétait de ce que les plaintes allaient être nourries de ces statistiques, dénonçant une façon de juger ou une autre, sans que la commission puisse vérifier ces chiffres. Le problème n’est pas tant leur vérification que le fait même que l’acte de juger soit encadré par une « norme » d’essence non juridique.

Le contrôle de la qualité juridique de notre travail est assuré par l’exercice d’une voie de recours et le contrôle de notre « part humaine » par celui de la collégialité. Supprimer la part (faillible) d’humanité par la pression mathématique de la machine est une idée dangereuse.

Par ailleurs, le fait que la hiérarchie du juge dispose de cet « outil » présente un autre risque pour le métier. On appelle parfois ces algorithmes « aide à la décision ». N’y aura-t-il pas la tentation, parmi tous les expédients imaginés pour faire face à la masse des requêtes, de laisser le traitement de « contentieux répétitifs » aux bons soins électroniques ?

Revenant sur la perte des savoirs-faires professionnels causés par la révolution industrielle qui a transformé les artisans en ouvriers, simples opérateurs de la machine, l’auteur américain Nicholas Carr indique que le même processus de déqualification commence aujourd’hui à toucher de plein fouet les professions intellectuelles. Il évoque les exemples des médecins américains ou des pilotes de ligne dont le travail devient de plus en plus une activité de contrôle de l’analyse et de la décision de la machine.

Que deviendra le savoir-faire de ceux qui disent le droit pour réguler les relations sociales ?

Le pire sera probablement que le juge fasse sien cet outil, qu’il intègre, dans sa façon même de juger, cette « normalité statistique » en lieu et place de la règle de droit.

Aller aujourd’hui chercher, pour la copier sans comprendre, une solution adoptée par un autre juge du fond est possible dans l’ordre administratif du fait de la base de données à disposition. Ce n’est pourtant pas le métier de juge. Le juge du fond recherche, si nécessaire, la lecture de la règle de droit par le juge de cassation. Rien d’autre, cela suffit à assurer la cohérence de la jurisprudence. Ce qui est aujourd’hui un biais, se borner à rechercher par les faits, sera demain la règle.

D’ailleurs, au final, à quoi servira la règle de droit alors que l’on pourra disposer d’un mode de régulation sociale simple dont les résultats seront fournis par des sociétés privées, qui sont les investisseurs des legaltechs élaborant les algorithmes (sociétés d’assurance, GAFA…).

Le juge judiciaire, qui ne dispose pas d’outils métier tel qu’Ariane et Ariane Archives, peut voir dans ces logiciels d’intelligence artificielle une possibilité d’harmoniser la jurisprudence. M. Louvel, dans son discours prononcé à l’audience de rentrée solennelle de la Cour de cassation le 13 janv. 2017, voit dans cette intelligence artificielle, pour les magistrats, la possibilité d’une libre confrontation de l’ensemble des décisions qui les conduira « à s’harmoniser davantage dans des démarches intellectuelles plus collectives et moins individualistes ». L’ordre administratif dispose des outils nécessaires. Il s’agit d’outils internes, sans problème d’anonymisation et, surtout, adaptés à notre travail en ce qu’ils facilitent notre connaissance et notre compréhension des règles que nous donnent à appliquer le législateur et le pouvoir règlementaire.

Ceux qui ne développent pas leurs outils d’analyse de la jurisprudence et s’en remettent aux algorithmes des sociétés privées risquent de se réveiller les fers aux pieds, tout comme ceux qui disposent de tous les outils nécessaires et sont hypnotisés par les phares de la modernité. Thomas Andrieu, directeur des affaires civiles et du Sceau, déclarait, le 20 octobre 2017 lors de la convention nationale des avocats, s’agissant de l’open data : « La puissance publique, lors de cette révolution absolue, ne doit pas se retrouver seule face à des opérateurs privés extérieurs comme Google ou les assureurs. Il faut l’intermédiation des avocats ». Il les a invités à créer leurs propres outils d’analyse de jurisprudence.

Admettrons-nous que des sociétés développant des logiciels prennent une part décisive dans l’activité de régulation sociale qui revient, pour le moment, à la justice ?

Pour l’USMA, il est indispensable de revenir sur cette mise à disposition de l’ensemble des jugements qui est dangereuse, irréversible.

A défaut :

– Revenir sur la gratuité ;

– Obtenir l’anonymisation du juge et de l’ensemble des professionnels (avocats, experts, greffier…) ;

– Lancer dès à présent une réflexion sur ce que l’on attend de ces algorithmes au regard des risques encourus.

 Anne Triolet

Chargée de mission Open Data