lundi 16 septembre 2013

Big data, big mistakes ?

Big data : Claude Bernard
 a son mot à dire 
L’un des grands atouts des big data, le traitement de données à  (très) grande échelle,est de  mettre en évidence des corrélations tout à fait nouvelles et inattendues en rapprochant simplement des données. C’est l’un des grands résultats attendu du travail des « data scientists » et il soulève un grand enthousiasme. Trop grand, parfois…

Le type de découverte permis par cette technique ne s’accompagne d’aucune explication. On constate une corrélation forte entre deux faits mais on ignore tout du    «pourquoi » et de l’éventuelle causalité sous-jacente. Ce phénomène n’est d’ailleurs pas fondamentalement nouveau : les études statistiques nous ont habitués à mettre en évidence de telles corrélations sans plus d'explications. Ce qui change, c’est la facilité avec laquelle de telles « découvertes » peuvent être faites.

Bien compris cet usage des Big data peut donner de formidables résultats pratiques.

Mais c’est aussi un outil qui doit être manié avec une grande précaution car il prête aux interprétations les plus fantaisistes et les plus erronées. Big data, big mistakes ! Il n’est qu’à regarder comment sont interprétées à tort et à travers de nombreux résultats statistiques. Avec le déluge de « découvertes » qu’on nous promet on peut, à côté du meilleur, redouter le pire.

Le danger est bien réel. Déjà, le fameux Chris Anderson (auteur de La Longue Traîne) a défrayé il y a quelque temps la chronique en écrivant dans le magazine Wired, que les big data  signaient la mort de la théorie. Rien que ça ! Plus besoin de réfléchir puisque grâce aux big data, on va tout découvrir ! Devant le tollé soulevé par son inconséquence, il est un peu revenu sur ses propos.

En réalité, plutôt que de s’affranchir de la théorie, les découvertes promises par les big data en supposent plus. Bien plus ! Elles sont certes heuristiques mais ce qu’elles découvrent doit être compris et expliqué pour en tirer tout le bénéfice. Bref, il n’y a pas de miracle à attendre.

En l’occurrence, ce que Claude Bernard écrivait en 1866 à propos des big data de son époque – les statistiques-  dans sa fameuse « Introduction à la médecine expérimentale »  n’a pas pris une ride. Il insistait sur le fait qu’elles devaient précéder la recherche scientifique –c’est-à-dire la médecine expérimentale- et n’étaient pas suffisantes en elles-mêmes.

Claude Bernard illustrait son point de vue avec un superbe exemple. Il écrit :
« Autrefois on ne connaissait la gale et son traitement que de manière empirique. On pouvait alors […] établir des statistiques sur la valeur de telle ou telle pommade pour obtenir la guérison de la maladie. Aujourd’hui que la cause de la gale est connue et déterminée expérimentalement, tout est devenu scientifique. On connaît l’acare [parasite responsable de la maladie] et on explique par lui la contagion de la gale, les altérations de la peau et la guérison […]. Aujourd’hui, il n’y a plus […] de statistiques à établir sur son traitement. On guérit toujours et sans exception quand on se place dans les conditions expérimentales connues pour atteindre ce but. » 
Autant pour Chris Anderson…

A propos de big data, et c’est ce qui m’a donné l’idée de ce post, je viens de lire un bon ouvrage d’introduction au désormais fameux phénomène.  Ecrit par Viktor Mayer-Schonberger (professeur à Oxford) et Kenneth Cukier  (journaliste au magazine The Economist) le livre « Big Data: A Revolution That Will Transform How We Live, Work, and Think » permet de se faire une bonne idée des enjeux liés à la capacité de traiter des quantités phénoménales de données désormais facilement accessibles. A lire si l’on est anglophone.

1 commentaire: