lundi 29 juillet 2013

Big Data où la victoire du prédictif sur l'explicatif

On se souvient du thème du film "Minority Report " , adapté d'une nouvelle de P. K Dick : dans un monde futur cauchemardesque régit par la religion de la prédiction une unité spéciale de police, cherche à arrêter les criminels avant même qu'ils soient passés à l'action.
Pour savoir où et comment intervenir, ces policiers ont recours à d'étranges créatures dotées d'une connaissance du future réputée infaillible.
Identifier des criminels qui ne le sont pas encore , une idée qui parait d'un certain côté assez loufoque , mais, qui à y regarder de plus prêt pourrait devenir la métaphore du Big data, sa version noire.

En effet, au fur et à mesure de son évolution, Internet a bouleversé les modes de communication entre individus mais pas que : il modifie également les modes de décision de nos sociétés et nous découvrons petit à petit que  nos existences relèvent d'avantage de probabilités que de certitudes.
L'objectif étant moins de rassembler les arguments d'un raisonnement pour comprendre les choses, que de mobiliser les données pour les prédire avec une efficacité maximale.
Dit autrement : la logique explicative (hypothéticodéductive) de nos connaissances modernes serait dépassée par un raisonnement probabiliste (descripto-prédictif).
Prenons quelques exemples, empruntés à Viktor Mayer Schônberger et Kenneth Cukier*.

- UPS, leader mondial de la livraison a installé des capteurs sur certaines pièces de ses véhicules pour identifier les problèmes de surchauffe ou de vibration corrélés aux défaillances que ses pièces ont présenté dans le passé. En procédant ainsi , elle peut anticiper les pannes et remplacer les pièces défectueuses au garage plutôt que sur le bord d'une route.
Elles n'indiquent pas la source du problème mais indiquent un processus pour éviter des incidents coûteux.

- Même chose au Canada pour des prématurés ou en créant un flux de plus de 1000 données par seconde combinant 16 indicateurs (pouls, tension, respiration..) une équipe médicale est parvenue à établir des corrélations entre des dérèglements mineurs et des maux plus sérieux. Cette technique devrait permettre aux médecins d'intervenir en amont pour sauver des vies.
Cette approche permet de localiser les infections sur les bébés avant m^me que les symptômes visibles n'apparaissent.

- L'application médicale avait déjà fait l'objet d'un article qui a fait sensation en 2009 sur Google et la grippe : ses auteurs affirmaient qu'il était possible de repérer les foyers de grippe à partir des archives du moteur . L'enquête a été menée à parti des requêtes pour découvrir s'il y avait corrélation entre la récurrence de certains mots clés et l'apparition du virus. Après 500 millions d'opérations de calcul Google est parvenu à identifier 45 mots clés (mal de tête, nez qui coule) ;
Ce qui ressort n'est cependant qu'une simple corrélation : personne ne savait pourquoi ces requêtes avaient été effectuées (maladie? inquiétude? info ?)

- La mairie de NY vient de renforcer son système de protection contre les incendies  par une stratégie de prévention originale.
Le immeubles illégalement sous divisés en parts locatives présentent plus de risques que les autres de partir en flammes; A la mairie une équipe d'analyste s'est emparée du sujet et a créé une banque de données recensant les 900000 bâtiments de la vile complétés des indicateurs d'agences municipales : liste des exemptions fiscales, coupures d'eau ou d'électricité, loyers impayés, taux de délinquance, rotation d'ambulances..
Les analystes ont ensuite dressé des correspondances entre ces données et les statistiques relatives aux incendies.Aucune des caractéristiques retenues ne peut en soi être considérée comme cause d'incendie; c'est mises bout à bout qu'elles prennent leur valeur.
Ainsi la proportion d'évacuation après visite des bâtiments a grimpé de 13 à 70 % après adoption de cette méthode.

Chacun de ces exemples le montrent le raisonnement de type probabiliste appliqué à chaque fois  permet simultanément  :
- d'appréhender des phénomènes (voire des combinaisons de phénomènes) très complexes composés de très nombreux facteurs, autrefois incompréhensibles donc "intouchables"
- de mettre en relation de façon récurrente des facteurs de causalité et l'expression du phénomène, leur donnant aisé une valeur prédictive
- d'utiliser cette valeur prédictive pour déclencher une intervention permettant de prévenir l'apparition de cette manifestation
- de ne pas forcément comprendre les raisons explicatives de son déclenchement.

A partir de là beaucoup de raisonnements sont possibles sur le bien fondé ou non, le caractère intrusif liberticide ou social réparateur des big data et de leur analyse.
Une chose est certaine : grâce ou à cause d'elles , demain ne sera plus comme avant.


* article du Monde Diplomatique juillet 2013