Big data… pour le meilleur ou pour le pire?

Le terme « big data » est actuellement sur toutes les lèvres… et on nous présente ce concept et cette technologie comme les prochains eldorados. Pour autant, tout n’est pas rose au pays des entrepôts de données et de nombreuses voix s’élèvent pour mettre en garde contre certaines dérives (qu’il ne faudrait pas négliger).

Une des plus importantes est la confusion insidieuse, et somme toute assez fréquente, entre le concept de corrélation et celui de causalité. Pour faire court, ce n’est pas parce que deux constatations sont liées que l’une implique forcément l’autre. Le lien peut être dû à un facteur non détecté ou au hasard. Ceux qui veulent en savoir plus peuvent lire ces deux articles :

Ils y découvriront d’autres dangers, comme celui de croire que le passé permet de prédire l’avenir. Travailler sur le passé permet surtout de reproduire le passé, beaucoup moins de prédire ou d’imaginer un futur différent.

Le plus grand danger réside sans doute dans l’opacité des algorithmes et de leur mise en œuvre. Les outils de big data n’étant jamais que des programmes d’ordinateurs, ils fonctionnent sur base d’algorithmes qui ne sont, finalement, imaginés, connus et maîtrisés que par un poignée de personnes. Et comme toutes les créations humaines, ils ne sont pas neutres, ils sont biaisés (volontairement ou non, d’ailleurs). Ce qui pose la question de la valeur (éthique) des faits, liens et corrélations mis en avant par ces outils, tout comme celle des interprétations qui pourront en être faites par les analystes, ignorants ces biais, ou incapables de les redresser ou d’en tenir compte.

Alors, le big data? Oui, mais avec une prudence de sioux…

Rechercher sur le blog

Recherche à travers les sites de la SPI

Send this to a friend