mercredi 13 avril 2016

Big data trolls

L'heure est au big data, l'antithèse de l'individu. Il y a des recherches et des produits partout sur le sujet et de plus en plus de domaines sont concernés par ces technologies qui sont aujourd'hui capables d'analyser rapidement des millions de données (au moins) pour en tirer des conclusions ou des "services" nouveaux.

On citera par exemple le conflit récent entre la RATP et CityMapper une startup spécialisée dans l'information pour les voyageurs dans les grandes villes. La RATP, sous la pression du gouvernement qui prône l'open data - la mise à disposition gratuite des données publiques pour en tirer des services innovants et utiles - a depuis longtemps mis à disposition certaines de ses données, mais traîne des pieds sur les informations de circulation en temps réel. Incapable de produire une application utile pour savoir où et quand est le prochain bus/métro/tram/RER, la RATP refuse qu'on exploite "ses" données. L'argument est imparable : une société américaine ferait du fric avec "nos " données ??? Cet argument se retourne facilement : La RATP est incapable de développer ou de faire développer par une startup française une application efficace ??? La RATP invoque la charge apportées sur ses serveurs par cette application américaine. C'est marrant, non ? Quelqu'un oblige la RATP à rendre publiques ses données mais la RATP ne veut par payer pour mettre en place un tel service. Evidemment la RATP promet une mise en place d'un tel service par ses soins...

Limites du service public... Qui doit payer ? L'entreprise publique (et donc les contribuables ou les usagers), les entreprises privées exploitant ces données, les opérateurs de téléphone ou même les constructeurs de smartphones... Ou le pape ? Ca sent la résistance au changement à plein nez. Avec l'envie de faire du fric en discriminant les utilisateurs, bonjour la notion de public dans service public.

Cet exemple montre que le big data ne veut rien dire si on n'est pas capable d'exploiter ces nombreuses données de manière utile en apportant une vraie valeur ajoutée à l'utilisateur. Il y a des modèles économiques à trouver, au-delà des idées plus ou moins brillantes de nouveaux services qui ne sont pas toujours utiles.

Autre exemple à la SNCF qui entame par ailleurs des négociations sur les salaires et les conditions/durées de travail. Elle annonce en effet vouloir doter ses équipements de capteurs à plein d'endroits. On dit objets connectés à notre époque, ou internet des objets, parce que capteur c'est moins sexy, mais c'est pareil. Il s'agit d'installer dans les trains, dessous, dessus des capteurs techniques pour mesurer les états d'usure ou pour prévenir les pannes par exemple. Idem pour les voies et les gares. Il s'agit aussi d'offrir de nouveaux services aux voyageurs (hum hum). Certains de ces services sont des fausses bonnes idées : «Pour les trains, on avait identifié vingt-cinq objets connectés possibles, confie Xavier Ouin, directeur général du matériel. On en a retenu à peine la moitié. Il faut qu’il y ait un intérêt pour la productivité ou la qualité de service ». Ainsi, l’installation de capteurs dans la zone où sont stockées les valises dans les trains, pour permettre aux voyageurs de connaître les espaces disponibles, a finalement été abandonnée. « Un voyageur ne va pas traverser la moitié d’un TGV pour ranger son bagage, analyse Xavier Ouin. Ce n’était pas pertinent ».

Enfin un exemple plus humain de big data. Il s'agit du Guardian, au Royaume-Uni, qui a analysé les 70 millions de commentaires postés en réponse à ses articles sur son site internet en 10 ans. Beaucoup de commentaires censurés et de trolls évidemment sur un média grand public. Un article à lire pour comprendre comment, finalement, les critiques déplacées se sont justement focalisées sur certains auteurs d'articles. Les dix premiers attaqués sont... 8 femmes et 2 noirs... Un hasard, certainement. En tous cas, une analyse très poussée de ses propres publications par un média sérieux, et un usage intéressant du big data, puisqu'il a fallu repérer des mots-clés, analyser des masses de textes et en tirer des conclusions visuellement fortes.

Pour les lecteurs intéressés, le big data est censé anonymiser les données, sauf quand il s'agit de nous transformer en mangeurs de pub personnalisée, et faire un pont entre quantitatif et qualitatif. Mais cela n'empêche pas les dérives. Lire un point de vue de statisticien ici, qui maîtrise mal le français puisqu'il parle de datamasse (en référence à la biomasse) comme si data était français, alors que le terme recommandé - mais pas utilisé - est celui de mégadonnées... ou une analyse stratégique du secteur pour le gouvernement là (pdf), ou enfin une lecture pleine de sérendipité du phénomène par un expert en marketing...

Aucun commentaire:

Enregistrer un commentaire