En principe, je me méfie des efforts continus de Google pour se faire un arbitre de contenu, d’autant plus que son moteur de recherche est devenu totalement inutilisable pour quelque chose de plus compliqué que de trouver l’emplacement d’un magasin ou de faire des comparaisons de prix. J’obtiens maintenant régulièrement des résultats de première page où plus de huit éléments ne correspondent pas à mes paramètres de recherche. J’ai donc abandonné Google.
Google s’est associé à ProPublica, apparemment pour donner à l’initiative une apparence de légitimité, afin de développer une base de données sur les crimes de haine ». Comme indiqué la semaine dernière dans TechCrunch:
En partenariat avec ProPublica, Google News Lab lance un nouvel outil pour suivre les crimes de haine à travers l’Amérique. Propulsé par l’apprentissage automatique, le Documenting Hate News Index suivra les crimes de haine signalés dans les 50 États, en collectant des données à partir de février 2017.
Propulsé par l’apprentissage automatique »est destiné à donner l’éclat des sceptiques gee-tech et sage. Mais l’apprentissage automatique n’est pas magique. De manière amusante, même l’entrée Wikipédia normalement sobre dérange pour souligner que l’apprentissage automatique est sur-typé:
Depuis 2016, l’apprentissage automatique est un mot à la mode, et selon le cycle de battage médiatique Gartner de 2016, à son apogée d’attentes gonflées.13 Un apprentissage automatique efficace est difficile parce que trouver des modèles est difficile et souvent pas assez de données de formation sont disponibles; en conséquence, les programmes d’apprentissage automatique échouent souvent.
Le programme reçoit des échantillons d’entrée, comme un ensemble d’apprentissage, qui établit les paramètres, puis il procède à partir de là.
Le problème avec l’apprentissage automatique, ou tout type d’IA, est qu’il devient une boîte noire, car l’IA établit des paramètres de décision supplémentaires au-delà de sa formation d’origine et ils sont inaccessibles. La logique de décisions particulières ne peut donc pas être explicite.
Notre Clive explique les obstacles inhérents à l’établissement de bons paramètres d’entraînement:
L’ensemble de la prémisse est également faux (à partir des informations brèves et pas particulièrement cohérentes données dans la pièce). En effet, il passe complètement sous silence le problème fondamental mais très épineux de la crédibilité des données source. Comment établissez-vous la traçabilité du (des) jeu (s) de données source aux rapports de sortie?
Si, par exemple, à titre d’exemple, une conclusion était tirée en considérant le capitalisme nu comme une source fiable et fiable, je serais satisfait de la validité de l’information. Mais comme nous l’avons vu de première main avec Prop or Not et son affirmation auto-corroborée d’être une ressource pour décider de ce qui est réel vs fausses nouvelles ou des rapports indépendants vs influencés, finalement cette évaluation de la fiabilité de la source est un jugement. Qui, exactement, porte ces jugements? Sur quelle base? Selon quel ensemble de règles?
Au cours de la mode Big Data de 2012, mon TBTF a tenté de comprendre la prolifération croissante de données déconnectées et non standardisées dont il disposait. Nous avons consacré beaucoup de temps et d’argent à mettre en œuvre la plateforme de référentiel de métadonnées ASG Technologies. Les résultats ont été un désastre. Différentes sources de données étaient de qualité et de fiabilité différentes et très variables. Nous avons donc dû essayer de définir des règles quant à la pondération que nous pouvions attribuer à quelles sources de données. Nous avions besoin de règles, car sinon c’était une décision purement subjective, soit d’un individu soit, pire, d’un groupe. Il n’y avait absolument aucune cohérence.
Mais personne ne pouvait proposer un ensemble convenu de règles de qualité et de pondération des sources de données. Même si certaines règles à l’échelle de l’organisation ont été définies, elles ont souvent été ignorées car – comme beaucoup de décisions de comité qui tentaient de trouver un consensus – elles souffraient du phénomène non inventé ici ». Ainsi, ProPublica devra également choisir son poison soit une évaluation décisive mais autocratique de ce qui est de bonnes données fiables (et donc susceptibles de biais individuels) ou une approche large et englobante à grande échelle qui ne vous dira rien car elle vous donnera une égalité poids à utiliser Reddit et ZeroHedge comme source à celle d’utiliser la London Review of Books.
Un autre lecteur qui a mis en place et exploité des bases de données complexes et gigantesques, a jeté un coup d’œil au projet et n’a pas aimé ce qu’il a vu:
Une vérification rapide montre que leur analyse ne fonctionne pas. Cliquez la semaine dernière comme filtre. Un grand nombre de personnes sont des types de personnes. Greg Taylor, deuxième sur la liste, est un politicien de l’Indiana qui prétend qu’il est temps pour eux de créer une loi sur les crimes de haine. Jerome Vanghaluwe est un gars que les voyous accusent d’être le vrai conducteur: le propriétaire d’origine de la voiture qui était loin de Charlottesville. Jérôme envisage de poursuivre.
Je ne sais pas quel moteur Google AI ils utilisent, mais cela ne fonctionne pas bien pour une identification même simple. Les individus et les types de personnes (policiers, juifs orthodoxes) sont mélangés à de vraies personnes. Il y a aussi un problème d’approvisionnement qui pourrait être la façon dont le faux accusé Jérôme a réussi à ramper vers le haut. Vont-ils peser le NYT et Infowars également? Ou vont-ils exclure entièrement le premier, pour des raisons de droit d’auteur, et le second, parce que c’est de la fiction (même si beaucoup de gens le croient)?
Je peux voir pourquoi Google et FB voudraient étudier et trier les nouvelles, mais ce projet est trop jeune pour avoir quitté le laboratoire. Le code open source est une bonne idée: le processus, lorsqu’il fonctionne, rend le code plus fort. Il est irresponsable de l’exécuter et de signaler les résultats – lorsqu’il n’est pas cuit et que les gens se fieront aux résultats.
Comme cette source l’a souligné plus tard, les résultats étaient biaisés: cette semaine »n’était qu’une seule journée de données. Il semble qu’ils ne lui fournissent pas plus de données au-delà du jeu d’enregistrements initial. Et cet ensemble de données semblait beaucoup trop petit pour faire le travail: 4000 reportages qui mentionnaient vaguement des crimes de haine, et en plus de cela n’étaient pas bien réglés.
Franchement, c’est bizarre, et encore plus bizarre d’exposer ce qui est censé être un projet majeur qui produit si évidemment des résultats terribles à ce stade. Il semble que Google et peut-être encore plus ProPublica aient voulu se placer devant le train des crimes / discours haineux après Charlottesville pour éloigner d’autres concurrents potentiels pour le financement et l’attention des journalistes.