Era l’ora! Ecco un libro che posso consigliare senza riserve a proposito delle possibilità dell’“intelligenza artificiale” attuale: AI Snake Oil di Arvind Narayanan e Sayash Kapoor.
Le mie esperienze sulla valutazione sono molto in sintonia con il sottotitolo del libro, What Artificial Intelligence Can Do, What It Can't, and How to Tell the Difference. Il titolo, però, potrebbe risultare opaco al lettore italiano. Gli autori per fortuna ne chiariscono il significato nel primo capitolo, Introduction, rinviando ai venditori di “olio di serpente” (snake oil) diffusi negli Stati Uniti tra la fine dell’Ottocento e i primi del Novecento. L’“olio di serpente” era infatti ritenuto in grado di curare un po’ tutti i problemi di salute: dai reumatismi ai morsi di animale al mal di denti. Ovviamente, non funzionava. Il che però non impediva ai venditori di arricchirsi con il prodotto, che oltretutto spesso, come notano gli autori, in realtà non conteneva davvero “olio di serpente”. Allo stesso modo,
AI snake oil is AI that does not and cannot work, like the hiring video analysis software that originally motivated the research that led to this book. The goal of this book is to identify AI snake oil—and to distinguish it from AI that can work well if used in the right ways. While some cases of snake oil are clear cut, the boundaries are a bit fuzzy. In many cases, AI works to some extent but is accompanied by exaggerated claims by the companies selling it. That hype leads to overreliance, such as using AI as a replacement for human expertise instead of as a way to augment it (p. 28).
Gli autori notano poi come buona parte delle esagerazioni sia riconducibile al fatto che l’etichetta di “intelligenza artificiale” (IA) viene assegnata a sistemi molto diversi tra di loro. E fanno quindi una distinzione tanto ragionevole quanto forte tra IA “predittive” e IA “generative”.
Il secondo capitolo, intitolato How Predictive AI Goes Wrong, viene quindi dedicato a mostrare il modo in cui le IA “predittive” hanno collezionato una serie imponente di insuccessi. Gli autori insistono anche sul fatto che questi sistemi vengono già utilizzati in molti contesti per fare previsioni su questioni di assoluta rilevanza – in particolare nel sistema giudiziario degli Stati Uniti (con sistemi come ORAS e PSA: p. 51) – con esiti non solo pessimi in generale ma chiaramente punitivi per i gruppi sociali svantaggiati: esempi non solo di “how AI tools search under the streetlight” ma di come “More often than not, the streetlight is pointed at the poor” (p. 53).
Il secondo capitolo si conclude con alcune ipotesi sul perché, nonostante gli evidenti limiti, i sistemi predittivi sono così popolari. Gli autori ritengono che al di là delle motivazioni pratiche, ci siano anche cause psicologiche profonde:
part of the reason surely is that decision-makers are people—people who dread randomness like everyone else. This means they can’t stand the thought of the alternative to this way of decision-making—that is, acknowledging that the future cannot be predicted. They would have to accept that they have no control over, say, picking good job performers, and that it’s not possible to do better than a process that is mostly random (p. 57).
Non so quanto essere d’accordo con questo, ma ho pochi elementi per esprimermi in un senso o nell’altro! In fin dei conti, i sistemi predittivi vengono usati soprattutto negli Stati Uniti: in Italia non mi sembrano particolarmente popolari e non ne ho mai sentito incoraggiare l’uso, per esempio, nei concorsi pubblici o nei tribunali.
Di applicazione più generale è il capitolo 3, Why Can’t AI Predict the Future? Qui viene presentata innanzitutto una storia di tentativi (falliti) di usare il computer per predire il futuro. Gli autori notano però che non tutte le predizioni sono impossibili: alcune sono perfettamente possibili e normalmente usate. Quel che conta è imparare a distinguere tra ciò che in effetti funziona abbastanza da avere applicazioni pratiche (a cominciare dalle previsioni del tempo) e ciò che invece non funziona per nulla (le previsioni delle agitazioni sociali, o del mercato azionario). Un esempio discusso in dettaglio (da p. 69) è quello della Fragile Families Challenge, uno studio su larga scala condotto per cercare di prevedere gli esiti di vita (voti scolastici e simili) di un campione molto ampio di bambini nati attorno al Duemila. Nonostante la partecipazione di numerosi gruppi di ricerca, anche i migliori modelli sviluppati e basati su IA “were only slightly better than a coin flip” e non sono riusciti a ottenere previsioni migliori di quelle basate su indicatori molto semplici (p. 73).
Gli autori notano poi l’incapacità attuale, anche da parte dei migliori esperti, di prevedere in dettaglio successi o fallimenti nell’industria del cinema o della musica, oltre che nei meme. Alcuni dei limiti sono dovuti a vincoli pratici, come la scarsa disponibilità di dati pertinenti; altri però sembrano strutturalmente impossibili da superare (p. 97).
Molto diverso è il tono del quarto capitolo, The Long Road to Generative AI. Gli autori esordiscono infatti chiarendo che in questo caso “the technology is powerful and the advances are real” (p. 99).
Chi segue il mio lavoro conoscerà le mie osservazioni sulla difficoltà di valutare le IA generative, da ChatGPT in giù. Narayanan e Kapoor descrivono il problema in questi termini:
Some products do what it says on the tin. Others don’t work at all. In between those two extremes are products that are useful but oversold. Each of these can be harmful, in different ways. Generative AI is a mixed bag.(…) The varied landscape of generative AI applications resists a simple characterization of the limits of the technology (pp. 103-104).
Detto questo, gli autori passano a descrivere anche i successi, insistendo in particolare sull’importanza della competizione ImageNet per la classificazione di immagini a partire dal 2020 (p. 111). Insistono poi anche sul ruolo importante del recente premio Nobel Geoffrey Hinton in quanto inventore dalla tecnica di “backpropagation”. Ma notano anche i problemi connessi al fatto che competizioni e tecniche del genere sono poi andate avanti senza coinvolgere gli esperti dei settori su cui le tecniche operavano, creando dinamiche di autoreferenzialità.
Vale la pena di notare anche le ragionevoli posizioni degli autori riguardo alla questione di quanto le attività di cui sono capaci i sistemi siano vera comprensione:
Understanding is not all or nothing. Chatbots may not understand a topic as deeply or in the same way as a person—especially an expert—might, but they might still understand it to some useful degree. (…) Chatbots “understand” in the sense that they build internal representations of the world through their training process. Again, those representations might differ from ours, might be inaccurate, and might be impoverished because they don’t interact with the world in the way that we do. Nonetheless, these representations are useful, and they allow chatbots to gain capabilities that would be simply impossible if they were merely giant statistical tables of patterns observed in the data. (…) we know that language models learn the structure of language, even though they don’t have grammatical rules programmed into them (pp. 137-138).
Non sorprendentemente, gli autori poi ipotizzano che tutte le preoccupazioni sul modo in cui i sistemi generativi possano essere usati per esempio per manipolare elezioni siano esagerate (p. 147). Il vero rischio si colloca invece nelle modalità di sfruttamento economico (p. 148).
Con questa ragionevolissima impostazione, non sorprende che la risposta alla domanda posta nel titolo del capitolo 5, Is Advanced AI an Existential Treat? sia un semplice “no”. La domanda più interessante è allora: perché diverse persone intelligenti credono a una cosa tanto assurda? La spiegazione degli autori accosta ai ben evidenti motivi di profitto anche fattori di altro tipo, come la continua tentazione di ognuno ad assegnare importanza cosmica al proprio lavoro.
Molto simile è anche l’impostazione del capitolo 5, Why Can’t AI Fix Social Media? I sistemi di “content moderation” (‘moderazione dei contenuti’) vengono qui considerati un terzo tipo di IA, in aggiunta a quelle predittive e generative. Anche qui, però, come nel caso delle IA predittive, i fallimenti sono evidenti – e sono evidenti anche gli abusi.
Su questa base, il sesto capitolo si chiede Why Do Myths about AI Persist? Un punto importante è l’applicazione meccanica di semplici cliché sul modo in cui le tecnologie avanzano. Ma vorrei conservare soprattutto una citazione rilevante a proposito dei meccanismi con cui le esagerazioni si autoalimentano:
performance on benchmark datasets overestimates the usefulness of AI in the real world. As we saw in chapter 4, the dominant way to determine the usefulness of AI is through benchmark datasets. But benchmarks are wildly overused in AI. They have been heavily criticized for collapsing a multidimensional evaluation into a single number. When used as a way to compare humans and bots, the results can mislead people into believing that AI is close to replacing humans (p. 241).
E una citazione sul confronto con la realtà, e su quanto anche i premi Nobel possano dire stupidaggini perfino nel loro campo:
Researchers also misuse language to imply that AI tools perform better than they actually do—for instance, by implying that they have human-level reading comprehension, when the only evidence is on a benchmark dataset instead of evaluations in the real world. This culture is exemplified by a dismissive attitude toward domain experts that many AI researchers and developers hold. In 2016, AI pioneer Geoffrey Hinton claimed: “If you work as a radiologist, you’re like the coyote that’s already over the edge of the cliff but hasn’t yet looked down, so doesn’t realize there’s no ground underneath him. People should stop training radiologists now. It’s just completely obvious that within five years, deep learning is going to do better than radiologists.” In 2022, there was a worldwide shortage of radiologists. AI has not even come close to replacing radiologists (pp. 238-239).
Detto questo, gli autori si mettono alla prova nel capitolo 8, Where Do We Go from here?. Citano i problemi con i sistemi di identificazione dei testi generati, incoraggiano ad accettare la casualità di molte valutazioni, notano l’impatto reale sui traduttori e così via. E poi descrivono due scenari futuri, visti attraverso gli occhi di due bambini d’invenzione, Kai e Maya. Nel mondo di Kai gli errori legislativi e di sviluppo portano a uno scenario in cui l’applicazione dell’IA devasta la scuola e la vita sociale; nel mondo di Maya, frutto di scelte più sensate, l’IA porta invece un aiuto reale in molte situazioni. Per scegliere l’uno invece dell’altro, gli autori notano che sono necessarie competenze e riflessioni approfondite, non la riproposizione di luoghi comuni. E su questo, come su molte altre delle loro osservazioni, non posso che concordare.
Una citazione finale da conservare, con un concetto che sta alla base anche di molte delle mie idee sul modo in cui devono essere valutate le capacità dei sistemi generativi:
Medical researchers perform RCTs [randomized controlled trials] despite their slow pace and high expense for a simple reason—easier, faster methods don’t work. The same is true in many areas where AI is used for automated decision-making (p.45).
Arvind Narayanan e Sayash Kapoor, AI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference, Princeton, Princeton University Press 2024, edizione Kindle. € 18,19, ISBN 9780691249643.
Piccola nota storica: agli interessati della mia generazione, il titolo del libro ricorderà quello di Silicon Snake Oil di Clifford Stoll, uscito nel 1995 e con un’impostazione simile. Stoll, però, non viene mai citato da Narayanan e Kapoor. L’omissione può essere motivata facilmente: il libro di Stoll, che ahimè non ho letto, era una critica radicale a Internet e viene normalmente citato come esempio di totale fallimento nelle predizioni. Per esempio, prevedeva che il commercio elettronico non sarebbe mai decollato e che i giornali non sarebbero mai stati rimpiazzati dalle pubblicazioni online… Non avendolo mai letto non so quanto fossero ragionevoli le argomentazioni pubblicate. Di sicuro, il libro di Narayanan e Kapoor brilla invece per la sua prudenza e per la competenza mostrata dagli autori, oltre che per la sua leggibilità.