lunedì 4 novembre 2024

Narayanan e Kapoor – AI Snake Oil

 
Era l’ora! Ecco un libro che posso consigliare senza riserve a proposito delle possibilità dell’“intelligenza artificiale” attuale: AI Snake Oil di Arvind Narayanan e Sayash Kapoor. 
  
Le mie esperienze sulla valutazione sono molto in sintonia con il sottotitolo del libro, What Artificial Intelligence Can Do, What It Can't, and How to Tell the Difference. Il titolo, però, potrebbe risultare opaco al lettore italiano. Gli autori per fortuna ne chiariscono il significato nel primo capitolo, Introduction, rinviando ai venditori di “olio di serpente” (snake oil) diffusi negli Stati Uniti tra la fine dell’Ottocento e i primi del Novecento. L’“olio di serpente” era infatti ritenuto in grado di curare un po’ tutti i problemi di salute: dai reumatismi ai morsi di animale al mal di denti. Ovviamente, non funzionava. Il che però non impediva ai venditori di arricchirsi con il prodotto, che oltretutto spesso, come notano gli autori, in realtà non conteneva davvero “olio di serpente”. Allo stesso modo,
 
AI snake oil is AI that does not and cannot work, like the hiring video analysis software that originally motivated the research that led to this book. The goal of this book is to identify AI snake oil—and to distinguish it from AI that can work well if used in the right ways. While some cases of snake oil are clear cut, the boundaries are a bit fuzzy. In many cases, AI works to some extent but is accompanied by exaggerated claims by the companies selling it. That hype leads to overreliance, such as using AI as a replacement for human expertise instead of as a way to augment it (p. 28).
  
Gli autori notano poi come buona parte delle esagerazioni sia riconducibile al fatto che l’etichetta di “intelligenza artificiale” (IA) viene assegnata a sistemi molto diversi tra di loro. E fanno quindi una distinzione tanto ragionevole quanto forte tra IA “predittive” e IA “generative”.
 
Il secondo capitolo, intitolato How Predictive AI Goes Wrong, viene quindi dedicato a mostrare il modo in cui le IA “predittive” hanno collezionato una serie imponente di insuccessi. Gli autori insistono anche sul fatto che questi sistemi vengono già utilizzati in molti contesti per fare previsioni su questioni di assoluta rilevanza – in particolare nel sistema giudiziario degli Stati Uniti (con sistemi come ORAS e PSA: p. 51) – con esiti non solo pessimi in generale ma chiaramente punitivi per i gruppi sociali svantaggiati: esempi non solo di “how AI tools search under the streetlight” ma di come “More often than not, the streetlight is pointed at the poor” (p. 53).
 
Il secondo capitolo si conclude con alcune ipotesi sul perché, nonostante gli evidenti limiti, i sistemi predittivi sono così popolari. Gli autori ritengono che al di là delle motivazioni pratiche, ci siano anche cause psicologiche profonde:
 
part of the reason surely is that decision-makers are people—people who dread randomness like everyone else. This means they can’t stand the thought of the alternative to this way of decision-making—that is, acknowledging that the future cannot be predicted. They would have to accept that they have no control over, say, picking good job performers, and that it’s not possible to do better than a process that is mostly random (p. 57).
 
Non so quanto essere d’accordo con questo, ma ho pochi elementi per esprimermi in un senso o nell’altro! In fin dei conti, i sistemi predittivi vengono usati soprattutto negli Stati Uniti: in Italia non mi sembrano particolarmente popolari e non ne ho mai sentito incoraggiare l’uso, per esempio, nei concorsi pubblici o nei tribunali.
 
Di applicazione più generale è il capitolo 3, Why Can’t AI Predict the Future? Qui viene presentata innanzitutto una storia di tentativi (falliti) di usare il computer per predire il futuro. Gli autori notano però che non tutte le predizioni sono impossibili: alcune sono perfettamente possibili e normalmente usate. Quel che conta è imparare a distinguere tra ciò che in effetti funziona abbastanza da avere applicazioni pratiche (a cominciare dalle previsioni del tempo) e ciò che invece non funziona per nulla (le previsioni delle agitazioni sociali, o del mercato azionario). Un esempio discusso in dettaglio (da p. 69) è quello della Fragile Families Challenge, uno studio su larga scala condotto per cercare di prevedere gli esiti di vita (voti scolastici e simili) di un campione molto ampio di bambini nati attorno al Duemila. Nonostante la partecipazione di numerosi gruppi di ricerca, anche i migliori modelli sviluppati e basati su IA “were only slightly better than a coin flip” e non sono riusciti a ottenere previsioni migliori di quelle basate su indicatori molto semplici (p. 73).
 
Gli autori notano poi l’incapacità attuale, anche da parte dei migliori esperti, di prevedere in dettaglio successi o fallimenti nell’industria del cinema o della musica, oltre che nei meme. Alcuni dei limiti sono dovuti a vincoli pratici, come la scarsa disponibilità di dati pertinenti; altri però sembrano strutturalmente impossibili da superare (p. 97).
 
Molto diverso è il tono del quarto capitolo, The Long Road to Generative AI. Gli autori esordiscono infatti chiarendo che in questo caso “the technology is powerful and the advances are real” (p. 99). 
Chi segue il mio lavoro conoscerà le mie osservazioni sulla difficoltà di valutare le IA generative, da ChatGPT in giù. Narayanan e Kapoor descrivono il problema in questi termini:
 
Some products do what it says on the tin. Others don’t work at all. In between those two extremes are products that are useful but oversold. Each of these can be harmful, in different ways. Generative AI is a mixed bag.(…) The varied landscape of generative AI applications resists a simple characterization of the limits of the technology (pp. 103-104).
 
Detto questo, gli autori passano a descrivere anche i successi, insistendo in particolare sull’importanza della competizione ImageNet per la classificazione di immagini a partire dal 2020 (p. 111). Insistono poi anche sul ruolo importante del recente premio Nobel Geoffrey Hinton in quanto inventore dalla tecnica di “backpropagation”. Ma notano anche i problemi connessi al fatto che competizioni e tecniche del genere sono poi andate avanti senza coinvolgere gli esperti dei settori su cui le tecniche operavano, creando dinamiche di autoreferenzialità.
 
Vale la pena di notare anche le ragionevoli posizioni degli autori riguardo alla questione di quanto le attività di cui sono capaci i sistemi siano vera comprensione:
 
Understanding is not all or nothing. Chatbots may not understand a topic as deeply or in the same way as a person—especially an expert—might, but they might still understand it to some useful degree. (…) Chatbots “understand” in the sense that they build internal representations of the world through their training process. Again, those representations might differ from ours, might be inaccurate, and might be impoverished because they don’t interact with the world in the way that we do. Nonetheless, these representations are useful, and they allow chatbots to gain capabilities that would be simply impossible if they were merely giant statistical tables of patterns observed in the data. (…) we know that language models learn the structure of language, even though they don’t have grammatical rules programmed into them (pp. 137-138).
 
Non sorprendentemente, gli autori poi ipotizzano che tutte le preoccupazioni sul modo in cui i sistemi generativi possano essere usati per esempio per manipolare elezioni siano esagerate (p. 147). Il vero rischio si colloca invece nelle modalità di sfruttamento economico (p. 148).
 
Con questa ragionevolissima impostazione, non sorprende che la risposta alla domanda posta nel titolo del capitolo 5, Is Advanced AI an Existential Treat? sia un semplice “no”. La domanda più interessante è allora: perché diverse persone intelligenti credono a una cosa tanto assurda? La spiegazione degli autori accosta ai ben evidenti motivi di profitto anche fattori di altro tipo, come la continua tentazione di ognuno ad assegnare importanza cosmica al proprio lavoro.
 
Molto simile è anche l’impostazione del capitolo 5, Why Can’t AI Fix Social Media? I sistemi di “content moderation” (‘moderazione dei contenuti’) vengono qui considerati un terzo tipo di IA, in aggiunta a quelle predittive e generative. Anche qui, però, come nel caso delle IA predittive, i fallimenti sono evidenti – e sono evidenti anche gli abusi.
 
Su questa base, il sesto capitolo si chiede Why Do Myths about AI Persist? Un punto importante è l’applicazione meccanica di semplici cliché sul modo in cui le tecnologie avanzano. Ma vorrei conservare soprattutto una citazione rilevante a proposito dei meccanismi con cui le esagerazioni si autoalimentano:
 
performance on benchmark datasets overestimates the usefulness of AI in the real world. As we saw in chapter 4, the dominant way to determine the usefulness of AI is through benchmark datasets. But benchmarks are wildly overused in AI. They have been heavily criticized for collapsing a multidimensional evaluation into a single number. When used as a way to compare humans and bots, the results can mislead people into believing that AI is close to replacing humans (p. 241).
 
E una citazione sul confronto con la realtà, e su quanto anche i premi Nobel possano dire stupidaggini perfino nel loro campo:
 
Researchers also misuse language to imply that AI tools perform better than they actually do—for instance, by implying that they have human-level reading comprehension, when the only evidence is on a benchmark dataset instead of evaluations in the real world. This culture is exemplified by a dismissive attitude toward domain experts that many AI researchers and developers hold. In 2016, AI pioneer Geoffrey Hinton claimed: “If you work as a radiologist, you’re like the coyote that’s already over the edge of the cliff but hasn’t yet looked down, so doesn’t realize there’s no ground underneath him. People should stop training radiologists now. It’s just completely obvious that within five years, deep learning is going to do better than radiologists.” In 2022, there was a worldwide shortage of radiologists. AI has not even come close to replacing radiologists (pp. 238-239).
 
Detto questo, gli autori si mettono alla prova nel capitolo 8, Where Do We Go from here?. Citano i problemi con i sistemi di identificazione dei testi generati, incoraggiano ad accettare la casualità di molte valutazioni, notano l’impatto reale sui traduttori e così via. E poi descrivono due scenari futuri, visti attraverso gli occhi di due bambini d’invenzione, Kai e Maya. Nel mondo di Kai gli errori legislativi e di sviluppo portano a uno scenario in cui l’applicazione dell’IA devasta la scuola e la vita sociale; nel mondo di Maya, frutto di scelte più sensate, l’IA porta invece un aiuto reale in molte situazioni. Per scegliere l’uno invece dell’altro, gli autori notano che sono necessarie competenze e riflessioni approfondite, non la riproposizione di luoghi comuni. E su questo, come su molte altre delle loro osservazioni, non posso che concordare.
 
Una citazione finale da conservare, con un concetto che sta alla base anche di molte delle mie idee sul modo in cui devono essere valutate le capacità dei sistemi generativi:
 
Medical researchers perform RCTs [randomized controlled trials] despite their slow pace and high expense for a simple reason—easier, faster methods don’t work. The same is true in many areas where AI is used for automated decision-making (p.45).
 
Arvind Narayanan e Sayash Kapoor, AI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference, Princeton, Princeton University Press 2024, edizione Kindle. € 18,19, ISBN 9780691249643.

Piccola nota storica: agli interessati della mia generazione, il titolo del libro ricorderà quello di Silicon Snake Oil di Clifford Stoll, uscito nel 1995 e con un’impostazione simile. Stoll, però, non viene mai citato da Narayanan e Kapoor. L’omissione può essere motivata facilmente: il libro di Stoll, che ahimè non ho letto, era una critica radicale a Internet e viene normalmente citato come esempio di totale fallimento nelle predizioni. Per esempio, prevedeva che il commercio elettronico non sarebbe mai decollato e che i giornali non sarebbero mai stati rimpiazzati dalle pubblicazioni online… Non avendolo mai letto non so quanto fossero ragionevoli le argomentazioni pubblicate. Di sicuro, il libro di Narayanan e Kapoor brilla invece per la sua prudenza e per la competenza mostrata dagli autori, oltre che per la sua leggibilità.
 

martedì 22 ottobre 2024

I limiti di ChatGPT: il problema del 99,5%

 
Come dicevo pochi giorni fa, ChatGPT in sostanza scrive bene in italiano. In prima approssimazione, il livello dei testi che produce è paragonabile a quello dei testi prodotti da studenti universitari di laurea magistrale; o, più in generale, da persone di elevato livello culturale che non siano professioniste della scrittura. In altra prospettiva, il numero di veri e propri errori che si ritrova nei testi di ChatGPT in italiano è simile a quello che si ritrova nei testi di professionisti della scrittura (dai professori universitari di materie umanistiche ai giornalisti) prima che su di essi venga condotta una revisione finale. Diciamo, quelli che si trova di fronte la persona incaricata di dare una rilettura agli atti di un convegno non particolarmente rilevante...
 
Tuttavia, è utile andare oltre la prima approssimazione! Va quindi ricordato che il lavoro di ChatGPT, nei miei sondaggi, non è mai stato perfetto. Più in dettaglio, all’interno di testi di una certa estensione compaiono sempre, prima o poi, errori o tratti che un professionista della scrittura non ammetterebbe (nel commento della settimana scorsa ho citato in particoalre la frequenza dei calchi dall’inglese). Sintetizzando, possiamo dire che il sistema al momento non riesce a svolgere in modo affidabile la revisione finale.
 
Facciamo un esempio pratico. Premetto che la frequenza delle cosiddette “allucinazioni” fa sì che sia pericolosissimo usare questi sistemi come motori di ricerca o strumenti per la ricerca di informazioni. Comunque, a fini dimostrativi, stamattina ho chiesto una definizione a ChatGPT-4o: “Puoi spiegarmi che cos'è un fonema?”. La risposta è stata:
 
Un fonema è l'unità minima distintiva del suono all'interno di una lingua. In altre parole, un fonema è un suono che, se cambiato, modifica il significato di una parola. Per esempio, in italiano, le parole "pane" e "cane" si distinguono per un solo suono, quello della lettera "p" rispetto alla "c". Questo suono diverso rappresenta due fonemi distinti (/p/ e /k/), che creano una differenza di significato.
I fonemi non corrispondono necessariamente ai singoli caratteri dell'alfabeto: per esempio, in italiano il suono "ch" in "chiave" è un solo fonema, anche se rappresentato da due lettere. 
Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non cambiano il significato della parola, sono considerate varianti dello stesso fonema.    

In questo caso, la spiegazione  contiene errori rilevanti nella sostanza. In particolare, nel primo capoverso si parla del fonema come di un “suono” che può essere “cambiato”, e questo è un modo decisamente distorto per presentare l’informazione. Più in dettaglio, è come minimo ambigua la seconda parte della terza frase (io direi che “… si distinguono solo perché è diverso il suono iniziale: nella prima è quello rappresentato dalla lettera "p", nella seconda quello rappresentato dalla lettera "c"”). Inoltre, è decisamente confusa la spiegazione successiva: “Questo suono diverso rappresenta due fonemi distinti…” In realtà, appunto, non si tratta di un singolo “suono diverso” che “rappresenta due fonemi” ma di due suoni diversi (una “diversità di suono”) che corrispondono a due fonemi distinti.
 
Soprattutto, però, è utile notare che in questo testo compare uno dei tipici errori formali delle intelligenze artificiali generative. L’ultima frase dice infatti:
 
Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non cambiano il significato della parola, sono considerate varianti dello stesso fonema.  
  
Il testo non è grammaticale perché il soggetto non espresso della preposizione coordinata “sono considerate varianti” (e della subordinata “finché non cambiano”) non è in realtà quello della prima preposizione (cioè “un fonema”), ma quello della frase tra parentesi (cioè “queste varianti si chiamano allofoni”). La frase tra parentesi rientra in effetti, secondo la terminologia usata da Renzi, Salvi e Cardinaletti nella Grande grammatica italiana di consultazione, nella categoria delle “parentetiche”. Ora, nell’italiano scritto le parentetiche sono (e devono essere) prive di legami sintattici con la frase che le contiene; non possono quindi fornire il soggetto implicito della proposizione successiva. Di conseguenza, il testo dovrebbe essere corretto, per esempio, in questo modo, creando due frasi distinte con l’esplicitazione del diverso soggetto e l’eliminazione della parentetica:
 
Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto. Queste varianti si chiamano allofoni, ma, se non cambiano il significato della parola, sono appunto considerate semplici varianti dello stesso fonema.
 
L’esperienza mostra che tale tipo di intervento, ovvio per un revisore esperto anche se digiuno di grammatica, non è per niente ovvio a ChatGPT. In questo caso, per esempio, ho iniziato una nuova conversazione con il sistema, dandogli tra virgolette il brano appena generato sul fonema, preceduto dalla richiesta: “Questa spiegazione non è del tutto corretta nella forma linguistica. Puoi correggerla?” La risposta di ChatGPT non è stata soddisfacente:
 
Ecco una versione migliorata della tua spiegazione:
"Il fonema è l'unità minima distintiva del suono in una lingua. In altre parole, un fonema è un suono che, se modificato, cambia il significato di una parola. Ad esempio, in italiano, le parole pane e cane si distinguono per un solo suono, quello iniziale: la /p/ di pane e la /k/ di cane. Questi due suoni rappresentano fonemi distinti, /p/ e /k/, che determinano una differenza di significato.
I fonemi non corrispondono necessariamente ai singoli caratteri dell'alfabeto. Per esempio, in italiano il suono della combinazione ch in chiave è un unico fonema, pur essendo scritto con due lettere.
Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma, finché non alterano il significato della parola, vengono considerate varianti dello stesso fonema."
In questa versione, ho riformulato alcune frasi per migliorare la scorrevolezza e la precisione terminologica.
 
È interessante notare che, senza che ciò venisse richiesto, il sistema ha eseguito alcuni interventi sia sulla sostanza sia sugli aspetti che potremmo definire “redazionali”. Per esempio, all’impiego dei grassetti ha sostituito quello dei corsivi e all’uso di “Per esempio” (che io raccomando) ha sostituito quello di “Ad esempio”. Per la sostanza, poi, la spiegazione del primo capoverso è diventata decisamente più corretta! Nell’ultima frase di quel capoverso ancora non si dovrebbe dire che i suoni “rappresentano” (semmai “corrispondono” o simili), ma la spiegazione fornita nella frase precedente è adesso molto più accettabile.
 
Tuttavia, l’errore linguistico nell’ultima frase è rimasto e non è stato notato. Lo stesso avviene se ci si concentra sull’ultima frase chiedendo in modo più esplicito:
 
La frase "Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma, finché non alterano il significato della parola, vengono considerate varianti dello stesso fonema." contiene un errore sintattico. Puoi correggerla?
 
La risposta, che include una spiegazione non corrispondente all’intervento effettivamente eseguito, è ancora insoddisfacente:
 
Hai ragione, la frase può essere migliorata dal punto di vista sintattico. Ecco la versione corretta:
"Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non alterano il significato della parola, sono considerate varianti dello stesso fonema."
Ho eliminato la virgola superflua prima di "sono considerate" per rendere la frase più fluida e corretta.
 
Questa difficoltà a compiere l’ultimo passo è il motivo per cui la generazione di testo, al momento, per raggiungere un livello professionale umano su testi di una certa estensione ha sempre bisogno di una revisione umana. Si tratta, in altre parole, di una delle tante manifestazioni del problema del passare dal 99,5% al 100% di successi (non sono percentuali esatte, ma rendono l’idea!). Tale problema si è rivelato spinosissimo in molti settori: nell’ambito della guida automatica la differenza dello 0,5% è quella che ancora oggi impedisce di avere automobili in grado di muoversi senza continua supervisione umana se non in situazioni ben controllate (in pratica, nel mondo occidentale solo i servizi di Waymo in alcune aree di tre città americane raggiungono questo livello in un contesto urbano).
 
Nella scrittura, il problema è senz’altro meno spinoso perché, banalmente… anche gli esseri umani hanno un po’ di difficoltà a fare l’ultima revisione. I redattori editoriali in effetti esistono (esistevano?) anche per quello. La differenza è che l’essere umano può anche autorevisionarsi senza troppi problemi, tipicamente rivedendo il testo la mattina dopo, a mente fresca. ChatGPT e sistemi simili no, o perlomeno, non in modo tanto affidabile da poter fare a meno della supervisione.
 
Questo è il motivo per cui anche nell’elaborazione del testo, se si vuole raggiungere un risultato all’altezza degli standard dell’editoria contemporanea, il coinvolgimento umano rimane indispensabile. Le capacità di sistemi come ChatGPT restano stupefacenti, ma va ricordato che rimane anche quello 0,5%, e che sembra uno 0,5% assai difficile da eliminare.
 

venerdì 18 ottobre 2024

ChatGPT scrive bene in italiano

 
Immagine generata da GPT-4o sulla base del prompt: Genere un'immagine di Pietro Bembo che esamina, con espressione perplessa e vagamente stupita, il testo che vede sullo schermo di un computer laptop. Assieme a Pietro Bembo deve esserci un personaggio con gli occhiali che guarda lo stesso schermo. L'immagine deve imitare lo stile di una xilografia rinascimentale.
Riflettere sulla valutazione dei testi prodotti da intelligenze artificiali è interessante. Ma andando sulla pratica: quanto sono buoni i testi scritti in italiano? Risposta sintetica: sono di alto livello, con pochissimi errori. Perlomeno, quando si rimane al livello dei testi in italiano standard.
 
Questa caratteristica generale è già stata autorevolmente segnalata in diverse occasioni da Claudio Marazzini, Presidente emerito dell’Accademia della Crusca, che in un’intervista del 2023 ha per esempio dichiarato:
 
Ho fatto alcuni esperimenti, anche con l’amico Petralli. E devo dire che ChatGPT, beh, fa un uso corretto della lingua italiana. Ma anche delle altre lingue, come il neogreco o il basco. Sì, questo chatbot è ottimo sia nella comprensione sia nella scrittura. Rimanendo all’italiano, si comporta come un parlante nativo. Direi anche piuttosto colto.
 
In effetti, non ci sono dubbi sul fatto che l’italiano di ChatGPT sia di alto livello e che per esempio includa pochissimi errori grammaticali. Il livello è davvero quello del “parlante nativo” e piuttosto colto! Tuttavia, occasionalmente si producono errori veri e propri (come del resto accade anche ai madrelingua, quando producono testi): nel mio contributo uscito su “AI-Linguistica” fornisco un po’ di dettagli. Per esempio, nel piccolo corpus preso in esame nel contributo (circa 7000 parole, ricavate da ChatGPT-3.5 e ChatGPT-4) compaiono due errori sintattici:
  • Il termine "diritto d'autore" e "copyright" sono spesso utilizzati in modo intercambiabile (…)
  • Se appropriato per il corso, mostri [invece di “mostra”] loro esempi di scritti creativi che sono stati premiati o riconosciuti per la loro qualità
Nel secondo esempio vale poi la pena notare l’uso del pronome standard “loro” invece del neostandard “gli” – a rinforzare il livello di formalità.
 
In aggiunta a questi, nel corpus sono presenti due errori ortografici: “un’autore” e “clarezza” al posto di “chiarezza”. Inoltre, per quanto riguarda scelte su cui nell’italiano contemporaneo ci sono in effetti oscillazioni, nella frase “in modo che gli studenti possano esporre se stessi” il pronome “sé stessi” è stato scritto senza accento (secondo l’uso scolastico e contro il noto invito di Luca Serianni), mentre l’uso della -d eufonica nei testi è decisamente oscillanti.
 
Nel corpus però l’aspetto più significativo è un altro: il gran numero di calchi dall’inglese (come l’impiego dell’aggettivo “accademico” in contesti in cui l’italiano userebbe “scientifico”). A questo si aggiunge l’uso di una parola inglese (“jargon”) al posto della parola corrispondente italiana (“gergo”) senza che il contesto fornisca nessuna motivazione per la sostituzione. In diversi punti il rapporto con l’inglese è in effetti tanto forte che alcune frasi, se fossero prodotte da un autore umano, sarebbero caratterizzate come traduzioni un po’ meccaniche dall’inglese. Per esempio:
 
Mi dispiace, Mirko, ma non posso fornire saggistica specifica o estratti di saggistica a causa delle restrizioni di copyright.
 
Il meccanismo con cui è stata generata questa frase non è una traduzione… ma è difficile non ricondurre le ultime parole a una traduzione meccanica di un originale in lingua inglese, “copyright restrictions”, che in italiano in questo contesto dovrebbe essere presentato come “restrizioni dovute al copyright” (o meglio ancora, “restrizioni dovute al diritto d’autore”).
 
Diciamo quindi che i testi prodotti da ChatGPT non arrivano al livello di un testo professionale pubblicato a stampa da un editore affermato dopo una revisione redazionale. Arrivano però tranquillamente, nella mia esperienza, al livello di un testo scritto da bravi studenti universitari o da persone di elevato livello culturale ma che non siano professionisti della scrittura. Vale anche la pena di notare che, dal punto di vista morfosintattico, le frasi con errori arrivano a un livello che è normale anche nel testo di professionisti della scrittura prima che sia condotta la revisione finale.
 

venerdì 11 ottobre 2024

Tavosanis, Valutare la qualità dei testi generati in lingua italiana

 
L’ho scritto a inizio settimana parlando di Co-Intelligence di Ethan Mollick: capire che cosa sanno fare o meno le cosiddette “intelligenze artificiali generative” non è affatto intuitivo. Di qui la centralità della valutazione dei loro prodotti.
 
Un mio contributo sull’argomento è stato pubblicato questa estate dalla rivista “AI-Linguistica” e ha come titolo, appunto, Valutare la qualità dei testi generati in lingua italiana. È anche un contributo piuttosto lungo, perché per arrivare alla valutazione di questi testi occorre fare un buon numero di premesse.
 
Uno dei motivi per cui le premesse sono necessarie è che non esiste un metodo collaudato per valutare i testi prodotti in questo modo. Esistono, certamente, diverse tradizioni di valutazione dei testi, praticate da gruppi diversi di persone: quella scolastica, quella del mondo della traduzione umana, quella della comunità della traduzione automatica, quella del testing linguistico… Ognuna di esse fornisce contributi interessanti. Nessuna di esse però, a mio giudizio, può essere adottata pari pari per la valutazione dei testi generati dalle intelligenze artificiali generative (ChatGPT e simili, insomma).
 
Di una cosa però sono sicuro: in questa fase, la valutazione dei testi delle intelligenze artificiali generative deve essere necessariamente una valutazione fatta da esseri umani competenti. Non esistono scorciatoie: non ci sono sistemi automatici o crowdsourcing che possano sostituire il lavoro di chi può dire se un’espressione è accettabile o meno nell’uso professionale. Le competenze linguistiche e filologiche sono indispensabili per riuscire a comprendere e valutare correttamente questi testi.
 
Aggiungo che non si tratta di un’idea a priori: è la conclusione cui sono arrivato dopo aver provato in modo sistematico le alternative e aver visto che, semplicemente, forniscono risultati molto meno validi rispetto alla valutazione di esseri umani competenti. I dettagli sugli esperimenti che mi portano a questa conclusione saranno presentati nei prossimi mesi in alcuni contributi in uscita, ma il quadro d’assieme è ben chiaro – e in linea con tutto ciò che sappiamo (ma spesso dimentichiamo) sulla valutazione.
 
Mirko Tavosanis, Valutare la qualità dei testi generati in lingua italiana, “AI-Linguistica” 1, 1, 2024, pp. 1-24. https://doi.org/10.62408/ai-ling.v1i1.14
 

martedì 8 ottobre 2024

Mollick, Co-Intelligence

 
Sicuramente, una delle cose che rendono difficile comprendere il funzionamento delle “intelligenze artificiali generative” (ChatGPT è simili) è il fatto che le loro capacità sono ben poco intuitive. In particolare, sono capaci di eseguire bene compiti sorprendenti e difficili, ma non sono capaci di eseguirne altri che sembrerebbero invece semplici.
 
Questa constatazione è ovviamente centrale per molte riflessioni. È anche uno dei nuclei alla base di un libro recente, Co-Intelligence di Ethan Mollick. Una delle definizioni più interessanti contenute nel libro è infatti quella che descrive i limiti delle capacità delle intelligenze artificiali generative come una “Jagged Frontier” (p. 46): una frontiera frastagliata, con molte sporgenze e rientranze, e che oltretutto ha confini invisibili. Solo un’esplorazione attenta, a opera di molte persone diverse, può individuare questi confini con una serie di tentativi ed errori.
 
Non c’è dubbio che questa descrizione si adatti bene alle esperienze degli ultimi anni, con la scoperta graduale delle capacità dei prompt e la messa a fuoco del fatto che i sistemi generativi rispondono in modo diverso a seconda del modo in cui viene posta la domanda (cosa che ancora pochi sanno, direi). Inoltre, l’idea che il modo migliore per scoprire cose nuove in questo settore sia quello di coinvolgere tante persone, invece che limitarsi al lavoro di pochi esperti, mi trova molto in sintonia (pp. 143-146).
 
Ciò che mi differenzia invece da Mollick è la stima dei risultati ricavabili da questa attività di esplorazione. Mollick dice per esempio, con sicurezza senz’altro eccessiva, che “These advances are once-in-a-generation technologies, like steam power or the internet, that touch every industry and every aspect of life” (p. xv). Al termine di una serie di paragoni spesso discutibili, viene poi spiegato il titolo del libro: “AI works, in many ways, as a co-intelligence. It augments, or potentially replaces, human thinking to dramatic results” (p. xvi). Tutto questo sulla base di, ahimè, “early studies” che mostrano le possibilità di aumentare la produttività dal 20 all’80 per cento in settori come la programmazione.
 
Il guaio di queste stime è che, storicamente, si rivelano quasi sempre molto ottimistiche. Le menzionerò ancora nelle conclusioni e conto di parlarne più avanti nella recensione di un altro libro recente... ma la lunga sequenza storica di esagerazioni nelle possibilità delle tecnologie dovrebbe rendere ragionevolmente scettico ogni lettore informato. Così come si dovrebbe essere davvero scettici, viste le esperienze, sulla visione ottimistica che il libro presenta per l’inserimento delle IA nel mondo del lavoro (il capitolo 6 è a volte quasi imbarazzante da questo punto di vista, specie se letto in Italia).
 
Più in dettaglio, dopo una sezione dedicata a discutere i rischi legati all’uso disinvolto delle “intelligenze artificiali predittive”, Mollick articola più in dettaglio le sue posizioni nel terzo capitolo, dedicato a presentare “Four Rules for Co-Intelligence”. I principi sono:
  1. Always invite AI to the table, cioè in pratica provare a usare l’IA in tutte le attività, a parte evidentemente le situazioni in cui ci sono vincoli morali o legali (p. 46). 
  2. Be the human in the loop, cioè tenere d’occhio la produzione dei sistemi in modo da fornire un’attenta supervisione umana al lavoro delle IA (p. 51). 
  3. Treat AI like a person (but tell it what kind of person it is), cioè sfruttare il fatto che le risposte dei sistemi variano molto, anche qualitativamente, a seconda del ruolo che l’interlocutore umano assegna loro – da dilettante a specialista (p. 54). 
  4. Assume this is the worst AI you will ever use, cioè tenere conto delle possibilità di sviluppo dei sistemi (p. 59).
Io avrei alcune obiezioni al primo e al quarto principio. Per esempio, in rapporto al quarto, non sono così convinto del fatto che le intelligenze artificiali possano solo migliorare: in mancanza di grandi sviluppi tecnici, i vincoli legali, o la semplice procedura di “enshittification” di cui parla Cory Doctorow, possono benissimo rendere le IA del futuro meno capaci di quelle di oggi.
 
Soprattutto, però, in rapporto al terzo sono molto meno convinto di Mollick sulla quantità di benefici ricavabili in questo modo. Alcuni ce ne sono sicuramente, ma dopo due anni di tentativi da parte di milioni di utenti è intanto difficile immaginare che possa venire fuori qualcosa di radicalmente nuovo. Resta senz’altro la possibilità di trovare soluzioni individuali per problemi specifici – ma, appunto, non è affatto garantito che per esempio in una qualche attività lavorativa ci siano per forza di cose situazioni in cui le intelligenze artificiali generative possano aiutare. A cominciare innanzitutto dalla scuola, e da attività come linsegnamento della scrittura!
 
Come già detto, infatti, le stime dei benefici sono preliminari e in situazioni del genere l’esagerazione è la regola. Che le IA abbiano alcune capacità effettivamente utili è indubbio; altrettanto indubbio, però, è che abbiano fortissimi limiti. Prima di abbracciare un generale ottimismo, mi sembra quindi utile entrare molto più in dettaglio nella valutazione. Questo è ciò che sto facendo con diversi lavori di ricerca… e conto di parlarne presto anche qui.
 
Ethan Mollick Co-Intelligence: Living and Working with AI, Londra, Penguin, 2024, versione Kindle, € 14,99, ISBN 978-0-753-56078-5 ASIN B0CHHY2PS4.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.