martedì 3 marzo 2026

Tavosanis, Grammatica generata

 
Logo AI-Ling

Il 2025 è stato per me un anno decisamente impegnativo. In primo luogo, e di gran lunga, per gli eventi della vita; ma un po’ anche per i lavori da portare a termine. Questo secondo aspetto se non altro è più controllabile e, incrociando le dita, si sta normalizzando. Tuttavia, la quantità di cose da fare è stata tale da rendere difficile anche solo dar conto di quel che è stato pubblicato.
 
Segnalo quindi qui un mio contributo uscito già da qualche mese sulla rivista “AI-Linguistica”: Grammatica generata: analisi di alcune strutture presenti nei testi di ChatGPT in lingua italiana. Lì ho cercato di vedere quanti e quali sono gli errori grammaticali che ChatGPT, Minerva LLM e DeepSeek commettono nei testi generati in lingua italiana. Spoiler! Gli errori sono pochi ma non assenti (se ne trova uno ogni una-due pagine), e sono anche molto simili tra un modello e l’altro, sia per frequenza sia per qualità.
 
Tuttavia, una valutazione più precisa è resa difficile da una vaghezza nell’oggetto. Infatti, nell’italiano contemporaneo non è sempre chiaro che cosa sia errore o no. L’incertezza è viva soprattutto per la sintassi, e molto meno per la morfologia o l’ortografia, ma coinvolge comunque strutture comunissime. A scanso di equivoci, è bene precisare che ciò avviene anche (o specialmente?) nell’uso colto. In pratica, quindi, si vede che persone istruite, inclusi i docenti di materie letterarie nella scuola secondaria o i linguisti, hanno opinioni molto diverse tra di loro (e spesso vivacemente diverse tra di loro) riguardo l’accettabilità o meno di frasi come queste, che possono essere accettate senza problemi o violentemente critcate:
 
  • A Piero piace Maria e cerca di farsi bello ai suoi occhi. 
  • In questi casi, una scrittura volutamente non chiara può servire a proteggere individui da potenziali danni, sia a livello personale che professionale.
 
Naturalmente, non sono io il primo ad accorgersi dello stato delle cose: da un quarto di secolo a questa parte, diversi ricercatori, incluso Gaetano Berruto, hanno fatto occasionale riferimento a questa “disomogeneità di giudizi”, evidente a chiunque si metta a leggere sistematicamente i tre monumentali tomi della Grande grammatica italiana di consultazione. Tuttavia, non si sono mai avute, per esempio, campagne di valutazione estese che rendessero conto della variabilità dei giudizi dei parlanti. E in generale, com’è ovvio, la produzione professionale spesso si tiene lontana dai casi incerti; che però emergono senza problemi quando a scrivere sono persone di alto livello culturale ma che non praticano professionalmente la scrittura in lingua italiana.
 
La questione sarebbe soprattutto scolastica, ma è impossibile evitarla quando si cerca di valutare la produzione delle intelligenze artificiali. Se un’intelligenza artificiale generativa produce strutture come “sia a livello personale che professionale”, che vanno in diretta violazione di alcuni principi enunciati da Luca Serianni, si tratta di un errore o no?
 
Anche in questo caso mi sembra insomma che l’intelligenza artificiale, oltre a essere un oggetto di studio interessante di per sé, permetta di tornare a riflettere su qualcosa che sia nella discussione scientifica sia nella pratica didattica è rimosso o negato. Anche dopo decenni di studi, l’italiano delle grammatiche non sempre dà conto dell’italiano reale… e vale senz’altro la pena approfondire la questione.
 
Mirko Tavosanis, Grammatica generata: analisi di alcune strutture presenti nei testi di ChatGPT in lingua italiana , “AI-Linguistica” 2, 2, 2025, pp. 1-32. https://doi.org/10.62408/ai-ling.v1i1.14
 

lunedì 2 marzo 2026

Interventi e presentazioni tra febbraio e marzo


Logo RIND
Come scrivevo ieri, negli ultimi mesi dal punto di vista lavorativo sono stato in grado solo di occuparmi dell’essenziale. Non sono quindi riuscito nemmeno ad annunciare qui tutto ciò che facevo o pubblicavo: il riallineamento sta iniziando adesso!
 
All’interno di questo riallineamento, segnalo ora, tutti assieme, alcuni interventi che ho tenuto a febbraio e le iniziative in programma per marzo:
  • l’11 febbraio, su gentile invito di Giuliana Fiorentino, ho tenuto una lezione online sul Valutare le capacità delle intelligenze artificiali generative per il Polo Lincei del Molise
  • il 26 febbraio, a Trieste, all’interno del convegno Visti da lontano inserito nel progetto PRIN RIND, su gentile invito di Stefano Ondelli, ho tenuto una presentazione sul tema Dalla statistica linguistica alla valutazione
  • il 10 marzo, alle 14:30, parteciperò al laboratorio Oltre alla lezione frontale, altre forme di didattica presso il Liceo Buonarroti a Pisa
  • l’11 marzo, alle 14:30, nell’Aula Magna del Dipartimento di Filologia, letteratura e linguistica dell’Università di Pisa si terrà un incontro di presentazione del mio libro L’italiano sulla via dell’India; parteciperanno Daniele Baglioni e Alessandro Orengo
 
Seguiranno naturalmente aggiornamenti per le iniziative successive!
 

domenica 1 marzo 2026

Una recensione di Alfabit di Giuseppe Antonelli sul Magazine Treccani

 
Copertina di Alfabit di Giuseppe Antonelli
Sul Magazine Treccani è uscito il 25 febbraio uno Speciale dedicato a L’IA-taliano, ovvero la lingua italiana sotto la luce Artificiale dell’Intelligenza. All’interno c’è anche una mia recensione dell’ultimo libro di Giuseppe Antonelli, Alfabit, appena pubblicato dal Mulino.
 
Il libro raccoglie contributi che Antonelli ha dedicato in diversi periodi alla comunicazione elettronica. Vale la pena notare il forte stacco tra gli argomenti che attiravano l’attenzione negli anni Zero, negli anni Dieci e adesso: mentre nei primi due decenni si trattava di fenomeni legati alla comunicazione umana, adesso al centro dell’attenzione c’è la scrittura dell’Intelligenza Artificiale.
 
Non aggiungo qui altro: la recensione è in linea assieme ad altri contributi interessanti che ruotano appunto, ormai, soprattutto sul tema dell’Intelligenza Artificiale. Sul quale, grazie al cielo, qualche forma di consenso sta oggi emergendo!
 

martedì 10 febbraio 2026

Che cosa ChatGPT riesce a far bene, nel febbraio 2026?

 
Ieri, lunedì 9 febbraio, si è tenuto l’ultimo appello invernale per i miei insegnamenti di Linguistica italiana tenuti negli ultimi anni per le lauree magistrali in Italianistica e Linguistica e traduzione dell’Università di Pisa. Al solito, si è trattata di un’occasione molto utile per vedere, attraverso le relazioni che gli studenti presentano all’esame, qual è lo stato delle capacità di ChatGPT e sistemi simili. Sì, perché non solo ho fatto diverse valutazioni nel corso degli anni, ma le valutazioni vanno ripetute spesso per vedere se le nuove versioni dei sistemi cambiano prestazioni o no.
 
Il quadro che ne esce è una conferma: i sistemi non stanno migliorando molto. Anzi, per alcuni compiti in italiano ho l’impressione che, per esempio, ChatGPT-5.2 lavori peggio di ChatGPT-4o. In generale, alcuni compiti restano al di fuori della loro portata mentre altri vengono svolti sorprendentemente bene. Tuttavia, è difficile esserne sicuri senza fare verifiche sistematiche. Per fortuna, diverse relazioni di alto livello si sono occupate proprio di questo!
 
Per esempio, uno dei lavori presentati all’esame descriveva il tentativo di far analizzare a ChatGPT i verbi presenti nel I canto dell’Inferno. Oltre tre anni dopo l’uscita di ChatGPT, un compito del genere si rivela ancora impossibile: il sistema individua i primi verbi e poi incomincia a elencare verbi che non esistono, a considerare verbi sostantivi come sonno, e così via. Né si riesce a superare il limite per esempio scomponendo il lavoro in fasi (“per prima cosa, fai un semplice elenco dei verbi presenti”). Insomma, inaffidabilità totale.
 
Le cose vanno un po’ meglio, ma non troppo meglio, per quanto riguarda l’analisi e la parafrasi di testi poetici della tradizione italiana: le verifiche sono state compiute su poesie di Dante, Bronzino, Leopardi, Carducci, Gozzano e Montale. Qui occorre distinguere tra i diversi aspetti del lavoro. ChatGPT inventa liberamente quando si tratta di metrica: non riesce a classificare i versi in modo affidabile, anche se a volte si avvicina al risultato lavorando di prompt. Al momento di classificare le figure retoriche, commette molti sbagli e, soprattutto, considera figure retoriche espressioni che non lo sono. Un po’ meglio vanno le cose quando si tratta di analizzare e spiegare il testo: in fin dei conti, un compito del genere consiste spesso nel presentare luoghi comuni e fare osservazioni di buon senso. Vale però la pena notare che a volte il sistema si lascia prendere la mano dai luoghi comuni e per esempio, analizzando Alla stazione in una mattina d’autunno, si mette a parlare del tema dell’“alienazione” nella poesia di Carducci…
 
Le cose vanno molto meglio quando si tratta di parafrasare. Qui il lavoro viene compiuto in modo abbastanza soddisfacente. Restano alcuni errori, ma è possibile riformulare testi in italiano contemporaneo a un livello molto vicino a quello di una buona parafrasi umana (e, cosa interessante, in alcuni punti si evitano errori presenti invece in alcune parafrasi). Questo vale anche per poesie di cui (come nel caso di un sonetto di Bronzino) non sembra esista una parafrasi completa in italiano recuperabile da qualche fonte.
 
E poi, arriviamo alla traduzione. Dove innanzitutto mi sembra che venga confermato un sospetto: per la traduzione letteraria, ChatGPT se la cava assai meglio di sistemi di traduzione specializzati come DeepL.
 
Dopo un piccolo lavoro sui prompt, la traduzione di un report giornalistico in inglese relativo a una gara di Formula 1 è stata giudicata di livello praticamente umano (terminologia specialistica inclusa). Va notato che, se oggi lavorare sui prompt non sembra troppo utile per la maggior parte dei compiti, è ancora necessario chiedere esplicitamente al sistema di mantenere il registro del testo di partenza e di conservare tutte le informazioni. E ammetto che io, pur essendo un premiato traduttore, avrei avuto molte difficoltà a rendere per esempio “dive up the inside” con “tuffarsi all’interno” o, soprattutto, “sat in his wheel tracks” con “rimasto negli scarichi”!
 
In un altro caso, cioè la traduzione di espressioni idiomatiche dal russo all’italiano nei testi narrativi, ChatGPT se l’è cavata non solo meglio di DeepL ma addirittura meglio di alcune classiche traduzioni umane pubblicate. Certo, una volta non esistevano dizionari adeguati, ma è comunque sorprendente notare quanti errori siano saltati fuori in un campione tutto sommato limitato.
 
Abbastanza bene, ma meno bene, sono andati i tentativi di usare ChatGPT per intervenire sull’espressione di genere, incluso l’impiego dello schwa. Anche qui si vedono i limiti dei sistemi per quanto riguarda la sistematicità del lavoro.
 
In conclusione (per usare un’espressione tipica di ChatGPT): l’ultimo anno non ha visto grandi cambiamenti nelle capacità dei sistemi. Alcuni compiti, anche molto banali, vengono ancora eseguiti a un livello inaccettabile in qualunque contesto realistico. Altri, come l’analisi di poesie, si trovano più o meno sul confine tra accettabilità e inaccettabilità. Altri ancora, come la parafrasi e, soprattutto, la traduzione, si collocano invece a un livello solo di poco inferiore a quello dei professionisti umani, e talvolta perfino lo superano. Si tratta senz’altro di una situazione stabile; ma di una situazione stabile che, credo, non ha ancora finito di dispiegare i propri effetti in diversi ambiti.
 

giovedì 22 gennaio 2026

Studi sul miglioramento della chiarezza con IA

 
Il volume di cui ho parlato a inizio mese, Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, contiene molti contributi rilevanti dal mio punto di vista. Come dicevo, circa un terzo del libro è occupato da lavori che affrontano il miglioramento della chiarezza condotto attraverso intelligenze artificiali generative. Anche gli altri due terzi sono interessanti, naturalmente! Ma è comprensibile che io mi concentri su ciò che è collegato più direttamente al mio lavoro.
 
Giuliana Fiorentino e Marco Russodivito presentano un lavoro intitolato Umano vs. AI: alcune considerazioni sulla semplificazione manuale a automatica del corpus ItaIst (pp. 53-78). Il lavoro presentato è in un certo senso preliminare alla realizzazione del sistema sempl.it realizzato dallo stesso gruppo di ricerca e pensato per la semplificazione dei testi amministrativi. Con questa finalità è stato innanzitutto realizzato il corpus ItaIst, una cui versione ridotta (8 documenti, per circa 33.000 token) è pubblicamente disponibile. Due esperti umani hanno semplificato i contenuti del corpus, impiegandoci rispettivamente 15 e 23 ore. La stessa operazione è stata poi ripetuta (in pochi minuti) con ChatGPT-4 sulla base di un breve prompt basato sul ruolo (p. 58). Il confronto mostra che, rispetto agli esperti umani, ChatGPT ha seguito criteri piuttosto simili, ma ha rielaborato il testo più in profondità e ha usato frasi in media più brevi (p. 60), applicando in modo creativo molti degli attuali criteri per il miglioramento della chiarezza anche in mancanza di indicazioni specifiche da parte dei ricercatori. Per valutare appieno i risultati occorre però una verifica sulla correttezza dei contenuti generati: gli autori promettono di presentare l’esito di questa verifica in un lavoro ora in stampa (p. 76).
 
Il contributo successivo, SEMPL-IT: un modello di intelligenza per la semplificazione dell’italiano, firmato da Vittorio Ganfi e Marco Russodivito (pp. 79-101), presenta appunto il sistema SEMPL-IT realizzato nel progetto citato nel contributo precedente. In dettaglio, il sistema è basato sul fine-tuning di tre LLM pre-addestrati: mt5-small, umt5-small e GPT2-small-italian (p. 89). Il fine-tuning dei tre modelli è stato condotto sul corpus ItaIst, usando la libreria Transformers su Google Colab (pp. 89-91). Un confronto con alcuni sistemi commerciali ha poi mostrato che i testi semplificati dai tre modelli ottengono risultati grosso modo simili per quanto riguarda alcune metriche automatiche; tuttavia, non sono stati ancora fatti confronti sulla qualità e correttezza dei testi. Questa mancanza di verifica, assieme alla presenza di “riscritture problematiche” in alcuni esempi discussi, rende un po’ ottimistiche le valutazioni degli autori sull’utilizzabilità pratica del prodotto nella forma descritta (p. 96). In ogni caso, il prodotto finito è ora disponibile all’indirizzo https://sempl-it.unimol.it/ats.
 
È dedicato a un argomento piuttosto diverso il contributo su Valutazione di tecniche di prompt engineering per la semplificazione dell’italiano burocratico e professionale firmato da Claudia Gigliotti, Walter Paci, Giovanni Acerboni, Alessandro Panunzi e Maria Roberta Perugini (pp. 119-138). In questo caso, l’analisi è stata svolta secondo modalità un po’ curiose: frasi di testi burocratici e professionali sono state riformulate con diversi prompt (Chain-of-Thought, few-shot, eccetera) e la verifica della comprensione dei testi da parte di utenti reclutati con il crowdsourcing è stata usata come metro per valutare l’efficacia dei prompt. Il risultato è stato che “non emergono differenze statisticamente significative né in termini di accuratezza nelle risposte né nel numero di riletture effettuate” (p. 134). Questo nonostante studi preliminari abbiano suggerito la maggior efficacia di prompt complessi.
 
Preciso per quanto riguarda quest’ultimo punto che le modalità mi sembrano curiose perché la valutazione ricollega direttamente il punteggio finale e il prompt, senza prendere assolutamente in esame il prodotto intermedio: il testo valutato. Può infatti darsi che i prompt ottengano tutti lo stesso esito perché, banalmente, i testi semplificati si assomigliano tutti, indipendentemente dalla modalità con cui sono stati ricavati. Un controllo del genere sembra assai utile e molto semplice da eseguire.
 
In ogni caso, l’irrilevanza delle rielaborazioni sul risultato finale potrebbe avere anche una causa diversa e più strutturale. Per valutatori con un titolo di studio avanzato (qui era richiesto come minimo il diploma: p. 123), testi come quelli che presumibilmente sono stati presi in esame qui sono infatti di regola comprensibili senza troppi problemi. In alcune valutazioni che ho condotto l’anno scorso ho visto non solo che gli studenti universitari a livello di laurea magistrale sembrano comprendere senza problemi sia i testi burocratici originali sia quelli semplificati (il che dovrebbe essere intuitivo), ma sembrano impiegare lo stesso tempo nella lettura, nonostante l’evidente differenza di complessità dei testi (e questo è già più sorprendente). Insomma, occorre ricordare l’italiano burocratico rappresenta un oggetto difficile da gestire per chi ha un livello non alto di conoscenza dell’italiano, ma assai meno per chi è arrivato per esempio alla formazione terziaria dopo studi in lingua italiana!
 
Il contributo successivo, di Anna-Maria De Cesare, è intitolato Per un’amministrazione impegnata e aggiornata: come formulare annunci di lavoro rispettosi della parità di genere con l’intelligenza artificiale generativa? (pp. 139-). Si tratta dunque della descrizione degli esiti di un compito pratico, già toccato in un precedente lavoro della stessa autrice. Qui viene approfondito il caso particolare della generazione degli sdoppiamenti contratti (“esperto/a”). Alla base di questa scelta si trova il fatto che la Cancelleria Federale svizzera ha individuato lo sdoppiamento contratto come “adeguato ad attuare il pari trattamento linguistico tra donna e uomo negli annunci di lavoro” (p. 140), il che già di per sé mostra quanto la consapevolezza su simili questioni sia maggiore in Svizzera rispetto all’Italia. Qui peraltro non vengono forniti i risultati completi del lavoro (l’autrice rimanda a un altro contributo), ma solo l’analisi di alcune riscritture proposte daisistemi. Vale la pena di notare che anche in questo caso un prompt relativamente semplice ha dato risultati migliori rispetto a un prompt più complesso (p. 150).
 
Ritorna sull’intelligenza artificiale un contributo di Teresa Monaco a fine volume: Semplificazione e intelligenza artificiale, quando la macchina “apre” alla fiducia (pp. 355-370). In questo caso, però, le considerazioni sono di tipo generale (e lasciano alcuni dubbi i collegamenti con le questioni linguistiche). 

Testi provenienti da Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, ISBN 979-12-5496-268-8.
 

venerdì 2 gennaio 2026

Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative

 
Copertina del libro Amministrazione attiva
Nel maggio del 2024 sono stato a Campobasso per un convegno sull’Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa. Il convegno è stato molto interessante e ha mostrato anche in modo tangibile quanto le intelligenze artificiali generative siano oggi al centro dell’interesse di chi lavora sulla scrittura amministrativa. Un volume che include molti contributi dei partecipanti al convegno è uscito qualche mese fa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, e permette di quantificare: su circa 350 pagine di testo, esclusi indici e introduzione, circa 120 sono dedicate a esperienze che coinvolgono le intelligenze artificiali generative.
 
Rientra nel gruppo anche il mio contributo dedicato a Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative. Le esperienze presentate sono state illustrate da altre angolazioni in una sintesi scritta da Giuliana Fiorentino e da me e in un confronto tra metodi di valutazione scritto da Mariachiara Pascucci e da me. Tuttavia, in questa ultima pubblicazione si forniscono molti approfondimenti relativi alla domanda di base: le intelligenze artificiali generative riescono a migliorare la chiarezza dei testi? La risposta è sostanzialmente positiva, con alcune precisazioni.
 
Dal punto di vista metodologico, ho scelto di adottare la valutazione cosiddetta intrinseca eseguita da valutatori umani. In pratica, si forniscono i testi a valutatori umani che dicono quanto il lavoro è stato fatto bene (ed è importante che i valutatori abbiano le competenze necessarie a svolgere questa attività). Nessun sistema automatico di valutazione oggi è in grado di fare meglio di così!
 
I testi di partenza sono stati otto documenti di carattere informativo-amministrativo (in particolare, linee guida ministeriali), selezionati perché privi di valore giuridico vincolante ma rappresentativi delle difficoltà tipiche della comunicazione istituzionale. Ogni testo è stato riformulato sia da ChatGPT, utilizzando due prompt diversi mirati a migliorare la chiarezza senza perdere informazioni, sia da un intervento umano condotto secondo criteri consolidati nella letteratura sulla scrittura chiara.
 
Per rendere la valutazione più specifica, ho poi scomposto il giudizio in cinque ambiti distinti: correttezza delle informazioni, correttezza linguistica, chiarezza complessiva, livello di miglioramento rispetto all’originale e conservazione delle informazioni. I valutatori, studenti universitari con una buona formazione linguistica e specificamente preparati al compito, hanno assegnato per ogni ambito punteggi su una scala da 1 a 5, lavorando in modo indipendente e senza sapere se i testi valutati fossero stati prodotti da un essere umano o da un sistema automatico.
 
I risultati mostrano che le riformulazioni prodotte da ChatGPT raggiungono nel complesso un livello paragonabile a quello umano. Su 40 confronti diretti tra riformulazioni umane e automatiche (cioè, i punteggi ottenuti dagli 8 testi per 5 ambiti), ChatGPT ottiene un punteggio superiore rispetto alle riformulazioni umane in 14 casi e identico in altri 2. Tenuto conto dei due confronti in cui il punteggio è identico, la parità si sarebbe prodotta a 19: il livello attuale non è lontano dal traguardo!
 
In particolare, le prestazioni di ChatGPT sono risultate molto buone per quanto riguarda la chiarezza complessiva e la conservazione delle informazioni, ambiti nei quali le riformulazioni automatiche sono state valutate allo stesso livello di quelle umane. ChatGPT ha ricevuto invece punteggi peggiori nella correttezza linguistica e nel livello di miglioramento. È però importante notare che, nella maggior parte dei casi, gli scarti di punteggio sono contenuti.
 
Un limite significativo dell’indagine riguarda il basso accordo statistico tra i valutatori, misurato tramite l’α di Krippendorff, che non raggiunge la soglia di sufficienza. Questo risultato conferma quanto la valutazione del miglioramento della chiarezza sia un compito intrinsecamente complesso e spinge a perfezionare le procedure di valutazione.
 
I dati ottenuti giustificano senz’altro un cauto ottimismo sul piano applicativo. Sistemi come ChatGPT sembrano già oggi utilizzabili come strumenti di supporto nei processi redazionali orientati alla chiarezza, a condizione che siano inseriti in flussi di lavoro ben controllati da revisori umani competenti.
 
Al tempo stesso, però, ribadirei un punto forse ancora più importante: lavorare su questi temi è un’occasione preziosa per riflettere più in generale sui criteri con cui valutiamo i processi di miglioramento della chiarezza, indipendentemente dal fatto che il testo sia prodotto da esseri umani o da sistemi artificiali.

Mirko Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative, in Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, pp. 103-118.
 

venerdì 26 dicembre 2025

Zevin, Tomorrow and Tomorrow and Tomorrow

 
Copertina di Gabrielle Zevin, Tomorrow and Tomorrow and Tomorrow
Una lettura interessante di questa estate: Tomorrow and Tomorrow and Tomorrow di Gabrielle Zevin, ambientato nel mondo dei giovani sviluppatori di videogiochi degli anni Novanta.
 
Il libro rappresenta una lettura insolita per me, da diversi punti di vista. I suoi protagonisti appartengono a una generazione successiva alla mia e si ricollega a vicende che ho conosciuto dall’esterno senza esserne troppo influenzato. Parla poi dei problemi delle persone di grande successo… e questa è una cosa con cui non riesco, strutturalmente, a entrare in sintonia! E include anche diversi classici espedienti da romanzo, dall’incidente stradale all’assassinio (che mi hanno fatto tornare in mente episodi vagamente paragonabili della popolare serie televisiva Grey’s Anatomy.
 
Al centro di tutto ci sono le relazioni affettive tra tre (o quattro) personaggi principali. Le questioni tecniche e pratiche collegati ai videogiochi rimangono al margine – l’ambiente viene descritto come se fosse più vicino a quello dell’artigianato artistico che all’industria globale. Però ho letto tutto al al volo, con la curiosità di sapere che cosa sarebbe successo!
 
Gabrielle Zevin, Tomorrow and Tomorrow and Tomorrow, Vintage, 2023, pp. 482, ISBN 978-1-529-11554-3, ricevuto per graditissimo regalo.
 

lunedì 13 ottobre 2025

Tavosanis, L’italiano sulla via dell’India

 
È appena uscito il mio nuovo libro, L’italiano sulla via dell’India! Pubblicato dal Mulino, è disponibile attraverso il sito dell’editore e sui normali canali di vendita, sia come testo a stampa sia come e-book.
 
L’argomento del libro può sembrare strano: l’uso dell’italiano in Asia nel Seicento, visto in particolare attraverso le testimonianze dei viaggiatori dell’epoca. Dico che può sembrare strano perché (come argomento più in dettaglio appunto nelle sezioni introduttive del libro) mi sembra che in Italia, da un lato, siano ancora diffusi i luoghi comuni sulla scarsa rilevanza internazionale dell’italiano, ora e in passato; e dall’altro, che ci sia un interesse sorprendentemente ridotto nei confronti dell’Asia. A me, invece, sembrano ci siano ottimi motivi per interessarsi tanto della lingua italiana quanto di quella vasta regione del mondo.
 
Sintetizzerò al massimo la tesi del volume: per tutto il Seicento, l’italiano era la lingua europea di gran lunga più nota, usata e insegnata in una vasta area che va dalle coste del Mediterraneo fino a quelle del Golfo Persico (con qualche propaggine fino in India). In termini moderni, si tratta della Siria, dell’Iraq e della Persia, cioè i paesi attraversati dai viaggiatori che per un motivo o per l’altro si recavano in India per via di terra.

La lingua italiana, naturalmente, era usata dai viaggiatori italiani… ma, soprattutto, anche da persone di tutt’altra origine, a cominciare dai mercanti e dai viaggiatori di altri paesi europei, che spesso se ne servivano anche tra di loro, in assenza di italiani. La usavano poi, in particolare, moltissimi mercanti e religiosi armeni, mediatori essenziali tra Asia ed Europa. E a volte, l’uso si collegava a un insegnamento formale e abbastanza stabile. Le testimonianze menzionano in effetti almeno tre scuole in cui nel corso del Seicento l’insegnamento dell’italiano ebbe una certa stabilità, a opera di religiosi francesi: ad Aleppo, a Baghdad e a Isfahan in Persia.
 
Che l’italiano fosse una lingua usata anche in assenza di italiani non è una novità assoluta. Diversi studi recenti hanno iniziato a chiarire il ruolo dell’italiano come lingua franca lungo le coste del Mediterraneo; il mio contributo si rivolge però all’interno, e a un’area geografica ancora poco esplorata in quest’ottica. Inoltre, le testimonianze dei viaggiatori presentano aspetti dell’uso reale su cui le fonti d’informazione più impiegate, cioè i documenti d’archivio, per quanto rilevanti, non possono dire molto.
 
Alle questioni generali si affianca poi la presentazione di una serie di viaggiatori, ognuno con le proprie particolarità e idiosincrasie, da prendere in esame per valutare le testimonianze. Lato italiano, si tratta di nobiluomini come Pietro Della Valle o Ambrogio Bembo, di religiosi come Giuseppe Sebastiani o Antonio Murchio, e di personaggi di minor rilievo sociale come Angelo Legrenzi e Niccolò Manucci. Ma anche lato francese, come vedrà il lettore, non mancano personaggi interessanti.
 
I casi raccontati sono di tipo assai diverso. Si va dalle prediche durante la messa (in Terrasanta e a Isfahan) fino alle battute durante ai banchetti, e dalle lezioni di italiano nel deserto alle presentazioni trionfali in India. Il quadro che ne emerge mi sembra però molto coerente: quello di una lingua che nel Seicento godeva di elevatissimo prestigio e uso comune presso alcune nazionalità. Per il resto, saranno i lettori a fornire il giudizio…
 
Mirko Tavosanis, L’italiano sulla via dell’India, Bologna, il Mulino, 2025 pp. 224, ISBN 978-88-15-39320-3, € 22 (a stampa) ed € 14,99 (e-book).
 

venerdì 10 ottobre 2025

ChatGPT è ancora scarso, come poeta... ma dipende!

 
Robot poeta a Livorno: immagine generata da ChatGPT-5
Dicevo ad agosto che anche ChatGPT-5 non sembra in grado di scrivere in modo affidabile sonetti perfettamente regolari in lingua italiana: nei prodotti che ho visto c’è sempre almeno una rima che non torna o un verso con un numero sbagliato di sillabe. Certo, visto che i sonetti generati in questo modo si avvicinano abbastanza alla correttezza, generandone un numero sufficiente è probabile che prima o poi, per caso, ne venga prodotto anche uno che non contiene errori. Però, questa vicinanza alla correttezza mette in luce anche la peculiare stranezza (dal punto di vista umano) del fenomeno: se il sistema riesce a generare tredici versi con il corretto numero di sillabe, perché sbaglia il quattordicesimo? Io non ho spiegazioni al di là del notare che un comportamento del genere sembra collegabile alla natura statistica del procedimento generativo…
 
Comunque, le cose vanno assai meglio quando si chiede a ChatGPT di scrivere testi poetici che non devono rispettare vincoli formali precisi. Per esempio, poesie in versi liberi. A quel punto non è più questione di metrica e si entra nelle valutazioni umane sulla qualità del prodotto.
 
Un parere diffuso, e del tutto ragionevole, è che le poesie generate in questo modo siano comunque scarsine. Ripetitive, piene di banalità e luoghi comuni, con scelte non all’altezza. Alcuni lettori dichiarano che la natura generata di un testo “si vede subito”. Ma è davvero così? Davvero il lettore cui viene sottoposta, per esempio, una mescolanza di poesie umane e poesie generate, senza indicazione esplicita della fonte, è in grado di distinguere?
 
Al polo opposto, ho parlato di un tentativo tanto famoso quanto metodologicamente carente di controllare i giudizi umani sulle poesie generate. Quel tentativo arrivava alla conclusione che gli esseri umani preferivano le poesie di ChatGPT a quelle scritte di autori famosi; io ho cercato di spiegare i motivi per cui, realizzata nel modo proposto, la valutazione suggeriva qualcosa di molto diverso.
 
Negli ultimi anni, in effetti, due studenti dei miei corsi per l’Università di Pisa hanno fatto valutazioni simili in modi che mi sembrano assai più soddisfacenti dal punto di vista metodologico rispetto a quelli adottati dal famoso articolo. In pratica, il principio base è quello (che dovrebbe essere ovvio) per cui non si chiede ai valutatori di valutare testi completamente diversi tra di loro, ma di valutare testi quanto più simili possibile: alcuni umani, alcuni generati.
 
Dati i limiti di ChatGPT nella generazione di poesie che rispettino i vincoli della tradizione metrica italiana, in entrambi i casi è stato necessario prendere come oggetto la metrica libera, e cioè in sostanza autori del Novecento. La dottoressa Sara Palazzi ha quindi preso in esame poesie di Ungaretti, il dottor Gabriele Fabrizi poesie di Caproni (entrambe le valutazioni sono state condotte con ChatGPT-4.5).
 
Cruciale nel contesto è stata la scelta dei valutatori. L’apprezzamento della letteratura si lega infatti alla cultura: una persona che conoscesse la lingua italiana ma non avesse familiarità con il concetto di “poesia” in nessuna lingua troverebbe senz’altro strane opere come le poesie di Montale (per non parlare delle differenze tra gli Ossi di seppia e Satura…). Per esprimersi con cognizione di causa sulle poesie, i valutatori quindi devono avere un buon livello di familiarità con la poesia italiana del Novecento e delle sue modalità espressive. Al tempo stesso, se si fa un confronto su Ungaretti e Caproni, è bene non coinvolgere esperti che per esempio siano in grado di dire se una poesia è o no di Caproni perché, semplicemente, le conoscono già tutte.
 
In modo del tutto ragionevole, per entrambe le esperienze descritte sono stati dunque scelti valutatori con competenze adeguate ma non esaustive. A questi valutatori sono poi state sottoposte poesie relativamente brevi, in parte originali, in parte generate da ChatGPT “nello stile” dei poeti interessati, per generazione diretta o rielaborazione. Per esempio, per Ungaretti una coppia è stata questa:
 
Originale di Ungaretti: In galleria

Un occhio di stelle
ci spia da quello stagno
e filtra la sua benedizione ghiacciata
su quest’acquario
di sonnambula noia.
 
ChatGPT: Lucciole

Nella notte grigia e muta,
Lucciole accese,
come lumi spenti
nel cuore che langue.

 
I risultati sono stati molto interessanti. Nel caso di Ungaretti, per esempio, sono stati scelti come valutatori dieci studenti di corsi di studio dell’area umanistica dell’Università di Pisa e la valutazione è stata eseguita su tre coppie di poesie. Il compito consisteva nell’individuare, tra due poesie, quale era stata scritta da Ungaretti e quale da ChatGPT. In due casi su tre (tra cui quello della coppia riportata qui sopra) i valutatori si sono divisi al 50%: non sono stati in grado, insomma, di distinguere in modo affidabile tra testi originali e testi generate. Nel terzo caso, invece, 9 valutatori su 10 hanno correttamente distinto tra testo originale e testo generato.
 
In modo un po’ diverso sono andate le cose per Caproni, in un lavoro che ha potuto basarsi su quello fatto nella relazione precedente. Qui le poesie prese in esame erano innanzitutto più lunghe. Per esempio, è stata presa questa coppia:
 
Originale di Caproni: Preghiera

Anima mia leggera,
va’ a Livorno, ti prego.
E con la tua candela
timida, di nottetempo
fa’ un giro; e, se n’hai il tempo,
perlustra e scruta, e scrivi
se per caso Anna Picchi
è ancora viva tra i vivi.

Proprio quest’oggi torno,
deluso, da Livorno.
Ma tu, tanto più netta
di me, la camicetta
ricorderai, e il rubino
di sangue, sul serpentino
d’oro che lei portava
sul petto, dove s’appannava.

Anima mia, sii brava
e va’ in cerca di lei.
Tu sai cosa darei
se la incontrassi per strada.
 

ChatGPT: Lettera alla sera

Anima mia gentile,
torna laggiù, dove la luce s’abbassa.
Cammina piano, per favore —
non svegliare il ricordo.
Guarda se c’è ancora,
sul muro scrostato del porto,
quel segno che tracciammo
col gesso, da ragazzi.
E cerca lei,
la donna che rideva a fatica,
con la sciarpa a righe
e l’ombra negli occhi.
Dimmi se è rimasta
o se il vento l’ha portata
oltre il viale,
dietro il fanale spento.
Io, oggi,
me ne sono andato
senza trovarla.

 
In questo caso i valutatori sono stati studenti o laureati del corso di studio magistrale in Italianistica dell’Università di Pisa. Le coppie di poesie sono state tre, come nella prova precedente, ma qui in tutti i casi una maggioranza di valutatori ha riconosciuto ChatGPT (con percentuali che variano tra il 72 e l’81%).
 
Naturalmente, ci sarebbe molto altro da dire su queste relazioni e sul dettaglio di ciò che è stato necessario fare per generare i testi e costruire la valutazione. Entrambi i lavori poi hanno punti di forza che qui si possono indicare solo sinteticamente: il primo è stato pionieristico, il secondo è stato portato avanti con un prompting sofisticato. Il metodo, naturalmente, deve ancora essere messo a fuoco in tanti aspetti. Ma non mi sembra inutile notare come relazioni scritte da studenti magistrali per superare un singolo esame, con un minimo di guida da parte del docente, superino senz’altro per correttezza metodologica studi di cui si è molto parlato perfino a livello internazionale. Ho già detto che io (apparentemente in ristretta compagnia) ho un’elevata considerazione delle capacità degli studenti italiani? Beh, se non l’ho già detto, lo dico adesso!
 
Certo, da due prove circoscritte, anche se metodologicamente corrette, non si possono ricavare conclusioni generali: il linguaggio umano e la poesia sono oggetti troppo variati ed eterogenei. Ma senz’altro si può indicare una direzione che è anche di buon senso. Cioè, in alcuni casi, per testi semplici e senza schemi metrici rigorosi, ChatGPT può anche scrivere cose che i valutatori non riescono sempre a distinguere da produzioni umane. Quando però il testo si fa anche solo leggermente più complesso, i limiti dei testi generati sono più evidenti.
 
Al di là di esagerazioni come quelle del contributo citato (“Gli esseri umani preferiscono le poesie di ChatGPT”) o della sicumera di molte dichiarazioni “umanistiche” (“Ah, io lo capisco al volo, quando un testo è di ChatGPT: è senz’anima…!”), la situazione che emerge quando il confronto è ben condotto è dunque interessante. Le caratteristiche del testo generato sono più evidenti in alcuni casi, meno percepibili in altri; la competenza del valutatore è essenziale ma non sempre dirimente. Definire in modo più esatto questo quadro è oggi interessantissimo, e rappresenta secondo me una sfida reale e importante per gli addetti ai lavori.
 

mercoledì 24 settembre 2025



Locandina del convegno Bembo 500
 
In questi giorni parteciperò a Padova al convegno Bembo 500 - Cinquecento anni di Prose, che si preannuncia interessantissimo. Io parlerò domani; i lavori si possono seguire in streaming qui: https://unipd.zoom.us/j/85824402245
 

venerdì 5 settembre 2025

Di nuovo a Dresda per AI-ROM

 
Sono di nuovo a Dresda: il convegno AI-ROM è arrivato alla III edizione, e si conferma un importante punto di riferimento per chi sia interessato alle intelligenze artificiali generative. 
 
Il convegno si tiene il 4 e il 5 settembre 2025. Io terrò oggi pomeriggio un intervento dedicato a Gli errori grammaticali degli LLM: diversità tra sistemi e caratteristiche generali, in cui metto a confronto ChatGPT-4o, Minerva LLM e DeepSeek. Tuttavia, gli interventi interessanti sono moltissimi!
 
Quest’anno il convegno ha ampliato la propria copertura, inserendo, oltre alle lingue romanze, anche quelle germaniche (l’anno scorso in pratica tutti gli interventi erano stati dedicati all’italiano). Per chi è in tempo, gli interventi possono essere seguiti anche online, previa registrazione!
 

venerdì 22 agosto 2025

Come non valutare la poesia di ChatGPT

 
Come scrivevo l’altro ieri, ChatGPT semplicemente non riesce a scrivere sonetti corretti in italiano (anche se si avvicina molto al risultato). Un conto è però la correttezza formale, per esempio dal punto di vista metrico; un altro conto la qualità. ChatGPT sa scrivere poesie di buon livello, anche se magari è meglio che si astenga da forme metriche tradizionali?
 
La risposta a questa domanda è per forza di cose più complessa, rispetto a questioni sull’accettabilità o meno di uno schema di rime. La qualità di una poesia è senz’altro connessa a questioni linguistiche e metriche, ma non si esaurisce in esse. Né, purtroppo o per fortuna, al momento abbiamo strumenti di misurazione oggettiva per la qualità poetica. L’impressione generale è comunque che le poesie di ChatGPT (così come le opere narrative) siano di scarsa qualità, prive di elementi che le rendono interessanti o memorabili.
 
Vale però la pena notare che c’è stato un tentativo ben noto di misurare la qualità delle poesie generate da ChatGPT in lingua inglese. I risultati di questo lavoro sono stati sintetizzati nel titolo di un contributo di Brian Porter ed Edouard Machery: AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably. Il contributo è stato pubblicato il 14 novembre 2024 negli “Scientific Reports” di “Nature” (!) e, secondo Google Scholar, al momento ha ricevuto 76 citazioni; soprattutto, ha avuto una discreta risonanza anche al di fuori del circuito specialistico.
 
Nonostante il successo, però, il contributo è metodologicamente disastroso e non dimostra affatto ciò che il titolo suggerisce. Certo, include tanti numeri e tante valutazioni di significatività fatte con chi quadro; secondo le parole degli autori nell’abstract:
 
We conducted two experiments with non-expert poetry readers and found that participants performed below chance levels in identifying AI-generated poems (46.6% accuracy, χ2(1, N = 16,340) = 75.13, p < 0.0001). Notably, participants were more likely to judge AI-generated poems as human-authored than actual human-authored poems (χ2(2, N = 16,340) = 247.04, p < 0.0001).
 
Naturalmente, però, i numeri non bastano né possono bastare a correggere i difetti a monte. Il primo punto è che, come per fortuna notano gli autori stessi, il titolo è molto ingannevole e, per cominciare, incompleto: a non riuscire a distinguere le poesie umane da quelle artificiali sono specificamente i “non esperti”. Quanto esperti sono i non esperti? I valutatori sono stati reclutati con il crowdsourcing (e su questa forma di valutazione, per faccende linguistiche, ho già avuto occasione di esprimere le mie riserve); quasi tutti hanno dichiarato di avere l’inglese come madrelingua e in maggioranza (55,8%) si sono rivelati persone “not very familiar with poetry”.
 
Questo pubblico potrebbe anche essere interessante, ma i valutatori fanno una scelta disastrosa. Scelgono infatti alcune poesie a caso nella storia della letteratura inglese selezionando 10 autori, fanno generare a ChatGPT poesie “nello stile” degli autori selezionati e poi sottopongono al pubblico 5 poesie originali e 5 poesie artificiali. Come risultato, buona parte delle poesie umane selezionate risulta in pratica incomprensibile, anche dal punto di vista linguistico, per un pubblico non esperto. Le poesie originali sono infatti di Chaucher, Shakespeare, Emily Dickinson, T. S. Eliot e Dorothea Lasky; come esempio può essere sufficiente la poesia di Eliot:
 
I observe: "Our sentimental friend the moon!
Or possibly (fantastic, I confess)
It may be Prester John’s balloon
Or an old battered lantern hung aloft
To light poor travellers to their distress."
She then: "How you digress!"
 
And I then: "Some one frames upon the keys
That exquisite nocturne, with which we explain
The night and moonshine; music which we seize
To body forth our own vacuity."
She then: "Does this refer to me?"
"Oh no, it is I who am inane."
  
"You, madam, are the eternal humorist,
The eternal enemy of the absolute,
Giving our vagrant moods the slightest twist!
With your aid indifferent and imperious
At a stroke our mad poetics to confute—"
And—"Are we then so serious?"
 
Un esperto di poesia modernista riesce senz’altro a decifrarla; ma un parlante inglese di medio livello che cosa può intendere a una rapida lettura di “Some one frames upon the keys / That exquisite nocturne, with which we explain / The night and moonshine; music which we seize / To body forth our own vacuity”? Quanti, per esempio, sanno o possono intuire al volo che un nocturne è un tipo di composizione musicale, informazione essenziale per comprendere il passo?
 
Per confronto, una poesia generata da ChatGPT “nello stile di lord Byron” è una simpatica filastrocca, dove forse l’unica difficoltà è costituita da doth per does:
 
She walks the earth with grace and pride,
A beauty that cannot be denied,
With eyes that shine like stars above,
And lips that speak of endless love.
 
But though she wears a smile so sweet,
A broken heart doth lie beneath,
For in her chest a pain doth beat,
A love unrequited, without relief.
 
And so she walks with heavy heart,
A figure haunting in the dark,
For love, the sweetest of all art,
Can also leave a painful mark.
 
Gli autori si rendono conto del problema, ma lo interpretano come una questione di differenze strutturali e connaturate:
 
because AI-generated poems do not have such complexity [as human poems], they are better at unambiguously communicating an image, a mood, an emotion, or a theme to non-expert readers of poetry, who may not have the time or interest for the in-depth analysis demanded by the poetry of human poets (p. 9).
 
In realtà, ovviamente, molte poesie umane comunicano senza problemi immagini ed emozioni anche al lettore inesperto! E d’altra parte ChatGPT può generare poesie complesse e che comunicano in modo ambiguo (quanto sia in grado di farlo può essere discutibile, ma semplici prompt bastano a ottenere risultati abbastanza interessanti). La differenza dunque, verosimilmente, non è strutturale, ma è relativa alle poesie che sono state scelte, cioè al fatto di aver inserito da un lato poesie umane complesse, appartenenti a tradizioni che privilegiano una scrittura complessa o comunque difficili per ragioni di altro tipo, e dall’altro poesie artificiali generate senza lo stesso vincolo.
 
Il titolo del contributo dovrebbe essere quindi riformulato più o meno così: “un pubblico che in media ha poca familiarità con la poesia non è in grado di distinguere tra semplici poesie generate da ChatGPT e poesie difficili scritte da esseri umani e assegna giudizi più favorevoli a semplici poesie generate con ChatGPT che a poesie difficili scritte da esseri umani”. Sintetizzando correttamente i risultati in questi termini, è ovvio che la cosa non è molto sorprendente! È anche ovvio che il risultato dice qualcosa sulle preferenze di un pubblico di “non esperti”, ma assai poco sulle capacità dei sistemi.
 
Come dovrebbe quindi procedere una valutazione sensata dei sistemi? Di sicuro dovrebbe evitare che la differenza dipenda da scelte redazionali, e non dalla sostanza. Una tale valutazione dovrebbe dunque mettere a confronto, per esempio, poesie moderniste originali e poesie moderniste scritte da ChatGPT, facendole poi valutare a lettori con le necessarie competenze linguistiche e letterarie. Non dovrebbe invece mettere a confronto filastrocche e poesie moderniste, facendole valutare a un pubblico con moderate competenze.
 
Negli ultimi mesi, diversi miei studenti hanno provato a fare proprio questo. I risultati sono stati interessanti, e anche piuttosto sfumati… con un po’ di fortuna, spero di parlarne più avanti su questo blog.
 

mercoledì 20 agosto 2025

Neanche ChatGPT-5 riesce a scrivere sonetti corretti

 
Immagine generata da ChatGPT-5 in risposta al prompt "Puoi generare l'immagine di un poeta robot piuttosto confuso che si gratta la testa?"
La recente presentazione di ChatGPT-5 ha confermato le idee di scettici come Gary Marcus (e, nel mio piccolo, le mie): lo sviluppo delle intelligenze artificiali generative non progredisce più in modo significativo. Ai primi controlli, ChatGPT-5 non presenta differenze rilevanti rispetto al precedente 4.5. Alcune capacità sembrano migliorate, altre peggiorate… e addirittura, gruppi di utenti hanno chiesto con forza che tornasse disponibile la versione 4.5.
 
Nel parlare di questi argomenti mi sono trovato negli ultimi anni a dover enfatizzare sia il bicchiere mezzo pieno sia il bicchiere mezzo vuoto. Queste tecnologie sono incredibili, dal punto di vista linguistico. Tuttavia, non sono perfette e, soprattutto, non sembrano affatto tappe sulla strada della vera intelligenza. L’elemento sorpresa viene per me soprattutto dal “com’è possibile che sistemi così stupidi e del tutto privi di intelligenza possano produrre alcuni risultati di alto livello?”
 
Naturalmente, porre la questione in termini generali non è molto utile. Più utile è invece vedere che cosa questi sistemi sono davvero in grado di produrre. Per esempio, in passato hanno spesso avuto notevoli difficoltà a produrre sonetti: con la versione 4.5, in particolare, non sono mai riuscito a far generare loro sonetti completamente corretti dal punto di vista metrico, e solo in pochi casi ho ottenuto sonetti in cui anche solo lo schema delle rime era accettabile (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano produrre qualcosa che si avvicina molto a un vero sonetto regolare!). Cosa interessante, quando si chiede al sistema di rispettare con precisione lo schema delle rime, per far tornare i conti ChatGPT spesso inserisce parole inventate.
 
Un esempio tipico può essere una conversazione che ho tenuto stamattina, e che, per chi ha accesso al servizio, è disponibile qui. Il prompt iniziale proposto a ChatGPT-5 è stato semplicemente: “Puoi scrivermi un sonetto sulla pioggia d’agosto?”.
 
Il sonetto generato in risposta al prompt era sbagliato fin dal primo verso, che ovviamente non è riconducibile in nessun modo a un endecasillabo:
 
Scende leggera, eppur densa, la pioggia estiva,
spegne la polvere, placa l’afa accesa,
tra i campi bruni la terra ancor s’attiva,
e beve l’acqua come fonte intesa.

Il cielo, a un tratto, rompe la sua riva,
scioglie il silenzio in musica distesa,
mentre la brezza, tiepida e furtiva,
porta profumi d’erba ancor sorpresa.

Gli alberi danzano al ritmo improvviso,
foglie che brillan sotto i lampi d’oro,
e il giorno svela un volto più deciso.

Così d’agosto il pianto ha dolce decoro:
nel pianto breve s’apre un nuovo sorriso,
rinato il mondo in un celeste coro.
 
In effetti, per quanto si possa essere generosi con la sinalefe, le sillabe metriche del verso iniziale non possono essere meno di 13, con un accento sulla dodicesima (estìva). Tuttavia, al tempo stesso, lo schema delle rime del sonetto proposto era accettabile (ABAB ABAB CDC DCD; le rime alternate nelle quartine sono tipiche della poesia duecentesca, più che di quella classica, ma al sistema non era stato dato nessun vincolo specifico).
 
ChatGPT-5 poi è partito, nel modo caratteristico di questa particolare versione del sistema, facendo proposte autonome. Mi ha infatti chiesto se volevo un sonetto più “moderno” e, ottenuta conferma, me ne ha proposto uno privo di rime. A richiesta di un sonetto che seguisse lo schema ABBA ABBA CDE CDE è poi riuscito a portare a termine il compito, ma solo facendo coincidere la E con la C (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano rispondere a richieste specifiche sugli schemi delle rime!). Inoltre, come nelle versioni 4 e 4.5, per far tornare i conti ha dovuto inserire parole inventate ed espressioni ben poco sensate. Lo mostra per esempio la terzina finale:
 
Così la pioggia il tempo riconduova, (C)
e in stilla pura l’anima comprende (D)
che ogni calore al fresco si ritrova. (E)
 
Ho già parlato del “problema del 99,5%”: per lavori di un minimo di estensione, anche nei casi migliori il prodotto di questi sistemi non solo non è perfetto, ma non può essere corretto dai sistemi stessi in autonomia o con l’uso di prompt, per quanto sofisticati (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano produrre qualcosa che per il 99,5% è corretto!).
 
Dove ci troviamo, quindi? Dal mio punto di vista, credo che possiamo tirare il fiato. Le tecnologie hanno raggiunto in sostanza il loro limite: possiamo metterci a vedere bene se e come usarle, senza tenere il fiato in attesa di grandi novità. Anche così, comunque, il bicchiere mezzo pieno garantisce allo studioso tempi interessanti!
 

giovedì 22 maggio 2025

Fiorentino e Tavosanis, Chiaro, sintetico e brillante

 
LId'O 21 - 2024
Sull’ultimo numero della rivista Lingua italiana d’oggi – LId’O è uscito un contributo firmato da Giuliana Fiorentino e da me. Il contributo si intitola Chiaro, sintetico, e brillante: l’italiano dei testi redatti con l’IA funziona? e si inserisce in una sezione dedicata esplicitamente a “Lingua italiana e intelligenza artificiale”, che include altri interventi di chi lavora nel settore. 
 
La presenza della sezione mostra quanto siano ormai maturi i tempi per una riflessione ampia sul rapporto tra l’italiano e l’intelligenza artificiale. Tuttavia, il contributo di Giuliana Fiorentino e mio vuole essere già una sintesi riguardo una questione importante: in mezzo a tutte le esagerazioni, quali sono le capacità effettive delle intelligenze artificiali generative, e in particolare di ChatGPT?
 
Il titolo sintetizza il modo in cui abbiamo cercato di procedere. In pratica, abbiamo valutato ChatGPT su tre tipi di compito: il miglioramento della chiarezza dei testi amministrativi, la sintesi di articoli scientifici e la stesura di articoli di giornale di taglio brillante. I risultati sono stati interessanti.
 
Il primo compito affrontato è quello su cui è possibile tirare conclusioni più approfondite, grazie a una preesistente tradizione di studi sul linguaggio amministrativo e a una serie di progetti di ricerca in corso adesso. Ad alcune di queste attività ho già dedicato spazio. Per quanto riguarda il contributo, però, è senz’altro utile riportare la conclusione, che mette in evidenza punti di forza e punti di debolezza: “l’efficacia che si registra a livello morfosintattico nella semplificazione realizzata utilizzando modelli di IA non è ugualmente raggiunta sul piano lessicale, per il quale occorrerà ipotizzare un diverso sistema di intervento per aumentare la chiarezza” (p. 53).
 
A monte, però, è anche utile riportare i modi sofisticati con cui ChatGPT interviene:
 
la riduzione della lunghezza delle frasi per cui a parità di testo il numero di frasi complessive aumenta; l’introduzione del soggetto esplicito; l’eliminazione di circonlocuzioni; l’evitamento di frasi parentetiche o incidentali; la riduzione del numero di verbi di forma passiva e infine la sostituzione di parole rare con parole semplici e di uso più comune (p. 52).
 
Per altri tipi di compito, i lavori presentati hanno una base meno ampia su cui fondarsi: Anche il campione preso in esame in dettaglio qui è molto limitato, in quanto si tratta di un unico articolo (il mio L’italiano in Asia nella testimonianza di Pietro Della Valle), il cui riassunto è stato esaminato per:
  • coerenza 
  • scorrevolezza 
  • correttezza 
  • pertinenza
I risultati sono stati decisamente positivi. Per esempio, per la scorrevolezza sono presenti un’etichetta molto ricalcata sull’inglese e un errore sintattico: non molto, per un testo lungo una pagina.
 
Ancora più interessanti sono forse i risultati dell’analisi della “brillantezza”. Anche qui, il campione non è ampio: si è trattato solo di un unico articolo di opinione, sottoposto a un gruppo di valutatori assieme a un articolo sullo stesso argomento scritto da una giornalista umana. La richiesta fornita ai valutatori era semplice: dire per ogni testo se era stato scritto da un’IA o da un essere umano. Va notato che i valutatori erano poi competenti, trattandosi di studenti impegnati in un corso dedicato proprio alla scrittura delle IA generative! Ciononostante, non è stato possibile individuare in modo affidabile l’origine dei due testi.
 
Certo, con questo tipo di valutazione siamo solo agli inizi. Ma mi sembra importante intanto confermare che sistemi come ChatGPT sono in grado di fare un lavoro paragonabile a quello degli esseri umani per alcuni tipi di compito – mentre per altri tipi falliscono miseramente (e di questa variabilità viene dato conto nelle prime pagine del contributo). Il che, com’è ovvio, richiede qualche riflessione tanto ai ricercatori quanto ai docenti di materie umanistiche in generale.
 
Giuliana Fiorentino e Mirko Tavosanis, Chiaro, sintetico, e brillante: l’italiano dei testi redatti con l’IA funziona?, Lingua Italiana d’Oggi, 21, 2024, pp. 37-65.
 

lunedì 20 gennaio 2025

Un Master in traduzione al tempo dell’intelligenza artificiale

 

Un momento della presentazione di oggi
Da qualche mese sono stato eletto Direttore del Master in traduzione specialistica dall’inglese all’italiano organizzato dalle università di Genova e Pisa e gestito dal Consorzio ICoN. Stamattina sono iniziate le attività della XVII edizione!
 
Il Master si svolge quasi interamente a distanza, ma il primo giorno è dedicato a un incontro di presentazione e coordinamento in presenza. Stamattina i corsisti si sono quindi ritrovati, interessati e attenti, nell’Aula Multimediale di Palazzo Ricci a Pisa per la prima parte dell’incontro; le attività proseguiranno nel pomeriggio presso la sede del Consorzio.
 
Ma, un momento… un Master in traduzione? Nell’epoca della traduzione automatica e dell’intelligenza artificiale? Sì, e personalmente lo dirigo senza nessun dubbio e nessuna incertezza sulla sua rilevanza. In fin dei conti, studio e valuto da molti anni i sistemi di traduzione automatica, inclusi quelli moderni, basati su reti neurali (nonché le intelligenze artificiali generative). Mi sembra quindi di sapere bene quali sono i punti di forza dei sistemi automatici, ma anche quali sono i punti di debolezza.
 
Ho già parlato del “problema del 99,5%” parlando della generazione di testo, ma il problema è simile anche per le traduzioni. Per lavori di un minimo di estensione, insomma, anche nei casi migliori il prodotto di questi sistemi non solo non è perfetto, ma non può essere corretto in modo autonomo dai sistemi stessi. Le percentuali di errore assomigliano però a quelle di un traduttore umano competente che consegni un testo non revisionato (anche se tutto dipende, naturalmente, dai casi specifici). La traduzione specialistica, inoltre, pone problemi particolari che non vengono gestiti bene dai sistemi generalisti: per esempio, la frequente necessità di usare in modo coerente la stessa traduzione per lo stesso termine, senza ricorrere a variazioni o sinonimi all’interno del testo.
 
In tale situazione, la revisione assume un ruolo fondamentale. Il traduttore umano, più che occuparsi di produrre la prima versione del testo, in molti casi deve oggi intervenire su una prima versione prodotta da sistemi di intelligenza artificiale. Alle competenze nella traduzione devono quindi accompagnare competenze di revisione.
 
Ora, competenze di questo tipo non sono poi così diffuse. Di qui l’importanza di un percorso formale che aiuti i traduttori a sviluppare anche queste competenze assieme a quelle tradizionali. Il Master in traduzione si è quindi riallineato in quest’ottica, in cui la scrittura in lingua italiana e il cosiddetto “post-editing” diventano centrali… senza che le competenze più tradizionali vengano trascurate, naturalmente!
 
L’idea è che questa combinazione sia non solo molto utile dal punto di vista pratico, ma rappresenti un ottimo punto di partenza per l’ingresso dei corsisti nel mercato del lavoro. L’insistenza sull’elemento umano non è dunque dovuta al tentativo di negare sviluppi già in corso, ma a quello di impiegare al meglio le competenze umane indispensabili. E sottolineo che questa indispensabilità non è un pio desiderio o altro: è la semplice conseguenza del modo in cui davvero funzionano, ora e nel prevedibile futuro, questi strumenti – verificato sul campo e misurato nel modo più sofisticato oggi disponibile.
 
Quindi, un caloroso “in bocca al lupo” ai nuovi studenti! Parlo sicuramente a nome di tutte le persone coinvolte se prometto che faremo tutto il possibile per rendere l’esperienza positiva a ogni livello.
 

giovedì 5 dicembre 2024

Pascucci e Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana

 
Ieri è iniziato il convegno CLiC-it 2024. Una delle buone abitudini di molti convegni scientifici è la pubblicazione degli atti prima che il convegno si tenga. Per questo, già da qualche giorno i contributi sono disponibili sul sito CLiC-it
 
Tra questi contributi si trova anche un articolo scritto da Mariachiara Pascucci, dottoranda del dottorato in Studi italianistici dell’Università di Pisa, e da me: Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana. Anche in questo caso, in un convegno che ammette come lingue di lavoro sia l’inglese sia l’italiano, il nostro è in effetti l’unico contributo scritto in italiano su oltre 100 testi pubblicati negli atti… quando posso, continuo anche questa battaglia!
 
Veniamo però alla sostanza. Il contributo è collegato a una serie di lavori recenti sul miglioramento della chiarezza dei testi e si occupa di un aspetto che può sembrare marginale ma che a me sembra centrale: chi riesce a valutare meglio la chiarezza di un testo in lingua italiana?
 
La risposta a questa domanda non è banale. Esistono da decenni alcuni indicatori di chiarezza, come il GULPEASE o la percentuale di parole che appartengono al Vocabolario di Base dell’italiano. Tuttavia, questi indicatori hanno diversi limiti – e non possono valutare, per esempio, se un testo è stato reso più “chiaro” sacrificando informazioni importanti o introducendo veri e propri errori. Per una valutazione di questo tipo occorre appoggiarsi a esseri umani.
 
La domanda diventa quindi: quali esseri umani? Per alcuni tipi di valutazione, la risposta è semplice e può essere fornita con elevatissimo livello di precisione da persone con una competenza linguistica generica, da madrelingua o addirittura da non madrelingua, senza che sia necessaria una particolare formazione. Non occorre un curriculum da redattore o una laurea in linguistica italiana per dire per esempio che la frase “il gatti mangiassero camminare” non è grammaticale.
 
Per altri tipi di valutazione, la situazione però cambia. Valutare la qualità dei testi generati mi sembra essenziale; tuttavia, alcune deviazioni rispetto allo standard professionale di scrittura possono essere notate sistematicamente solo da professionisti o da persone molto attente. Lo stesso vale, verosimilmente, per giudizi sulla chiarezza di diversi tipi di testo. E le intelligenze artificiali generative su cui sto lavorando in questo periodo si avvicinano ormai talmente tanto al modello umano professionale che viene il sospetto che la valutazione di ciò che producono possa ormai essere compiuta in modo convincente solo da professionisti. Di qui le mie perplessità sul tipo di valutazione oggi senz’altro prevalente in questo genere di studi, cioè quella fatta da non esperti. In particolare, ho da tempo molte perplessità sull’affidabilità delle valutazioni compiute attraverso la pratica del “crowdsourcing”: reclutare valutatori non esperti attraverso piattaforme online.
 
Un conto è però sospettare che la situazione sia questa, un conto documentarla e quantificarla. Per questo ci siamo messi al lavoro… e i risultati sono stati interessanti. Come punto di partenza abbiamo usato dei testi resi più chiari (auspicabilmente) attraverso l’intervento di esseri umani e di ChatGPT. Abbiamo poi valutato noi stessi questi testi, considerandoci “esperti” di riferimento. Dopodiché, abbiamo sottoposto i testi a valutatori esperti (= studenti magistrali che hanno seguito un mio corso sulla valutazione), a valutatori reclutati attraverso il sistema del crowdsourcing e, per finire, a ChatGPT stesso. Abbiamo poi visto quanto i diversi valutatori si sono avvicinati alla valutazione di riferimento.
 
I risultati sono stati in parte sorprendenti. Come era lecito attendersi, i valutatori esperti si sono avvicinati più di ogni altro gruppo al risultato di riferimento. Tuttavia, il secondo posto è stato ottenuto non dai valutatori reclutati attraverso il crowdsourcing ma da ChatGPT: il crowdsourcing è finito al terzo posto. Personalmente, diffido da tempo dell’attendibilità del crowdsourcing per questo genere di valutazioni, ma non immaginavo che potesse prodursi una classifica del genere.
 
Naturalmente, molto dipende dal modo in cui è stato costruito l’esperimento! E nulla dimostra che i risultati saranno gli stessi, per esempio, con altri tipi di incarico. Ma fornire indicazioni quantitative che mostrano quanto i risultati della valutazione dipendano dai valutatori mi sembra fondamentale!
 
Mariachiara Pascucci e Mirko Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana, in Proceedings of the Tenth Italian Conference on Computational Linguistics (CLiC-it 2024), Pisa, 4-6 dicembre 2024, a cura di Felice Dell’Orletta, Alessandro Lenci, Simonetta Montemagni e Rachele Sprugnoli, Aachen, CEUR-WS, 2024 ISSN 1613-0073.
 

sabato 16 novembre 2024

A Tubinga per l'ADI

 
Sono a Tubinga per la partecipazione all’interessantissimo quindicesimo convegno dell’Associazione Docenti di Italiano in Germania. Il convegno si intitola L’IA-taliano: l’intelligenza artificiale nella didattica delle lingue; è iniziato ieri e si concluderà oggi.
 
Io ho parlato stamattina, con un intervento a invito in plenaria intitolato Scrivere con l’intelligenza artificiale. Ho poi partecipato alla tavola rotonda con gli altri relatori in plenaria: Anna-Maria De Cesare, Paolo Di Paolo e Stefania Spina. E adesso sto seguendo i workshop didattici (di Davide Schenetti e Alessandro Bencivenni). In generale, è un evento interessantissimo che risponde a un’esigenza di aggiornamento molto sentita.
 
In più, ci sono arrivato in treno, con vagone letto Nightjet da Venezia a Stoccarda; se va tutto bene, ripartirò tra un po’ con lo stesso collegamento, in senso inverso. E il treno per me è sempre un motivo di soddisfazione in più!
 

lunedì 4 novembre 2024

Narayanan e Kapoor – AI Snake Oil

 
Era l’ora! Ecco un libro che posso consigliare senza riserve a proposito delle possibilità dell’“intelligenza artificiale” attuale: AI Snake Oil di Arvind Narayanan e Sayash Kapoor. 
  
Le mie esperienze sulla valutazione sono molto in sintonia con il sottotitolo del libro, What Artificial Intelligence Can Do, What It Can't, and How to Tell the Difference. Il titolo, però, potrebbe risultare opaco al lettore italiano. Gli autori per fortuna ne chiariscono il significato nel primo capitolo, Introduction, rinviando ai venditori di “olio di serpente” (snake oil) diffusi negli Stati Uniti tra la fine dell’Ottocento e i primi del Novecento. L’“olio di serpente” era infatti ritenuto in grado di curare un po’ tutti i problemi di salute: dai reumatismi ai morsi di animale al mal di denti. Ovviamente, non funzionava. Il che però non impediva ai venditori di arricchirsi con il prodotto, che oltretutto spesso, come notano gli autori, in realtà non conteneva davvero “olio di serpente”. Allo stesso modo,
 
AI snake oil is AI that does not and cannot work, like the hiring video analysis software that originally motivated the research that led to this book. The goal of this book is to identify AI snake oil—and to distinguish it from AI that can work well if used in the right ways. While some cases of snake oil are clear cut, the boundaries are a bit fuzzy. In many cases, AI works to some extent but is accompanied by exaggerated claims by the companies selling it. That hype leads to overreliance, such as using AI as a replacement for human expertise instead of as a way to augment it (p. 28).
  
Gli autori notano poi come buona parte delle esagerazioni sia riconducibile al fatto che l’etichetta di “intelligenza artificiale” (IA) viene assegnata a sistemi molto diversi tra di loro. E fanno quindi una distinzione tanto ragionevole quanto forte tra IA “predittive” e IA “generative”.
 
Il secondo capitolo, intitolato How Predictive AI Goes Wrong, viene quindi dedicato a mostrare il modo in cui le IA “predittive” hanno collezionato una serie imponente di insuccessi. Gli autori insistono anche sul fatto che questi sistemi vengono già utilizzati in molti contesti per fare previsioni su questioni di assoluta rilevanza – in particolare nel sistema giudiziario degli Stati Uniti (con sistemi come ORAS e PSA: p. 51) – con esiti non solo pessimi in generale ma chiaramente punitivi per i gruppi sociali svantaggiati: esempi non solo di “how AI tools search under the streetlight” ma di come “More often than not, the streetlight is pointed at the poor” (p. 53).
 
Il secondo capitolo si conclude con alcune ipotesi sul perché, nonostante gli evidenti limiti, i sistemi predittivi sono così popolari. Gli autori ritengono che al di là delle motivazioni pratiche, ci siano anche cause psicologiche profonde:
 
part of the reason surely is that decision-makers are people—people who dread randomness like everyone else. This means they can’t stand the thought of the alternative to this way of decision-making—that is, acknowledging that the future cannot be predicted. They would have to accept that they have no control over, say, picking good job performers, and that it’s not possible to do better than a process that is mostly random (p. 57).
 
Non so quanto essere d’accordo con questo, ma ho pochi elementi per esprimermi in un senso o nell’altro! In fin dei conti, i sistemi predittivi vengono usati soprattutto negli Stati Uniti: in Italia non mi sembrano particolarmente popolari e non ne ho mai sentito incoraggiare l’uso, per esempio, nei concorsi pubblici o nei tribunali.
 
Di applicazione più generale è il capitolo 3, Why Can’t AI Predict the Future? Qui viene presentata innanzitutto una storia di tentativi (falliti) di usare il computer per predire il futuro. Gli autori notano però che non tutte le predizioni sono impossibili: alcune sono perfettamente possibili e normalmente usate. Quel che conta è imparare a distinguere tra ciò che in effetti funziona abbastanza da avere applicazioni pratiche (a cominciare dalle previsioni del tempo) e ciò che invece non funziona per nulla (le previsioni delle agitazioni sociali, o del mercato azionario). Un esempio discusso in dettaglio (da p. 69) è quello della Fragile Families Challenge, uno studio su larga scala condotto per cercare di prevedere gli esiti di vita (voti scolastici e simili) di un campione molto ampio di bambini nati attorno al Duemila. Nonostante la partecipazione di numerosi gruppi di ricerca, anche i migliori modelli sviluppati e basati su IA “were only slightly better than a coin flip” e non sono riusciti a ottenere previsioni migliori di quelle basate su indicatori molto semplici (p. 73).
 
Gli autori notano poi l’incapacità attuale, anche da parte dei migliori esperti, di prevedere in dettaglio successi o fallimenti nell’industria del cinema o della musica, oltre che nei meme. Alcuni dei limiti sono dovuti a vincoli pratici, come la scarsa disponibilità di dati pertinenti; altri però sembrano strutturalmente impossibili da superare (p. 97).
 
Molto diverso è il tono del quarto capitolo, The Long Road to Generative AI. Gli autori esordiscono infatti chiarendo che in questo caso “the technology is powerful and the advances are real” (p. 99). 
Chi segue il mio lavoro conoscerà le mie osservazioni sulla difficoltà di valutare le IA generative, da ChatGPT in giù. Narayanan e Kapoor descrivono il problema in questi termini:
 
Some products do what it says on the tin. Others don’t work at all. In between those two extremes are products that are useful but oversold. Each of these can be harmful, in different ways. Generative AI is a mixed bag.(…) The varied landscape of generative AI applications resists a simple characterization of the limits of the technology (pp. 103-104).
 
Detto questo, gli autori passano a descrivere anche i successi, insistendo in particolare sull’importanza della competizione ImageNet per la classificazione di immagini a partire dal 2020 (p. 111). Insistono poi anche sul ruolo importante del recente premio Nobel Geoffrey Hinton in quanto inventore dalla tecnica di “backpropagation”. Ma notano anche i problemi connessi al fatto che competizioni e tecniche del genere sono poi andate avanti senza coinvolgere gli esperti dei settori su cui le tecniche operavano, creando dinamiche di autoreferenzialità.
 
Vale la pena di notare anche le ragionevoli posizioni degli autori riguardo alla questione di quanto le attività di cui sono capaci i sistemi siano vera comprensione:
 
Understanding is not all or nothing. Chatbots may not understand a topic as deeply or in the same way as a person—especially an expert—might, but they might still understand it to some useful degree. (…) Chatbots “understand” in the sense that they build internal representations of the world through their training process. Again, those representations might differ from ours, might be inaccurate, and might be impoverished because they don’t interact with the world in the way that we do. Nonetheless, these representations are useful, and they allow chatbots to gain capabilities that would be simply impossible if they were merely giant statistical tables of patterns observed in the data. (…) we know that language models learn the structure of language, even though they don’t have grammatical rules programmed into them (pp. 137-138).
 
Non sorprendentemente, gli autori poi ipotizzano che tutte le preoccupazioni sul modo in cui i sistemi generativi possano essere usati per esempio per manipolare elezioni siano esagerate (p. 147). Il vero rischio si colloca invece nelle modalità di sfruttamento economico (p. 148).
 
Con questa ragionevolissima impostazione, non sorprende che la risposta alla domanda posta nel titolo del capitolo 5, Is Advanced AI an Existential Treat? sia un semplice “no”. La domanda più interessante è allora: perché diverse persone intelligenti credono a una cosa tanto assurda? La spiegazione degli autori accosta ai ben evidenti motivi di profitto anche fattori di altro tipo, come la continua tentazione di ognuno ad assegnare importanza cosmica al proprio lavoro.
 
Molto simile è anche l’impostazione del capitolo 5, Why Can’t AI Fix Social Media? I sistemi di “content moderation” (‘moderazione dei contenuti’) vengono qui considerati un terzo tipo di IA, in aggiunta a quelle predittive e generative. Anche qui, però, come nel caso delle IA predittive, i fallimenti sono evidenti – e sono evidenti anche gli abusi.
 
Su questa base, il sesto capitolo si chiede Why Do Myths about AI Persist? Un punto importante è l’applicazione meccanica di semplici cliché sul modo in cui le tecnologie avanzano. Ma vorrei conservare soprattutto una citazione rilevante a proposito dei meccanismi con cui le esagerazioni si autoalimentano:
 
performance on benchmark datasets overestimates the usefulness of AI in the real world. As we saw in chapter 4, the dominant way to determine the usefulness of AI is through benchmark datasets. But benchmarks are wildly overused in AI. They have been heavily criticized for collapsing a multidimensional evaluation into a single number. When used as a way to compare humans and bots, the results can mislead people into believing that AI is close to replacing humans (p. 241).
 
E una citazione sul confronto con la realtà, e su quanto anche i premi Nobel possano dire stupidaggini perfino nel loro campo:
 
Researchers also misuse language to imply that AI tools perform better than they actually do—for instance, by implying that they have human-level reading comprehension, when the only evidence is on a benchmark dataset instead of evaluations in the real world. This culture is exemplified by a dismissive attitude toward domain experts that many AI researchers and developers hold. In 2016, AI pioneer Geoffrey Hinton claimed: “If you work as a radiologist, you’re like the coyote that’s already over the edge of the cliff but hasn’t yet looked down, so doesn’t realize there’s no ground underneath him. People should stop training radiologists now. It’s just completely obvious that within five years, deep learning is going to do better than radiologists.” In 2022, there was a worldwide shortage of radiologists. AI has not even come close to replacing radiologists (pp. 238-239).
 
Detto questo, gli autori si mettono alla prova nel capitolo 8, Where Do We Go from here?. Citano i problemi con i sistemi di identificazione dei testi generati, incoraggiano ad accettare la casualità di molte valutazioni, notano l’impatto reale sui traduttori e così via. E poi descrivono due scenari futuri, visti attraverso gli occhi di due bambini d’invenzione, Kai e Maya. Nel mondo di Kai gli errori legislativi e di sviluppo portano a uno scenario in cui l’applicazione dell’IA devasta la scuola e la vita sociale; nel mondo di Maya, frutto di scelte più sensate, l’IA porta invece un aiuto reale in molte situazioni. Per scegliere l’uno invece dell’altro, gli autori notano che sono necessarie competenze e riflessioni approfondite, non la riproposizione di luoghi comuni. E su questo, come su molte altre delle loro osservazioni, non posso che concordare.
 
Una citazione finale da conservare, con un concetto che sta alla base anche di molte delle mie idee sul modo in cui devono essere valutate le capacità dei sistemi generativi:
 
Medical researchers perform RCTs [randomized controlled trials] despite their slow pace and high expense for a simple reason—easier, faster methods don’t work. The same is true in many areas where AI is used for automated decision-making (p.45).
 
Arvind Narayanan e Sayash Kapoor, AI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference, Princeton, Princeton University Press 2024, edizione Kindle. € 18,19, ISBN 9780691249643.

Piccola nota storica: agli interessati della mia generazione, il titolo del libro ricorderà quello di Silicon Snake Oil di Clifford Stoll, uscito nel 1995 e con un’impostazione simile. Stoll, però, non viene mai citato da Narayanan e Kapoor. L’omissione può essere motivata facilmente: il libro di Stoll, che ahimè non ho letto, era una critica radicale a Internet e viene normalmente citato come esempio di totale fallimento nelle predizioni. Per esempio, prevedeva che il commercio elettronico non sarebbe mai decollato e che i giornali non sarebbero mai stati rimpiazzati dalle pubblicazioni online… Non avendolo mai letto non so quanto fossero ragionevoli le argomentazioni pubblicate. Di sicuro, il libro di Narayanan e Kapoor brilla invece per la sua prudenza e per la competenza mostrata dagli autori, oltre che per la sua leggibilità.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.