martedì 10 febbraio 2026

Che cosa ChatGPT riesce a far bene, nel febbraio 2026?

 
Ieri, lunedì 9 febbraio, si è tenuto l’ultimo appello invernale per i miei insegnamenti di Linguistica italiana tenuti negli ultimi anni per le lauree magistrali in Italianistica e Linguistica e traduzione dell’Università di Pisa. Al solito, si è trattata di un’occasione molto utile per vedere, attraverso le relazioni che gli studenti presentano all’esame, qual è lo stato delle capacità di ChatGPT e sistemi simili. Sì, perché non solo ho fatto diverse valutazioni nel corso degli anni, ma le valutazioni vanno ripetute spesso per vedere se le nuove versioni dei sistemi cambiano prestazioni o no.
 
Il quadro che ne esce è una conferma: i sistemi non stanno migliorando molto. Anzi, per alcuni compiti in italiano ho l’impressione che, per esempio, ChatGPT-5.2 lavori peggio di ChatGPT-4o. In generale, alcuni compiti restano al di fuori della loro portata mentre altri vengono svolti sorprendentemente bene. Tuttavia, è difficile esserne sicuri senza fare verifiche sistematiche. Per fortuna, diverse relazioni di alto livello si sono occupate proprio di questo!
 
Per esempio, uno dei lavori presentati all’esame descriveva il tentativo di far analizzare a ChatGPT i verbi presenti nel I canto dell’Inferno. Oltre tre anni dopo l’uscita di ChatGPT, un compito del genere si rivela ancora impossibile: il sistema individua i primi verbi e poi incomincia a elencare verbi che non esistono, a considerare verbi sostantivi come sonno, e così via. Né si riesce a superare il limite per esempio scomponendo il lavoro in fasi (“per prima cosa, fai un semplice elenco dei verbi presenti”). Insomma, inaffidabilità totale.
 
Le cose vanno un po’ meglio, ma non troppo meglio, per quanto riguarda l’analisi e la parafrasi di testi poetici della tradizione italiana: le verifiche sono state compiute su poesie di Dante, Bronzino, Leopardi, Carducci, Gozzano e Montale. Qui occorre distinguere tra i diversi aspetti del lavoro. ChatGPT inventa liberamente quando si tratta di metrica: non riesce a classificare i versi in modo affidabile, anche se a volte si avvicina al risultato lavorando di prompt. Al momento di classificare le figure retoriche, commette molti sbagli e, soprattutto, considera figure retoriche espressioni che non lo sono. Un po’ meglio vanno le cose quando si tratta di analizzare e spiegare il testo: in fin dei conti, un compito del genere consiste spesso nel presentare luoghi comuni e fare osservazioni di buon senso. Vale però la pena notare che a volte il sistema si lascia prendere la mano dai luoghi comuni e per esempio, analizzando Alla stazione in una mattina d’autunno, si mette a parlare del tema dell’“alienazione” nella poesia di Carducci…
 
Le cose vanno molto meglio quando si tratta di parafrasare. Qui il lavoro viene compiuto in modo abbastanza soddisfacente. Restano alcuni errori, ma è possibile riformulare testi in italiano contemporaneo a un livello molto vicino a quello di una buona parafrasi umana (e, cosa interessante, in alcuni punti si evitano errori presenti invece in alcune parafrasi). Questo vale anche per poesie di cui (come nel caso di un sonetto di Bronzino) non sembra esista una parafrasi completa in italiano recuperabile da qualche fonte.
 
E poi, arriviamo alla traduzione. Dove innanzitutto mi sembra che venga confermato un sospetto: per la traduzione letteraria, ChatGPT se la cava assai meglio di sistemi di traduzione specializzati come DeepL.
 
Dopo un piccolo lavoro sui prompt, la traduzione di un report giornalistico in inglese relativo a una gara di Formula 1 è stata giudicata di livello praticamente umano (terminologia specialistica inclusa). Va notato che, se oggi lavorare sui prompt non sembra troppo utile per la maggior parte dei compiti, è ancora necessario chiedere esplicitamente al sistema di mantenere il registro del testo di partenza e di conservare tutte le informazioni. E ammetto che io, pur essendo un premiato traduttore, avrei avuto molte difficoltà a rendere per esempio “dive up the inside” con “tuffarsi all’interno” o, soprattutto, “sat in his wheel tracks” con “rimasto negli scarichi”!
 
In un altro caso, cioè la traduzione di espressioni idiomatiche dal russo all’italiano nei testi narrativi, ChatGPT se l’è cavata non solo meglio di DeepL ma addirittura meglio di alcune classiche traduzioni umane pubblicate. Certo, una volta non esistevano dizionari adeguati, ma è comunque sorprendente notare quanti errori siano saltati fuori in un campione tutto sommato limitato.
 
Abbastanza bene, ma meno bene, sono andati i tentativi di usare ChatGPT per intervenire sull’espressione di genere, incluso l’impiego dello schwa. Anche qui si vedono i limiti dei sistemi per quanto riguarda la sistematicità del lavoro.
 
In conclusione (per usare un’espressione tipica di ChatGPT): l’ultimo anno non ha visto grandi cambiamenti nelle capacità dei sistemi. Alcuni compiti, anche molto banali, vengono ancora eseguiti a un livello inaccettabile in qualunque contesto realistico. Altri, come l’analisi di poesie, si trovano più o meno sul confine tra accettabilità e inaccettabilità. Altri ancora, come la parafrasi e, soprattutto, la traduzione, si collocano invece a un livello solo di poco inferiore a quello dei professionisti umani, e talvolta perfino lo superano. Si tratta senz’altro di una situazione stabile; ma di una situazione stabile che, credo, non ha ancora finito di dispiegare i propri effetti in diversi ambiti.
 

giovedì 22 gennaio 2026

Studi sul miglioramento della chiarezza con IA

 
Il volume di cui ho parlato a inizio mese, Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, contiene molti contributi rilevanti dal mio punto di vista. Come dicevo, circa un terzo del libro è occupato da lavori che affrontano il miglioramento della chiarezza condotto attraverso intelligenze artificiali generative. Anche gli altri due terzi sono interessanti, naturalmente! Ma è comprensibile che io mi concentri su ciò che è collegato più direttamente al mio lavoro.
 
Giuliana Fiorentino e Marco Russodivito presentano un lavoro intitolato Umano vs. AI: alcune considerazioni sulla semplificazione manuale a automatica del corpus ItaIst (pp. 53-78). Il lavoro presentato è in un certo senso preliminare alla realizzazione del sistema sempl.it realizzato dallo stesso gruppo di ricerca e pensato per la semplificazione dei testi amministrativi. Con questa finalità è stato innanzitutto realizzato il corpus ItaIst, una cui versione ridotta (8 documenti, per circa 33.000 token) è pubblicamente disponibile. Due esperti umani hanno semplificato i contenuti del corpus, impiegandoci rispettivamente 15 e 23 ore. La stessa operazione è stata poi ripetuta (in pochi minuti) con ChatGPT-4 sulla base di un breve prompt basato sul ruolo (p. 58). Il confronto mostra che, rispetto agli esperti umani, ChatGPT ha seguito criteri piuttosto simili, ma ha rielaborato il testo più in profondità e ha usato frasi in media più brevi (p. 60), applicando in modo creativo molti degli attuali criteri per il miglioramento della chiarezza anche in mancanza di indicazioni specifiche da parte dei ricercatori. Per valutare appieno i risultati occorre però una verifica sulla correttezza dei contenuti generati: gli autori promettono di presentare l’esito di questa verifica in un lavoro ora in stampa (p. 76).
 
Il contributo successivo, SEMPL-IT: un modello di intelligenza per la semplificazione dell’italiano, firmato da Vittorio Ganfi e Marco Russodivito (pp. 79-101), presenta appunto il sistema SEMPL-IT realizzato nel progetto citato nel contributo precedente. In dettaglio, il sistema è basato sul fine-tuning di tre LLM pre-addestrati: mt5-small, umt5-small e GPT2-small-italian (p. 89). Il fine-tuning dei tre modelli è stato condotto sul corpus ItaIst, usando la libreria Transformers su Google Colab (pp. 89-91). Un confronto con alcuni sistemi commerciali ha poi mostrato che i testi semplificati dai tre modelli ottengono risultati grosso modo simili per quanto riguarda alcune metriche automatiche; tuttavia, non sono stati ancora fatti confronti sulla qualità e correttezza dei testi. Questa mancanza di verifica, assieme alla presenza di “riscritture problematiche” in alcuni esempi discussi, rende un po’ ottimistiche le valutazioni degli autori sull’utilizzabilità pratica del prodotto nella forma descritta (p. 96). In ogni caso, il prodotto finito è ora disponibile all’indirizzo https://sempl-it.unimol.it/ats.
 
È dedicato a un argomento piuttosto diverso il contributo su Valutazione di tecniche di prompt engineering per la semplificazione dell’italiano burocratico e professionale firmato da Claudia Gigliotti, Walter Paci, Giovanni Acerboni, Alessandro Panunzi e Maria Roberta Perugini (pp. 119-138). In questo caso, l’analisi è stata svolta secondo modalità un po’ curiose: frasi di testi burocratici e professionali sono state riformulate con diversi prompt (Chain-of-Thought, few-shot, eccetera) e la verifica della comprensione dei testi da parte di utenti reclutati con il crowdsourcing è stata usata come metro per valutare l’efficacia dei prompt. Il risultato è stato che “non emergono differenze statisticamente significative né in termini di accuratezza nelle risposte né nel numero di riletture effettuate” (p. 134). Questo nonostante studi preliminari abbiano suggerito la maggior efficacia di prompt complessi.
 
Preciso per quanto riguarda quest’ultimo punto che le modalità mi sembrano curiose perché la valutazione ricollega direttamente il punteggio finale e il prompt, senza prendere assolutamente in esame il prodotto intermedio: il testo valutato. Può infatti darsi che i prompt ottengano tutti lo stesso esito perché, banalmente, i testi semplificati si assomigliano tutti, indipendentemente dalla modalità con cui sono stati ricavati. Un controllo del genere sembra assai utile e molto semplice da eseguire.
 
In ogni caso, l’irrilevanza delle rielaborazioni sul risultato finale potrebbe avere anche una causa diversa e più strutturale. Per valutatori con un titolo di studio avanzato (qui era richiesto come minimo il diploma: p. 123), testi come quelli che presumibilmente sono stati presi in esame qui sono infatti di regola comprensibili senza troppi problemi. In alcune valutazioni che ho condotto l’anno scorso ho visto non solo che gli studenti universitari a livello di laurea magistrale sembrano comprendere senza problemi sia i testi burocratici originali sia quelli semplificati (il che dovrebbe essere intuitivo), ma sembrano impiegare lo stesso tempo nella lettura, nonostante l’evidente differenza di complessità dei testi (e questo è già più sorprendente). Insomma, occorre ricordare l’italiano burocratico rappresenta un oggetto difficile da gestire per chi ha un livello non alto di conoscenza dell’italiano, ma assai meno per chi è arrivato per esempio alla formazione terziaria dopo studi in lingua italiana!
 
Il contributo successivo, di Anna-Maria De Cesare, è intitolato Per un’amministrazione impegnata e aggiornata: come formulare annunci di lavoro rispettosi della parità di genere con l’intelligenza artificiale generativa? (pp. 139-). Si tratta dunque della descrizione degli esiti di un compito pratico, già toccato in un precedente lavoro della stessa autrice. Qui viene approfondito il caso particolare della generazione degli sdoppiamenti contratti (“esperto/a”). Alla base di questa scelta si trova il fatto che la Cancelleria Federale svizzera ha individuato lo sdoppiamento contratto come “adeguato ad attuare il pari trattamento linguistico tra donna e uomo negli annunci di lavoro” (p. 140), il che già di per sé mostra quanto la consapevolezza su simili questioni sia maggiore in Svizzera rispetto all’Italia. Qui peraltro non vengono forniti i risultati completi del lavoro (l’autrice rimanda a un altro contributo), ma solo l’analisi di alcune riscritture proposte daisistemi. Vale la pena di notare che anche in questo caso un prompt relativamente semplice ha dato risultati migliori rispetto a un prompt più complesso (p. 150).
 
Ritorna sull’intelligenza artificiale un contributo di Teresa Monaco a fine volume: Semplificazione e intelligenza artificiale, quando la macchina “apre” alla fiducia (pp. 355-370). In questo caso, però, le considerazioni sono di tipo generale (e lasciano alcuni dubbi i collegamenti con le questioni linguistiche). 

Testi provenienti da Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, ISBN 979-12-5496-268-8.
 

venerdì 2 gennaio 2026

Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative

 
Copertina del libro Amministrazione attiva
Nel maggio del 2024 sono stato a Campobasso per un convegno sull’Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa. Il convegno è stato molto interessante e ha mostrato anche in modo tangibile quanto le intelligenze artificiali generative siano oggi al centro dell’interesse di chi lavora sulla scrittura amministrativa. Un volume che include molti contributi dei partecipanti al convegno è uscito qualche mese fa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, e permette di quantificare: su circa 350 pagine di testo, esclusi indici e introduzione, circa 120 sono dedicate a esperienze che coinvolgono le intelligenze artificiali generative.
 
Rientra nel gruppo anche il mio contributo dedicato a Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative. Le esperienze presentate sono state illustrate da altre angolazioni in una sintesi scritta da Giuliana Fiorentino e da me e in un confronto tra metodi di valutazione scritto da Mariachiara Pascucci e da me. Tuttavia, in questa ultima pubblicazione si forniscono molti approfondimenti relativi alla domanda di base: le intelligenze artificiali generative riescono a migliorare la chiarezza dei testi? La risposta è sostanzialmente positiva, con alcune precisazioni.
 
Dal punto di vista metodologico, ho scelto di adottare la valutazione cosiddetta intrinseca eseguita da valutatori umani. In pratica, si forniscono i testi a valutatori umani che dicono quanto il lavoro è stato fatto bene (ed è importante che i valutatori abbiano le competenze necessarie a svolgere questa attività). Nessun sistema automatico di valutazione oggi è in grado di fare meglio di così!
 
I testi di partenza sono stati otto documenti di carattere informativo-amministrativo (in particolare, linee guida ministeriali), selezionati perché privi di valore giuridico vincolante ma rappresentativi delle difficoltà tipiche della comunicazione istituzionale. Ogni testo è stato riformulato sia da ChatGPT, utilizzando due prompt diversi mirati a migliorare la chiarezza senza perdere informazioni, sia da un intervento umano condotto secondo criteri consolidati nella letteratura sulla scrittura chiara.
 
Per rendere la valutazione più specifica, ho poi scomposto il giudizio in cinque ambiti distinti: correttezza delle informazioni, correttezza linguistica, chiarezza complessiva, livello di miglioramento rispetto all’originale e conservazione delle informazioni. I valutatori, studenti universitari con una buona formazione linguistica e specificamente preparati al compito, hanno assegnato per ogni ambito punteggi su una scala da 1 a 5, lavorando in modo indipendente e senza sapere se i testi valutati fossero stati prodotti da un essere umano o da un sistema automatico.
 
I risultati mostrano che le riformulazioni prodotte da ChatGPT raggiungono nel complesso un livello paragonabile a quello umano. Su 40 confronti diretti tra riformulazioni umane e automatiche (cioè, i punteggi ottenuti dagli 8 testi per 5 ambiti), ChatGPT ottiene un punteggio superiore rispetto alle riformulazioni umane in 14 casi e identico in altri 2. Tenuto conto dei due confronti in cui il punteggio è identico, la parità si sarebbe prodotta a 19: il livello attuale non è lontano dal traguardo!
 
In particolare, le prestazioni di ChatGPT sono risultate molto buone per quanto riguarda la chiarezza complessiva e la conservazione delle informazioni, ambiti nei quali le riformulazioni automatiche sono state valutate allo stesso livello di quelle umane. ChatGPT ha ricevuto invece punteggi peggiori nella correttezza linguistica e nel livello di miglioramento. È però importante notare che, nella maggior parte dei casi, gli scarti di punteggio sono contenuti.
 
Un limite significativo dell’indagine riguarda il basso accordo statistico tra i valutatori, misurato tramite l’α di Krippendorff, che non raggiunge la soglia di sufficienza. Questo risultato conferma quanto la valutazione del miglioramento della chiarezza sia un compito intrinsecamente complesso e spinge a perfezionare le procedure di valutazione.
 
I dati ottenuti giustificano senz’altro un cauto ottimismo sul piano applicativo. Sistemi come ChatGPT sembrano già oggi utilizzabili come strumenti di supporto nei processi redazionali orientati alla chiarezza, a condizione che siano inseriti in flussi di lavoro ben controllati da revisori umani competenti.
 
Al tempo stesso, però, ribadirei un punto forse ancora più importante: lavorare su questi temi è un’occasione preziosa per riflettere più in generale sui criteri con cui valutiamo i processi di miglioramento della chiarezza, indipendentemente dal fatto che il testo sia prodotto da esseri umani o da sistemi artificiali.

Mirko Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative, in Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, pp. 103-118.
 

venerdì 26 dicembre 2025

Zevin, Tomorrow and Tomorrow and Tomorrow

 
Copertina di Gabrielle Zevin, Tomorrow and Tomorrow and Tomorrow
Una lettura interessante di questa estate: Tomorrow and Tomorrow and Tomorrow di Gabrielle Zevin, ambientato nel mondo dei giovani sviluppatori di videogiochi degli anni Novanta.
 
Il libro rappresenta una lettura insolita per me, da diversi punti di vista. I suoi protagonisti appartengono a una generazione successiva alla mia e si ricollega a vicende che ho conosciuto dall’esterno senza esserne troppo influenzato. Parla poi dei problemi delle persone di grande successo… e questa è una cosa con cui non riesco, strutturalmente, a entrare in sintonia! E include anche diversi classici espedienti da romanzo, dall’incidente stradale all’assassinio (che mi hanno fatto tornare in mente episodi vagamente paragonabili della popolare serie televisiva Grey’s Anatomy.
 
Al centro di tutto ci sono le relazioni affettive tra tre (o quattro) personaggi principali. Le questioni tecniche e pratiche collegati ai videogiochi rimangono al margine – l’ambiente viene descritto come se fosse più vicino a quello dell’artigianato artistico che all’industria globale. Però ho letto tutto al al volo, con la curiosità di sapere che cosa sarebbe successo!
 
Gabrielle Zevin, Tomorrow and Tomorrow and Tomorrow, Vintage, 2023, pp. 482, ISBN 978-1-529-11554-3, ricevuto per graditissimo regalo.
 

lunedì 13 ottobre 2025

Tavosanis, L’italiano sulla via dell’India

 
È appena uscito il mio nuovo libro, L’italiano sulla via dell’India! Pubblicato dal Mulino, è disponibile attraverso il sito dell’editore e sui normali canali di vendita, sia come testo a stampa sia come e-book.
 
L’argomento del libro può sembrare strano: l’uso dell’italiano in Asia nel Seicento, visto in particolare attraverso le testimonianze dei viaggiatori dell’epoca. Dico che può sembrare strano perché (come argomento più in dettaglio appunto nelle sezioni introduttive del libro) mi sembra che in Italia, da un lato, siano ancora diffusi i luoghi comuni sulla scarsa rilevanza internazionale dell’italiano, ora e in passato; e dall’altro, che ci sia un interesse sorprendentemente ridotto nei confronti dell’Asia. A me, invece, sembrano ci siano ottimi motivi per interessarsi tanto della lingua italiana quanto di quella vasta regione del mondo.
 
Sintetizzerò al massimo la tesi del volume: per tutto il Seicento, l’italiano era la lingua europea di gran lunga più nota, usata e insegnata in una vasta area che va dalle coste del Mediterraneo fino a quelle del Golfo Persico (con qualche propaggine fino in India). In termini moderni, si tratta della Siria, dell’Iraq e della Persia, cioè i paesi attraversati dai viaggiatori che per un motivo o per l’altro si recavano in India per via di terra.

La lingua italiana, naturalmente, era usata dai viaggiatori italiani… ma, soprattutto, anche da persone di tutt’altra origine, a cominciare dai mercanti e dai viaggiatori di altri paesi europei, che spesso se ne servivano anche tra di loro, in assenza di italiani. La usavano poi, in particolare, moltissimi mercanti e religiosi armeni, mediatori essenziali tra Asia ed Europa. E a volte, l’uso si collegava a un insegnamento formale e abbastanza stabile. Le testimonianze menzionano in effetti almeno tre scuole in cui nel corso del Seicento l’insegnamento dell’italiano ebbe una certa stabilità, a opera di religiosi francesi: ad Aleppo, a Baghdad e a Isfahan in Persia.
 
Che l’italiano fosse una lingua usata anche in assenza di italiani non è una novità assoluta. Diversi studi recenti hanno iniziato a chiarire il ruolo dell’italiano come lingua franca lungo le coste del Mediterraneo; il mio contributo si rivolge però all’interno, e a un’area geografica ancora poco esplorata in quest’ottica. Inoltre, le testimonianze dei viaggiatori presentano aspetti dell’uso reale su cui le fonti d’informazione più impiegate, cioè i documenti d’archivio, per quanto rilevanti, non possono dire molto.
 
Alle questioni generali si affianca poi la presentazione di una serie di viaggiatori, ognuno con le proprie particolarità e idiosincrasie, da prendere in esame per valutare le testimonianze. Lato italiano, si tratta di nobiluomini come Pietro Della Valle o Ambrogio Bembo, di religiosi come Giuseppe Sebastiani o Antonio Murchio, e di personaggi di minor rilievo sociale come Angelo Legrenzi e Niccolò Manucci. Ma anche lato francese, come vedrà il lettore, non mancano personaggi interessanti.
 
I casi raccontati sono di tipo assai diverso. Si va dalle prediche durante la messa (in Terrasanta e a Isfahan) fino alle battute durante ai banchetti, e dalle lezioni di italiano nel deserto alle presentazioni trionfali in India. Il quadro che ne emerge mi sembra però molto coerente: quello di una lingua che nel Seicento godeva di elevatissimo prestigio e uso comune presso alcune nazionalità. Per il resto, saranno i lettori a fornire il giudizio…
 
Mirko Tavosanis, L’italiano sulla via dell’India, Bologna, il Mulino, 2025 pp. 224, ISBN 978-88-15-39320-3, € 22 (a stampa) ed € 14,99 (e-book).
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.