Linguaggio e scrittura

venerdì 2 gennaio 2026

Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative

Copertina del libro Amministrazione attiva

Nel maggio del 2024 sono stato a Campobasso per un convegno sull’Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa. Il convegno è stato molto interessante e ha mostrato anche in modo tangibile quanto le intelligenze artificiali generative siano oggi al centro dell’interesse di chi lavora sulla scrittura amministrativa. Un volume che include molti contributi dei partecipanti al convegno è uscito qualche mese fa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, e permette di quantificare: su circa 350 pagine di testo, esclusi indici e introduzione, circa 120 sono dedicate a esperienze che coinvolgono le intelligenze artificiali generative.

Rientra nel gruppo anche il mio contributo dedicato a Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative. Le esperienze presentate sono state illustrate da altre angolazioni in una sintesi scritta da Giuliana Fiorentino e da me e in un confronto tra metodi di valutazione scritto da Mariachiara Pascucci e da me. Tuttavia, in questa ultima pubblicazione si forniscono molti approfondimenti relativi alla domanda di base: le intelligenze artificiali generative riescono a migliorare la chiarezza dei testi? La risposta è sostanzialmente positiva, con alcune precisazioni.

Dal punto di vista metodologico, ho scelto di adottare la valutazione cosiddetta intrinseca eseguita da valutatori umani. In pratica, si forniscono i testi a valutatori umani che dicono quanto il lavoro è stato fatto bene (ed è importante che i valutatori abbiano le competenze necessarie a svolgere questa attività). Nessun sistema automatico di valutazione oggi è in grado di fare meglio di così!

I testi di partenza sono stati otto documenti di carattere informativo-amministrativo (in particolare, linee guida ministeriali), selezionati perché privi di valore giuridico vincolante ma rappresentativi delle difficoltà tipiche della comunicazione istituzionale. Ogni testo è stato riformulato sia da ChatGPT, utilizzando due prompt diversi mirati a migliorare la chiarezza senza perdere informazioni, sia da un intervento umano condotto secondo criteri consolidati nella letteratura sulla scrittura chiara.

Per rendere la valutazione più specifica, ho poi scomposto il giudizio in cinque ambiti distinti: correttezza delle informazioni, correttezza linguistica, chiarezza complessiva, livello di miglioramento rispetto all’originale e conservazione delle informazioni. I valutatori, studenti universitari con una buona formazione linguistica e specificamente preparati al compito, hanno assegnato per ogni ambito punteggi su una scala da 1 a 5, lavorando in modo indipendente e senza sapere se i testi valutati fossero stati prodotti da un essere umano o da un sistema automatico.

I risultati mostrano che le riformulazioni prodotte da ChatGPT raggiungono nel complesso un livello paragonabile a quello umano. Su 40 confronti diretti tra riformulazioni umane e automatiche (cioè, i punteggi ottenuti dagli 8 testi per 5 ambiti), ChatGPT ottiene un punteggio superiore rispetto alle riformulazioni umane in 14 casi e identico in altri 2. Tenuto conto dei due confronti in cui il punteggio è identico, la parità si sarebbe prodotta a 19: il livello attuale non è lontano dal traguardo!

In particolare, le prestazioni di ChatGPT sono risultate molto buone per quanto riguarda la chiarezza complessiva e la conservazione delle informazioni, ambiti nei quali le riformulazioni automatiche sono state valutate allo stesso livello di quelle umane. ChatGPT ha ricevuto invece punteggi peggiori nella correttezza linguistica e nel livello di miglioramento. È però importante notare che, nella maggior parte dei casi, gli scarti di punteggio sono contenuti.

Un limite significativo dell’indagine riguarda il basso accordo statistico tra i valutatori, misurato tramite l’α di Krippendorff, che non raggiunge la soglia di sufficienza. Questo risultato conferma quanto la valutazione del miglioramento della chiarezza sia un compito intrinsecamente complesso e spinge a perfezionare le procedure di valutazione.

I dati ottenuti giustificano senz’altro un cauto ottimismo sul piano applicativo. Sistemi come ChatGPT sembrano già oggi utilizzabili come strumenti di supporto nei processi redazionali orientati alla chiarezza, a condizione che siano inseriti in flussi di lavoro ben controllati da revisori umani competenti.

Al tempo stesso, però, ribadirei un punto forse ancora più importante: lavorare su questi temi è un’occasione preziosa per riflettere più in generale sui criteri con cui valutiamo i processi di miglioramento della chiarezza, indipendentemente dal fatto che il testo sia prodotto da esseri umani o da sistemi artificiali.

Mirko Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative, in Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, pp. 103-118.

venerdì 26 dicembre 2025

Zevin, Tomorrow and Tomorrow and Tomorrow

Una lettura interessante di questa estate: Tomorrow and Tomorrow and Tomorrow di Gabrielle Zevin, ambientato nel mondo dei giovani sviluppatori di videogiochi degli anni Novanta.

Il libro rappresenta una lettura insolita per me, da diversi punti di vista. I suoi protagonisti appartengono a una generazione successiva alla mia e si ricollega a vicende che ho conosciuto dall’esterno senza esserne troppo influenzato. Parla poi dei problemi delle persone di grande successo… e questa è una cosa con cui non riesco, strutturalmente, a entrare in sintonia! E include anche diversi classici espedienti da romanzo, dall’incidente stradale all’assassinio (che mi hanno fatto tornare in mente episodi vagamente paragonabili della popolare serie televisiva Grey’s Anatomy.

Al centro di tutto ci sono le relazioni affettive tra tre (o quattro) personaggi principali. Le questioni tecniche e pratiche collegati ai videogiochi rimangono al margine – l’ambiente viene descritto come se fosse più vicino a quello dell’artigianato artistico che all’industria globale. Però ho letto tutto al al volo, con la curiosità di sapere che cosa sarebbe successo!

Gabrielle Zevin, Tomorrow and Tomorrow and Tomorrow, Vintage, 2023, pp. 482, ISBN 978-1-529-11554-3, ricevuto per graditissimo regalo.

lunedì 13 ottobre 2025

Tavosanis, L’italiano sulla via dell’India

È appena uscito il mio nuovo libro, L’italiano sulla via dell’India! Pubblicato dal Mulino, è disponibile attraverso il sito dell’editore e sui normali canali di vendita, sia come testo a stampa sia come e-book.

L’argomento del libro può sembrare strano: l’uso dell’italiano in Asia nel Seicento, visto in particolare attraverso le testimonianze dei viaggiatori dell’epoca. Dico che può sembrare strano perché (come argomento più in dettaglio appunto nelle sezioni introduttive del libro) mi sembra che in Italia, da un lato, siano ancora diffusi i luoghi comuni sulla scarsa rilevanza internazionale dell’italiano, ora e in passato; e dall’altro, che ci sia un interesse sorprendentemente ridotto nei confronti dell’Asia. A me, invece, sembrano ci siano ottimi motivi per interessarsi tanto della lingua italiana quanto di quella vasta regione del mondo.

Sintetizzerò al massimo la tesi del volume: per tutto il Seicento, l’italiano era la lingua europea di gran lunga più nota, usata e insegnata in una vasta area che va dalle coste del Mediterraneo fino a quelle del Golfo Persico (con qualche propaggine fino in India). In termini moderni, si tratta della Siria, dell’Iraq e della Persia, cioè i paesi attraversati dai viaggiatori che per un motivo o per l’altro si recavano in India per via di terra.

La lingua italiana, naturalmente, era usata dai viaggiatori italiani… ma, soprattutto, anche da persone di tutt’altra origine, a cominciare dai mercanti e dai viaggiatori di altri paesi europei, che spesso se ne servivano anche tra di loro, in assenza di italiani. La usavano poi, in particolare, moltissimi mercanti e religiosi armeni, mediatori essenziali tra Asia ed Europa. E a volte, l’uso si collegava a un insegnamento formale e abbastanza stabile. Le testimonianze menzionano in effetti almeno tre scuole in cui nel corso del Seicento l’insegnamento dell’italiano ebbe una certa stabilità, a opera di religiosi francesi: ad Aleppo, a Baghdad e a Isfahan in Persia.

Che l’italiano fosse una lingua usata anche in assenza di italiani non è una novità assoluta. Diversi studi recenti hanno iniziato a chiarire il ruolo dell’italiano come lingua franca lungo le coste del Mediterraneo; il mio contributo si rivolge però all’interno, e a un’area geografica ancora poco esplorata in quest’ottica. Inoltre, le testimonianze dei viaggiatori presentano aspetti dell’uso reale su cui le fonti d’informazione più impiegate, cioè i documenti d’archivio, per quanto rilevanti, non possono dire molto.

Alle questioni generali si affianca poi la presentazione di una serie di viaggiatori, ognuno con le proprie particolarità e idiosincrasie, da prendere in esame per valutare le testimonianze. Lato italiano, si tratta di nobiluomini come Pietro Della Valle o Ambrogio Bembo, di religiosi come Giuseppe Sebastiani o Antonio Murchio, e di personaggi di minor rilievo sociale come Angelo Legrenzi e Niccolò Manucci. Ma anche lato francese, come vedrà il lettore, non mancano personaggi interessanti.

I casi raccontati sono di tipo assai diverso. Si va dalle prediche durante la messa (in Terrasanta e a Isfahan) fino alle battute durante ai banchetti, e dalle lezioni di italiano nel deserto alle presentazioni trionfali in India. Il quadro che ne emerge mi sembra però molto coerente: quello di una lingua che nel Seicento godeva di elevatissimo prestigio e uso comune presso alcune nazionalità. Per il resto, saranno i lettori a fornire il giudizio…

Mirko Tavosanis, L’italiano sulla via dell’India, Bologna, il Mulino, 2025 pp. 224, ISBN 978-88-15-39320-3, € 22 (a stampa) ed € 14,99 (e-book).

venerdì 10 ottobre 2025

ChatGPT è ancora scarso, come poeta... ma dipende!

Robot poeta a Livorno: immagine generata da ChatGPT-5

Dicevo ad agosto che anche ChatGPT-5 non sembra in grado di scrivere in modo affidabile sonetti perfettamente regolari in lingua italiana: nei prodotti che ho visto c’è sempre almeno una rima che non torna o un verso con un numero sbagliato di sillabe. Certo, visto che i sonetti generati in questo modo si avvicinano abbastanza alla correttezza, generandone un numero sufficiente è probabile che prima o poi, per caso, ne venga prodotto anche uno che non contiene errori. Però, questa vicinanza alla correttezza mette in luce anche la peculiare stranezza (dal punto di vista umano) del fenomeno: se il sistema riesce a generare tredici versi con il corretto numero di sillabe, perché sbaglia il quattordicesimo? Io non ho spiegazioni al di là del notare che un comportamento del genere sembra collegabile alla natura statistica del procedimento generativo…

Comunque, le cose vanno assai meglio quando si chiede a ChatGPT di scrivere testi poetici che non devono rispettare vincoli formali precisi. Per esempio, poesie in versi liberi. A quel punto non è più questione di metrica e si entra nelle valutazioni umane sulla qualità del prodotto.

Un parere diffuso, e del tutto ragionevole, è che le poesie generate in questo modo siano comunque scarsine. Ripetitive, piene di banalità e luoghi comuni, con scelte non all’altezza. Alcuni lettori dichiarano che la natura generata di un testo “si vede subito”. Ma è davvero così? Davvero il lettore cui viene sottoposta, per esempio, una mescolanza di poesie umane e poesie generate, senza indicazione esplicita della fonte, è in grado di distinguere?

Al polo opposto, ho parlato di un tentativo tanto famoso quanto metodologicamente carente di controllare i giudizi umani sulle poesie generate. Quel tentativo arrivava alla conclusione che gli esseri umani preferivano le poesie di ChatGPT a quelle scritte di autori famosi; io ho cercato di spiegare i motivi per cui, realizzata nel modo proposto, la valutazione suggeriva qualcosa di molto diverso.

Negli ultimi anni, in effetti, due studenti dei miei corsi per l’Università di Pisa hanno fatto valutazioni simili in modi che mi sembrano assai più soddisfacenti dal punto di vista metodologico rispetto a quelli adottati dal famoso articolo. In pratica, il principio base è quello (che dovrebbe essere ovvio) per cui non si chiede ai valutatori di valutare testi completamente diversi tra di loro, ma di valutare testi quanto più simili possibile: alcuni umani, alcuni generati.

Dati i limiti di ChatGPT nella generazione di poesie che rispettino i vincoli della tradizione metrica italiana, in entrambi i casi è stato necessario prendere come oggetto la metrica libera, e cioè in sostanza autori del Novecento. La dottoressa Sara Palazzi ha quindi preso in esame poesie di Ungaretti, il dottor Gabriele Fabrizi poesie di Caproni (entrambe le valutazioni sono state condotte con ChatGPT-4.5).

Cruciale nel contesto è stata la scelta dei valutatori. L’apprezzamento della letteratura si lega infatti alla cultura: una persona che conoscesse la lingua italiana ma non avesse familiarità con il concetto di “poesia” in nessuna lingua troverebbe senz’altro strane opere come le poesie di Montale (per non parlare delle differenze tra gli Ossi di seppia e Satura…). Per esprimersi con cognizione di causa sulle poesie, i valutatori quindi devono avere un buon livello di familiarità con la poesia italiana del Novecento e delle sue modalità espressive. Al tempo stesso, se si fa un confronto su Ungaretti e Caproni, è bene non coinvolgere esperti che per esempio siano in grado di dire se una poesia è o no di Caproni perché, semplicemente, le conoscono già tutte.

In modo del tutto ragionevole, per entrambe le esperienze descritte sono stati dunque scelti valutatori con competenze adeguate ma non esaustive. A questi valutatori sono poi state sottoposte poesie relativamente brevi, in parte originali, in parte generate da ChatGPT “nello stile” dei poeti interessati, per generazione diretta o rielaborazione. Per esempio, per Ungaretti una coppia è stata questa:

Originale di Ungaretti: In galleria

Un occhio di stelle
ci spia da quello stagno
e filtra la sua benedizione ghiacciata
su quest’acquario
di sonnambula noia.

ChatGPT: Lucciole

Nella notte grigia e muta,
Lucciole accese,
come lumi spenti
nel cuore che langue.

I risultati sono stati molto interessanti. Nel caso di Ungaretti, per esempio, sono stati scelti come valutatori dieci studenti di corsi di studio dell’area umanistica dell’Università di Pisa e la valutazione è stata eseguita su tre coppie di poesie. Il compito consisteva nell’individuare, tra due poesie, quale era stata scritta da Ungaretti e quale da ChatGPT. In due casi su tre (tra cui quello della coppia riportata qui sopra) i valutatori si sono divisi al 50%: non sono stati in grado, insomma, di distinguere in modo affidabile tra testi originali e testi generate. Nel terzo caso, invece, 9 valutatori su 10 hanno correttamente distinto tra testo originale e testo generato.

In modo un po’ diverso sono andate le cose per Caproni, in un lavoro che ha potuto basarsi su quello fatto nella relazione precedente. Qui le poesie prese in esame erano innanzitutto più lunghe. Per esempio, è stata presa questa coppia:

Originale di Caproni: Preghiera

Anima mia leggera,
va’ a Livorno, ti prego.
E con la tua candela
timida, di nottetempo
fa’ un giro; e, se n’hai il tempo,
perlustra e scruta, e scrivi
se per caso Anna Picchi
è ancora viva tra i vivi.

Proprio quest’oggi torno,
deluso, da Livorno.
Ma tu, tanto più netta
di me, la camicetta
ricorderai, e il rubino
di sangue, sul serpentino
d’oro che lei portava
sul petto, dove s’appannava.

Anima mia, sii brava
e va’ in cerca di lei.
Tu sai cosa darei
se la incontrassi per strada.

ChatGPT: Lettera alla sera

Anima mia gentile,
torna laggiù, dove la luce s’abbassa.
Cammina piano, per favore —
non svegliare il ricordo.
Guarda se c’è ancora,
sul muro scrostato del porto,
quel segno che tracciammo
col gesso, da ragazzi.
E cerca lei,
la donna che rideva a fatica,
con la sciarpa a righe
e l’ombra negli occhi.
Dimmi se è rimasta
o se il vento l’ha portata
oltre il viale,
dietro il fanale spento.
Io, oggi,
me ne sono andato
senza trovarla.

In questo caso i valutatori sono stati studenti o laureati del corso di studio magistrale in Italianistica dell’Università di Pisa. Le coppie di poesie sono state tre, come nella prova precedente, ma qui in tutti i casi una maggioranza di valutatori ha riconosciuto ChatGPT (con percentuali che variano tra il 72 e l’81%).

Naturalmente, ci sarebbe molto altro da dire su queste relazioni e sul dettaglio di ciò che è stato necessario fare per generare i testi e costruire la valutazione. Entrambi i lavori poi hanno punti di forza che qui si possono indicare solo sinteticamente: il primo è stato pionieristico, il secondo è stato portato avanti con un prompting sofisticato. Il metodo, naturalmente, deve ancora essere messo a fuoco in tanti aspetti. Ma non mi sembra inutile notare come relazioni scritte da studenti magistrali per superare un singolo esame, con un minimo di guida da parte del docente, superino senz’altro per correttezza metodologica studi di cui si è molto parlato perfino a livello internazionale. Ho già detto che io (apparentemente in ristretta compagnia) ho un’elevata considerazione delle capacità degli studenti italiani? Beh, se non l’ho già detto, lo dico adesso!

Certo, da due prove circoscritte, anche se metodologicamente corrette, non si possono ricavare conclusioni generali: il linguaggio umano e la poesia sono oggetti troppo variati ed eterogenei. Ma senz’altro si può indicare una direzione che è anche di buon senso. Cioè, in alcuni casi, per testi semplici e senza schemi metrici rigorosi, ChatGPT può anche scrivere cose che i valutatori non riescono sempre a distinguere da produzioni umane. Quando però il testo si fa anche solo leggermente più complesso, i limiti dei testi generati sono più evidenti.

Al di là di esagerazioni come quelle del contributo citato (“Gli esseri umani preferiscono le poesie di ChatGPT”) o della sicumera di molte dichiarazioni “umanistiche” (“Ah, io lo capisco al volo, quando un testo è di ChatGPT: è senz’anima…!”), la situazione che emerge quando il confronto è ben condotto è dunque interessante. Le caratteristiche del testo generato sono più evidenti in alcuni casi, meno percepibili in altri; la competenza del valutatore è essenziale ma non sempre dirimente. Definire in modo più esatto questo quadro è oggi interessantissimo, e rappresenta secondo me una sfida reale e importante per gli addetti ai lavori.

mercoledì 24 settembre 2025

In questi giorni parteciperò a Padova al convegno Bembo 500 - Cinquecento anni di Prose, che si preannuncia interessantissimo. Io parlerò domani; i lavori si possono seguire in streaming qui: https://unipd.zoom.us/j/85824402245