Linguaggio e scrittura

lunedì 13 ottobre 2025

Tavosanis, L’italiano sulla via dell’India

È appena uscito il mio nuovo libro, L’italiano sulla via dell’India! Pubblicato dal Mulino, è disponibile attraverso il sito dell’editore e sui normali canali di vendita, sia come testo a stampa sia come e-book.

L’argomento del libro può sembrare strano: l’uso dell’italiano in Asia nel Seicento, visto in particolare attraverso le testimonianze dei viaggiatori dell’epoca. Dico che può sembrare strano perché (come argomento più in dettaglio appunto nelle sezioni introduttive del libro) mi sembra che in Italia, da un lato, siano ancora diffusi i luoghi comuni sulla scarsa rilevanza internazionale dell’italiano, ora e in passato; e dall’altro, che ci sia un interesse sorprendentemente ridotto nei confronti dell’Asia. A me, invece, sembrano ci siano ottimi motivi per interessarsi tanto della lingua italiana quanto di quella vasta regione del mondo.

Sintetizzerò al massimo la tesi del volume: per tutto il Seicento, l’italiano era la lingua europea di gran lunga più nota, usata e insegnata in una vasta area che va dalle coste del Mediterraneo fino a quelle del Golfo Persico (con qualche propaggine fino in India). In termini moderni, si tratta della Siria, dell’Iraq e della Persia, cioè i paesi attraversati dai viaggiatori che per un motivo o per l’altro si recavano in India per via di terra.

La lingua italiana, naturalmente, era usata dai viaggiatori italiani… ma, soprattutto, anche da persone di tutt’altra origine, a cominciare dai mercanti e dai viaggiatori di altri paesi europei, che spesso se ne servivano anche tra di loro, in assenza di italiani. La usavano poi, in particolare, moltissimi mercanti e religiosi armeni, mediatori essenziali tra Asia ed Europa. E a volte, l’uso si collegava a un insegnamento formale e abbastanza stabile. Le testimonianze menzionano in effetti almeno tre scuole in cui nel corso del Seicento l’insegnamento dell’italiano ebbe una certa stabilità, a opera di religiosi francesi: ad Aleppo, a Baghdad e a Isfahan in Persia.

Che l’italiano fosse una lingua usata anche in assenza di italiani non è una novità assoluta. Diversi studi recenti hanno iniziato a chiarire il ruolo dell’italiano come lingua franca lungo le coste del Mediterraneo; il mio contributo si rivolge però all’interno, e a un’area geografica ancora poco esplorata in quest’ottica. Inoltre, le testimonianze dei viaggiatori presentano aspetti dell’uso reale su cui le fonti d’informazione più impiegate, cioè i documenti d’archivio, per quanto rilevanti, non possono dire molto.

Alle questioni generali si affianca poi la presentazione di una serie di viaggiatori, ognuno con le proprie particolarità e idiosincrasie, da prendere in esame per valutare le testimonianze. Lato italiano, si tratta di nobiluomini come Pietro Della Valle o Ambrogio Bembo, di religiosi come Giuseppe Sebastiani o Antonio Murchio, e di personaggi di minor rilievo sociale come Angelo Legrenzi e Niccolò Manucci. Ma anche lato francese, come vedrà il lettore, non mancano personaggi interessanti.

I casi raccontati sono di tipo assai diverso. Si va dalle prediche durante la messa (in Terrasanta e a Isfahan) fino alle battute durante ai banchetti, e dalle lezioni di italiano nel deserto alle presentazioni trionfali in India. Il quadro che ne emerge mi sembra però molto coerente: quello di una lingua che nel Seicento godeva di elevatissimo prestigio e uso comune presso alcune nazionalità. Per il resto, saranno i lettori a fornire il giudizio…

Mirko Tavosanis, L’italiano sulla via dell’India, Bologna, il Mulino, 2025 pp. 224, ISBN 978-88-15-39320-3, € 22 (a stampa) ed € 14,99 (e-book).

venerdì 10 ottobre 2025

ChatGPT è ancora scarso, come poeta... ma dipende!

Robot poeta a Livorno: immagine generata da ChatGPT-5

Dicevo ad agosto che anche ChatGPT-5 non sembra in grado di scrivere in modo affidabile sonetti perfettamente regolari in lingua italiana: nei prodotti che ho visto c’è sempre almeno una rima che non torna o un verso con un numero sbagliato di sillabe. Certo, visto che i sonetti generati in questo modo si avvicinano abbastanza alla correttezza, generandone un numero sufficiente è probabile che prima o poi, per caso, ne venga prodotto anche uno che non contiene errori. Però, questa vicinanza alla correttezza mette in luce anche la peculiare stranezza (dal punto di vista umano) del fenomeno: se il sistema riesce a generare tredici versi con il corretto numero di sillabe, perché sbaglia il quattordicesimo? Io non ho spiegazioni al di là del notare che un comportamento del genere sembra collegabile alla natura statistica del procedimento generativo…

Comunque, le cose vanno assai meglio quando si chiede a ChatGPT di scrivere testi poetici che non devono rispettare vincoli formali precisi. Per esempio, poesie in versi liberi. A quel punto non è più questione di metrica e si entra nelle valutazioni umane sulla qualità del prodotto.

Un parere diffuso, e del tutto ragionevole, è che le poesie generate in questo modo siano comunque scarsine. Ripetitive, piene di banalità e luoghi comuni, con scelte non all’altezza. Alcuni lettori dichiarano che la natura generata di un testo “si vede subito”. Ma è davvero così? Davvero il lettore cui viene sottoposta, per esempio, una mescolanza di poesie umane e poesie generate, senza indicazione esplicita della fonte, è in grado di distinguere?

Al polo opposto, ho parlato di un tentativo tanto famoso quanto metodologicamente carente di controllare i giudizi umani sulle poesie generate. Quel tentativo arrivava alla conclusione che gli esseri umani preferivano le poesie di ChatGPT a quelle scritte di autori famosi; io ho cercato di spiegare i motivi per cui, realizzata nel modo proposto, la valutazione suggeriva qualcosa di molto diverso.

Negli ultimi anni, in effetti, due studenti dei miei corsi per l’Università di Pisa hanno fatto valutazioni simili in modi che mi sembrano assai più soddisfacenti dal punto di vista metodologico rispetto a quelli adottati dal famoso articolo. In pratica, il principio base è quello (che dovrebbe essere ovvio) per cui non si chiede ai valutatori di valutare testi completamente diversi tra di loro, ma di valutare testi quanto più simili possibile: alcuni umani, alcuni generati.

Dati i limiti di ChatGPT nella generazione di poesie che rispettino i vincoli della tradizione metrica italiana, in entrambi i casi è stato necessario prendere come oggetto la metrica libera, e cioè in sostanza autori del Novecento. La dottoressa Sara Palazzi ha quindi preso in esame poesie di Ungaretti, il dottor Gabriele Fabrizi poesie di Caproni (entrambe le valutazioni sono state condotte con ChatGPT-4.5).

Cruciale nel contesto è stata la scelta dei valutatori. L’apprezzamento della letteratura si lega infatti alla cultura: una persona che conoscesse la lingua italiana ma non avesse familiarità con il concetto di “poesia” in nessuna lingua troverebbe senz’altro strane opere come le poesie di Montale (per non parlare delle differenze tra gli Ossi di seppia e Satura…). Per esprimersi con cognizione di causa sulle poesie, i valutatori quindi devono avere un buon livello di familiarità con la poesia italiana del Novecento e delle sue modalità espressive. Al tempo stesso, se si fa un confronto su Ungaretti e Caproni, è bene non coinvolgere esperti che per esempio siano in grado di dire se una poesia è o no di Caproni perché, semplicemente, le conoscono già tutte.

In modo del tutto ragionevole, per entrambe le esperienze descritte sono stati dunque scelti valutatori con competenze adeguate ma non esaustive. A questi valutatori sono poi state sottoposte poesie relativamente brevi, in parte originali, in parte generate da ChatGPT “nello stile” dei poeti interessati, per generazione diretta o rielaborazione. Per esempio, per Ungaretti una coppia è stata questa:

Originale di Ungaretti: In galleria

Un occhio di stelle
ci spia da quello stagno
e filtra la sua benedizione ghiacciata
su quest’acquario
di sonnambula noia.

ChatGPT: Lucciole

Nella notte grigia e muta,
Lucciole accese,
come lumi spenti
nel cuore che langue.

I risultati sono stati molto interessanti. Nel caso di Ungaretti, per esempio, sono stati scelti come valutatori dieci studenti di corsi di studio dell’area umanistica dell’Università di Pisa e la valutazione è stata eseguita su tre coppie di poesie. Il compito consisteva nell’individuare, tra due poesie, quale era stata scritta da Ungaretti e quale da ChatGPT. In due casi su tre (tra cui quello della coppia riportata qui sopra) i valutatori si sono divisi al 50%: non sono stati in grado, insomma, di distinguere in modo affidabile tra testi originali e testi generate. Nel terzo caso, invece, 9 valutatori su 10 hanno correttamente distinto tra testo originale e testo generato.

In modo un po’ diverso sono andate le cose per Caproni, in un lavoro che ha potuto basarsi su quello fatto nella relazione precedente. Qui le poesie prese in esame erano innanzitutto più lunghe. Per esempio, è stata presa questa coppia:

Originale di Caproni: Preghiera

Anima mia leggera,
va’ a Livorno, ti prego.
E con la tua candela
timida, di nottetempo
fa’ un giro; e, se n’hai il tempo,
perlustra e scruta, e scrivi
se per caso Anna Picchi
è ancora viva tra i vivi.

Proprio quest’oggi torno,
deluso, da Livorno.
Ma tu, tanto più netta
di me, la camicetta
ricorderai, e il rubino
di sangue, sul serpentino
d’oro che lei portava
sul petto, dove s’appannava.

Anima mia, sii brava
e va’ in cerca di lei.
Tu sai cosa darei
se la incontrassi per strada.

ChatGPT: Lettera alla sera

Anima mia gentile,
torna laggiù, dove la luce s’abbassa.
Cammina piano, per favore —
non svegliare il ricordo.
Guarda se c’è ancora,
sul muro scrostato del porto,
quel segno che tracciammo
col gesso, da ragazzi.
E cerca lei,
la donna che rideva a fatica,
con la sciarpa a righe
e l’ombra negli occhi.
Dimmi se è rimasta
o se il vento l’ha portata
oltre il viale,
dietro il fanale spento.
Io, oggi,
me ne sono andato
senza trovarla.

In questo caso i valutatori sono stati studenti o laureati del corso di studio magistrale in Italianistica dell’Università di Pisa. Le coppie di poesie sono state tre, come nella prova precedente, ma qui in tutti i casi una maggioranza di valutatori ha riconosciuto ChatGPT (con percentuali che variano tra il 72 e l’81%).

Naturalmente, ci sarebbe molto altro da dire su queste relazioni e sul dettaglio di ciò che è stato necessario fare per generare i testi e costruire la valutazione. Entrambi i lavori poi hanno punti di forza che qui si possono indicare solo sinteticamente: il primo è stato pionieristico, il secondo è stato portato avanti con un prompting sofisticato. Il metodo, naturalmente, deve ancora essere messo a fuoco in tanti aspetti. Ma non mi sembra inutile notare come relazioni scritte da studenti magistrali per superare un singolo esame, con un minimo di guida da parte del docente, superino senz’altro per correttezza metodologica studi di cui si è molto parlato perfino a livello internazionale. Ho già detto che io (apparentemente in ristretta compagnia) ho un’elevata considerazione delle capacità degli studenti italiani? Beh, se non l’ho già detto, lo dico adesso!

Certo, da due prove circoscritte, anche se metodologicamente corrette, non si possono ricavare conclusioni generali: il linguaggio umano e la poesia sono oggetti troppo variati ed eterogenei. Ma senz’altro si può indicare una direzione che è anche di buon senso. Cioè, in alcuni casi, per testi semplici e senza schemi metrici rigorosi, ChatGPT può anche scrivere cose che i valutatori non riescono sempre a distinguere da produzioni umane. Quando però il testo si fa anche solo leggermente più complesso, i limiti dei testi generati sono più evidenti.

Al di là di esagerazioni come quelle del contributo citato (“Gli esseri umani preferiscono le poesie di ChatGPT”) o della sicumera di molte dichiarazioni “umanistiche” (“Ah, io lo capisco al volo, quando un testo è di ChatGPT: è senz’anima…!”), la situazione che emerge quando il confronto è ben condotto è dunque interessante. Le caratteristiche del testo generato sono più evidenti in alcuni casi, meno percepibili in altri; la competenza del valutatore è essenziale ma non sempre dirimente. Definire in modo più esatto questo quadro è oggi interessantissimo, e rappresenta secondo me una sfida reale e importante per gli addetti ai lavori.

mercoledì 24 settembre 2025

In questi giorni parteciperò a Padova al convegno Bembo 500 - Cinquecento anni di Prose, che si preannuncia interessantissimo. Io parlerò domani; i lavori si possono seguire in streaming qui: https://unipd.zoom.us/j/85824402245

venerdì 5 settembre 2025

Di nuovo a Dresda per AI-ROM

Sono di nuovo a Dresda: il convegno AI-ROM è arrivato alla III edizione, e si conferma un importante punto di riferimento per chi sia interessato alle intelligenze artificiali generative.

Il convegno si tiene il 4 e il 5 settembre 2025. Io terrò oggi pomeriggio un intervento dedicato a Gli errori grammaticali degli LLM: diversità tra sistemi e caratteristiche generali, in cui metto a confronto ChatGPT-4o, Minerva LLM e DeepSeek. Tuttavia, gli interventi interessanti sono moltissimi!

Quest’anno il convegno ha ampliato la propria copertura, inserendo, oltre alle lingue romanze, anche quelle germaniche (l’anno scorso in pratica tutti gli interventi erano stati dedicati all’italiano). Per chi è in tempo, gli interventi possono essere seguiti anche online, previa registrazione!

venerdì 22 agosto 2025

Come non valutare la poesia di ChatGPT

Come scrivevo l’altro ieri, ChatGPT semplicemente non riesce a scrivere sonetti corretti in italiano (anche se si avvicina molto al risultato). Un conto è però la correttezza formale, per esempio dal punto di vista metrico; un altro conto la qualità. ChatGPT sa scrivere poesie di buon livello, anche se magari è meglio che si astenga da forme metriche tradizionali?

La risposta a questa domanda è per forza di cose più complessa, rispetto a questioni sull’accettabilità o meno di uno schema di rime. La qualità di una poesia è senz’altro connessa a questioni linguistiche e metriche, ma non si esaurisce in esse. Né, purtroppo o per fortuna, al momento abbiamo strumenti di misurazione oggettiva per la qualità poetica. L’impressione generale è comunque che le poesie di ChatGPT (così come le opere narrative) siano di scarsa qualità, prive di elementi che le rendono interessanti o memorabili.

Vale però la pena notare che c’è stato un tentativo ben noto di misurare la qualità delle poesie generate da ChatGPT in lingua inglese. I risultati di questo lavoro sono stati sintetizzati nel titolo di un contributo di Brian Porter ed Edouard Machery: AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably. Il contributo è stato pubblicato il 14 novembre 2024 negli “Scientific Reports” di “Nature” (!) e, secondo Google Scholar, al momento ha ricevuto 76 citazioni; soprattutto, ha avuto una discreta risonanza anche al di fuori del circuito specialistico.

Nonostante il successo, però, il contributo è metodologicamente disastroso e non dimostra affatto ciò che il titolo suggerisce. Certo, include tanti numeri e tante valutazioni di significatività fatte con chi quadro; secondo le parole degli autori nell’abstract:

We conducted two experiments with non-expert poetry readers and found that participants performed below chance levels in identifying AI-generated poems (46.6% accuracy, χ2(1, N = 16,340) = 75.13, p < 0.0001). Notably, participants were more likely to judge AI-generated poems as human-authored than actual human-authored poems (χ2(2, N = 16,340) = 247.04, p < 0.0001).

Naturalmente, però, i numeri non bastano né possono bastare a correggere i difetti a monte. Il primo punto è che, come per fortuna notano gli autori stessi, il titolo è molto ingannevole e, per cominciare, incompleto: a non riuscire a distinguere le poesie umane da quelle artificiali sono specificamente i “non esperti”. Quanto esperti sono i non esperti? I valutatori sono stati reclutati con il crowdsourcing (e su questa forma di valutazione, per faccende linguistiche, ho già avuto occasione di esprimere le mie riserve); quasi tutti hanno dichiarato di avere l’inglese come madrelingua e in maggioranza (55,8%) si sono rivelati persone “not very familiar with poetry”.

Questo pubblico potrebbe anche essere interessante, ma i valutatori fanno una scelta disastrosa. Scelgono infatti alcune poesie a caso nella storia della letteratura inglese selezionando 10 autori, fanno generare a ChatGPT poesie “nello stile” degli autori selezionati e poi sottopongono al pubblico 5 poesie originali e 5 poesie artificiali. Come risultato, buona parte delle poesie umane selezionate risulta in pratica incomprensibile, anche dal punto di vista linguistico, per un pubblico non esperto. Le poesie originali sono infatti di Chaucher, Shakespeare, Emily Dickinson, T. S. Eliot e Dorothea Lasky; come esempio può essere sufficiente la poesia di Eliot:

I observe: "Our sentimental friend the moon!
Or possibly (fantastic, I confess)
It may be Prester John’s balloon
Or an old battered lantern hung aloft
To light poor travellers to their distress."
She then: "How you digress!"

And I then: "Some one frames upon the keys
That exquisite nocturne, with which we explain
The night and moonshine; music which we seize
To body forth our own vacuity."
She then: "Does this refer to me?"
"Oh no, it is I who am inane."

"You, madam, are the eternal humorist,
The eternal enemy of the absolute,
Giving our vagrant moods the slightest twist!
With your aid indifferent and imperious
At a stroke our mad poetics to confute—"
And—"Are we then so serious?"

Un esperto di poesia modernista riesce senz’altro a decifrarla; ma un parlante inglese di medio livello che cosa può intendere a una rapida lettura di “Some one frames upon the keys / That exquisite nocturne, with which we explain / The night and moonshine; music which we seize / To body forth our own vacuity”? Quanti, per esempio, sanno o possono intuire al volo che un nocturne è un tipo di composizione musicale, informazione essenziale per comprendere il passo?

Per confronto, una poesia generata da ChatGPT “nello stile di lord Byron” è una simpatica filastrocca, dove forse l’unica difficoltà è costituita da doth per does:

She walks the earth with grace and pride,
A beauty that cannot be denied,
With eyes that shine like stars above,
And lips that speak of endless love.

But though she wears a smile so sweet,
A broken heart doth lie beneath,
For in her chest a pain doth beat,
A love unrequited, without relief.

And so she walks with heavy heart,
A figure haunting in the dark,
For love, the sweetest of all art,
Can also leave a painful mark.

Gli autori si rendono conto del problema, ma lo interpretano come una questione di differenze strutturali e connaturate:

because AI-generated poems do not have such complexity [as human poems], they are better at unambiguously communicating an image, a mood, an emotion, or a theme to non-expert readers of poetry, who may not have the time or interest for the in-depth analysis demanded by the poetry of human poets (p. 9).

In realtà, ovviamente, molte poesie umane comunicano senza problemi immagini ed emozioni anche al lettore inesperto! E d’altra parte ChatGPT può generare poesie complesse e che comunicano in modo ambiguo (quanto sia in grado di farlo può essere discutibile, ma semplici prompt bastano a ottenere risultati abbastanza interessanti). La differenza dunque, verosimilmente, non è strutturale, ma è relativa alle poesie che sono state scelte, cioè al fatto di aver inserito da un lato poesie umane complesse, appartenenti a tradizioni che privilegiano una scrittura complessa o comunque difficili per ragioni di altro tipo, e dall’altro poesie artificiali generate senza lo stesso vincolo.

Il titolo del contributo dovrebbe essere quindi riformulato più o meno così: “un pubblico che in media ha poca familiarità con la poesia non è in grado di distinguere tra semplici poesie generate da ChatGPT e poesie difficili scritte da esseri umani e assegna giudizi più favorevoli a semplici poesie generate con ChatGPT che a poesie difficili scritte da esseri umani”. Sintetizzando correttamente i risultati in questi termini, è ovvio che la cosa non è molto sorprendente! È anche ovvio che il risultato dice qualcosa sulle preferenze di un pubblico di “non esperti”, ma assai poco sulle capacità dei sistemi.

Come dovrebbe quindi procedere una valutazione sensata dei sistemi? Di sicuro dovrebbe evitare che la differenza dipenda da scelte redazionali, e non dalla sostanza. Una tale valutazione dovrebbe dunque mettere a confronto, per esempio, poesie moderniste originali e poesie moderniste scritte da ChatGPT, facendole poi valutare a lettori con le necessarie competenze linguistiche e letterarie. Non dovrebbe invece mettere a confronto filastrocche e poesie moderniste, facendole valutare a un pubblico con moderate competenze.

Negli ultimi mesi, diversi miei studenti hanno provato a fare proprio questo. I risultati sono stati interessanti, e anche piuttosto sfumati… con un po’ di fortuna, spero di parlarne più avanti su questo blog.