venerdì 10 ottobre 2025

ChatGPT è ancora scarso, come poeta... ma dipende!

 
Robot poeta a Livorno: immagine generata da ChatGPT-5
Dicevo ad agosto che anche ChatGPT-5 non sembra in grado di scrivere in modo affidabile sonetti perfettamente regolari in lingua italiana: nei prodotti che ho visto c’è sempre almeno una rima che non torna o un verso con un numero sbagliato di sillabe. Certo, visto che i sonetti generati in questo modo si avvicinano abbastanza alla correttezza, generandone un numero sufficiente è probabile che prima o poi, per caso, ne venga prodotto anche uno che non contiene errori. Però, questa vicinanza alla correttezza mette in luce anche la peculiare stranezza (dal punto di vista umano) del fenomeno: se il sistema riesce a generare tredici versi con il corretto numero di sillabe, perché sbaglia il quattordicesimo? Io non ho spiegazioni al di là del notare che un comportamento del genere sembra collegabile alla natura statistica del procedimento generativo…
 
Comunque, le cose vanno assai meglio quando si chiede a ChatGPT di scrivere testi poetici che non devono rispettare vincoli formali precisi. Per esempio, poesie in versi liberi. A quel punto non è più questione di metrica e si entra nelle valutazioni umane sulla qualità del prodotto.
 
Un parere diffuso, e del tutto ragionevole, è che le poesie generate in questo modo siano comunque scarsine. Ripetitive, piene di banalità e luoghi comuni, con scelte non all’altezza. Alcuni lettori dichiarano che la natura generata di un testo “si vede subito”. Ma è davvero così? Davvero il lettore cui viene sottoposta, per esempio, una mescolanza di poesie umane e poesie generate, senza indicazione esplicita della fonte, è in grado di distinguere?
 
Al polo opposto, ho parlato di un tentativo tanto famoso quanto metodologicamente carente di controllare i giudizi umani sulle poesie generate. Quel tentativo arrivava alla conclusione che gli esseri umani preferivano le poesie di ChatGPT a quelle scritte di autori famosi; io ho cercato di spiegare i motivi per cui, realizzata nel modo proposto, la valutazione suggeriva qualcosa di molto diverso.
 
Negli ultimi anni, in effetti, due studenti dei miei corsi per l’Università di Pisa hanno fatto valutazioni simili in modi che mi sembrano assai più soddisfacenti dal punto di vista metodologico rispetto a quelli adottati dal famoso articolo. In pratica, il principio base è quello (che dovrebbe essere ovvio) per cui non si chiede ai valutatori di valutare testi completamente diversi tra di loro, ma di valutare testi quanto più simili possibile: alcuni umani, alcuni generati.
 
Dati i limiti di ChatGPT nella generazione di poesie che rispettino i vincoli della tradizione metrica italiana, in entrambi i casi è stato necessario prendere come oggetto la metrica libera, e cioè in sostanza autori del Novecento. La dottoressa Sara Palazzi ha quindi preso in esame poesie di Ungaretti, il dottor Gabriele Fabrizi poesie di Caproni (entrambe le valutazioni sono state condotte con ChatGPT-4.5).
 
Cruciale nel contesto è stata la scelta dei valutatori. L’apprezzamento della letteratura si lega infatti alla cultura: una persona che conoscesse la lingua italiana ma non avesse familiarità con il concetto di “poesia” in nessuna lingua troverebbe senz’altro strane opere come le poesie di Montale (per non parlare delle differenze tra gli Ossi di seppia e Satura…). Per esprimersi con cognizione di causa sulle poesie, i valutatori quindi devono avere un buon livello di familiarità con la poesia italiana del Novecento e delle sue modalità espressive. Al tempo stesso, se si fa un confronto su Ungaretti e Caproni, è bene non coinvolgere esperti che per esempio siano in grado di dire se una poesia è o no di Caproni perché, semplicemente, le conoscono già tutte.
 
In modo del tutto ragionevole, per entrambe le esperienze descritte sono stati dunque scelti valutatori con competenze adeguate ma non esaustive. A questi valutatori sono poi state sottoposte poesie relativamente brevi, in parte originali, in parte generate da ChatGPT “nello stile” dei poeti interessati, per generazione diretta o rielaborazione. Per esempio, per Ungaretti una coppia è stata questa:
 
Originale di Ungaretti: In galleria

Un occhio di stelle
ci spia da quello stagno
e filtra la sua benedizione ghiacciata
su quest’acquario
di sonnambula noia.
 
ChatGPT: Lucciole

Nella notte grigia e muta,
Lucciole accese,
come lumi spenti
nel cuore che langue.

 
I risultati sono stati molto interessanti. Nel caso di Ungaretti, per esempio, sono stati scelti come valutatori dieci studenti di corsi di studio dell’area umanistica dell’Università di Pisa e la valutazione è stata eseguita su tre coppie di poesie. Il compito consisteva nell’individuare, tra due poesie, quale era stata scritta da Ungaretti e quale da ChatGPT. In due casi su tre (tra cui quello della coppia riportata qui sopra) i valutatori si sono divisi al 50%: non sono stati in grado, insomma, di distinguere in modo affidabile tra testi originali e testi generate. Nel terzo caso, invece, 9 valutatori su 10 hanno correttamente distinto tra testo originale e testo generato.
 
In modo un po’ diverso sono andate le cose per Caproni, in un lavoro che ha potuto basarsi su quello fatto nella relazione precedente. Qui le poesie prese in esame erano innanzitutto più lunghe. Per esempio, è stata presa questa coppia:
 
Originale di Caproni: Preghiera

Anima mia leggera,
va’ a Livorno, ti prego.
E con la tua candela
timida, di nottetempo
fa’ un giro; e, se n’hai il tempo,
perlustra e scruta, e scrivi
se per caso Anna Picchi
è ancora viva tra i vivi.

Proprio quest’oggi torno,
deluso, da Livorno.
Ma tu, tanto più netta
di me, la camicetta
ricorderai, e il rubino
di sangue, sul serpentino
d’oro che lei portava
sul petto, dove s’appannava.

Anima mia, sii brava
e va’ in cerca di lei.
Tu sai cosa darei
se la incontrassi per strada.
 

ChatGPT: Lettera alla sera

Anima mia gentile,
torna laggiù, dove la luce s’abbassa.
Cammina piano, per favore —
non svegliare il ricordo.
Guarda se c’è ancora,
sul muro scrostato del porto,
quel segno che tracciammo
col gesso, da ragazzi.
E cerca lei,
la donna che rideva a fatica,
con la sciarpa a righe
e l’ombra negli occhi.
Dimmi se è rimasta
o se il vento l’ha portata
oltre il viale,
dietro il fanale spento.
Io, oggi,
me ne sono andato
senza trovarla.

 
In questo caso i valutatori sono stati studenti o laureati del corso di studio magistrale in Italianistica dell’Università di Pisa. Le coppie di poesie sono state tre, come nella prova precedente, ma qui in tutti i casi una maggioranza di valutatori ha riconosciuto ChatGPT (con percentuali che variano tra il 72 e l’81%).
 
Naturalmente, ci sarebbe molto altro da dire su queste relazioni e sul dettaglio di ciò che è stato necessario fare per generare i testi e costruire la valutazione. Entrambi i lavori poi hanno punti di forza che qui si possono indicare solo sinteticamente: il primo è stato pionieristico, il secondo è stato portato avanti con un prompting sofisticato. Il metodo, naturalmente, deve ancora essere messo a fuoco in tanti aspetti. Ma non mi sembra inutile notare come relazioni scritte da studenti magistrali per superare un singolo esame, con un minimo di guida da parte del docente, superino senz’altro per correttezza metodologica studi di cui si è molto parlato perfino a livello internazionale. Ho già detto che io (apparentemente in ristretta compagnia) ho un’elevata considerazione delle capacità degli studenti italiani? Beh, se non l’ho già detto, lo dico adesso!
 
Certo, da due prove circoscritte, anche se metodologicamente corrette, non si possono ricavare conclusioni generali: il linguaggio umano e la poesia sono oggetti troppo variati ed eterogenei. Ma senz’altro si può indicare una direzione che è anche di buon senso. Cioè, in alcuni casi, per testi semplici e senza schemi metrici rigorosi, ChatGPT può anche scrivere cose che i valutatori non riescono sempre a distinguere da produzioni umane. Quando però il testo si fa anche solo leggermente più complesso, i limiti dei testi generati sono più evidenti.
 
Al di là di esagerazioni come quelle del contributo citato (“Gli esseri umani preferiscono le poesie di ChatGPT”) o della sicumera di molte dichiarazioni “umanistiche” (“Ah, io lo capisco al volo, quando un testo è di ChatGPT: è senz’anima…!”), la situazione che emerge quando il confronto è ben condotto è dunque interessante. Le caratteristiche del testo generato sono più evidenti in alcuni casi, meno percepibili in altri; la competenza del valutatore è essenziale ma non sempre dirimente. Definire in modo più esatto questo quadro è oggi interessantissimo, e rappresenta secondo me una sfida reale e importante per gli addetti ai lavori.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.