venerdì 22 agosto 2025

Come non valutare la poesia di ChatGPT

 
Come scrivevo l’altro ieri, ChatGPT semplicemente non riesce a scrivere sonetti corretti in italiano (anche se si avvicina molto al risultato). Un conto è però la correttezza formale, per esempio dal punto di vista metrico; un altro conto la qualità. ChatGPT sa scrivere poesie di buon livello, anche se magari è meglio che si astenga da forme metriche tradizionali?
 
La risposta a questa domanda è per forza di cose più complessa, rispetto a questioni sull’accettabilità o meno di uno schema di rime. La qualità di una poesia è senz’altro connessa a questioni linguistiche e metriche, ma non si esaurisce in esse. Né, purtroppo o per fortuna, al momento abbiamo strumenti di misurazione oggettiva per la qualità poetica. L’impressione generale è comunque che le poesie di ChatGPT (così come le opere narrative) siano di scarsa qualità, prive di elementi che le rendono interessanti o memorabili.
 
Vale però la pena notare che c’è stato un tentativo ben noto di misurare la qualità delle poesie generate da ChatGPT in lingua inglese. I risultati di questo lavoro sono stati sintetizzati nel titolo di un contributo di Brian Porter ed Edouard Machery: AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably. Il contributo è stato pubblicato il 14 novembre 2024 negli “Scientific Reports” di “Nature” (!) e, secondo Google Scholar, al momento ha ricevuto 76 citazioni; soprattutto, ha avuto una discreta risonanza anche al di fuori del circuito specialistico.
 
Nonostante il successo, però, il contributo è metodologicamente disastroso e non dimostra affatto ciò che il titolo suggerisce. Certo, include tanti numeri e tante valutazioni di significatività fatte con chi quadro; secondo le parole degli autori nell’abstract:
 
We conducted two experiments with non-expert poetry readers and found that participants performed below chance levels in identifying AI-generated poems (46.6% accuracy, χ2(1, N = 16,340) = 75.13, p < 0.0001). Notably, participants were more likely to judge AI-generated poems as human-authored than actual human-authored poems (χ2(2, N = 16,340) = 247.04, p < 0.0001).
 
Naturalmente, però, i numeri non bastano né possono bastare a correggere i difetti a monte. Il primo punto è che, come per fortuna notano gli autori stessi, il titolo è molto ingannevole e, per cominciare, incompleto: a non riuscire a distinguere le poesie umane da quelle artificiali sono specificamente i “non esperti”. Quanto esperti sono i non esperti? I valutatori sono stati reclutati con il crowdsourcing (e su questa forma di valutazione, per faccende linguistiche, ho già avuto occasione di esprimere le mie riserve); quasi tutti hanno dichiarato di avere l’inglese come madrelingua e in maggioranza (55,8%) si sono rivelati persone “not very familiar with poetry”.
 
Questo pubblico potrebbe anche essere interessante, ma i valutatori fanno una scelta disastrosa. Scelgono infatti alcune poesie a caso nella storia della letteratura inglese selezionando 10 autori, fanno generare a ChatGPT poesie “nello stile” degli autori selezionati e poi sottopongono al pubblico 5 poesie originali e 5 poesie artificiali. Come risultato, buona parte delle poesie umane selezionate risulta in pratica incomprensibile, anche dal punto di vista linguistico, per un pubblico non esperto. Le poesie originali sono infatti di Chaucher, Shakespeare, Emily Dickinson, T. S. Eliot e Dorothea Lasky; come esempio può essere sufficiente la poesia di Eliot:
 
I observe: "Our sentimental friend the moon!
Or possibly (fantastic, I confess)
It may be Prester John’s balloon
Or an old battered lantern hung aloft
To light poor travellers to their distress."
She then: "How you digress!"
 
And I then: "Some one frames upon the keys
That exquisite nocturne, with which we explain
The night and moonshine; music which we seize
To body forth our own vacuity."
She then: "Does this refer to me?"
"Oh no, it is I who am inane."
  
"You, madam, are the eternal humorist,
The eternal enemy of the absolute,
Giving our vagrant moods the slightest twist!
With your aid indifferent and imperious
At a stroke our mad poetics to confute—"
And—"Are we then so serious?"
 
Un esperto di poesia modernista riesce senz’altro a decifrarla; ma un parlante inglese di medio livello che cosa può intendere a una rapida lettura di “Some one frames upon the keys / That exquisite nocturne, with which we explain / The night and moonshine; music which we seize / To body forth our own vacuity”? Quanti, per esempio, sanno o possono intuire al volo che un nocturne è un tipo di composizione musicale, informazione essenziale per comprendere il passo?
 
Per confronto, una poesia generata da ChatGPT “nello stile di lord Byron” è una simpatica filastrocca, dove forse l’unica difficoltà è costituita da doth per does:
 
She walks the earth with grace and pride,
A beauty that cannot be denied,
With eyes that shine like stars above,
And lips that speak of endless love.
 
But though she wears a smile so sweet,
A broken heart doth lie beneath,
For in her chest a pain doth beat,
A love unrequited, without relief.
 
And so she walks with heavy heart,
A figure haunting in the dark,
For love, the sweetest of all art,
Can also leave a painful mark.
 
Gli autori si rendono conto del problema, ma lo interpretano come una questione di differenze strutturali e connaturate:
 
because AI-generated poems do not have such complexity [as human poems], they are better at unambiguously communicating an image, a mood, an emotion, or a theme to non-expert readers of poetry, who may not have the time or interest for the in-depth analysis demanded by the poetry of human poets (p. 9).
 
In realtà, ovviamente, molte poesie umane comunicano senza problemi immagini ed emozioni anche al lettore inesperto! E d’altra parte ChatGPT può generare poesie complesse e che comunicano in modo ambiguo (quanto sia in grado di farlo può essere discutibile, ma semplici prompt bastano a ottenere risultati abbastanza interessanti). La differenza dunque, verosimilmente, non è strutturale, ma è relativa alle poesie che sono state scelte, cioè al fatto di aver inserito da un lato poesie umane complesse, appartenenti a tradizioni che privilegiano una scrittura complessa o comunque difficili per ragioni di altro tipo, e dall’altro poesie artificiali generate senza lo stesso vincolo.
 
Il titolo del contributo dovrebbe essere quindi riformulato più o meno così: “un pubblico che in media ha poca familiarità con la poesia non è in grado di distinguere tra semplici poesie generate da ChatGPT e poesie difficili scritte da esseri umani e assegna giudizi più favorevoli a semplici poesie generate con ChatGPT che a poesie difficili scritte da esseri umani”. Sintetizzando correttamente i risultati in questi termini, è ovvio che la cosa non è molto sorprendente! È anche ovvio che il risultato dice qualcosa sulle preferenze di un pubblico di “non esperti”, ma assai poco sulle capacità dei sistemi.
 
Come dovrebbe quindi procedere una valutazione sensata dei sistemi? Di sicuro dovrebbe evitare che la differenza dipenda da scelte redazionali, e non dalla sostanza. Una tale valutazione dovrebbe dunque mettere a confronto, per esempio, poesie moderniste originali e poesie moderniste scritte da ChatGPT, facendole poi valutare a lettori con le necessarie competenze linguistiche e letterarie. Non dovrebbe invece mettere a confronto filastrocche e poesie moderniste, facendole valutare a un pubblico con moderate competenze.
 
Negli ultimi mesi, diversi miei studenti hanno provato a fare proprio questo. I risultati sono stati interessanti, e anche piuttosto sfumati… con un po’ di fortuna, spero di parlarne più avanti su questo blog.
 

Nessun commento:

Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.