venerdì 22 agosto 2025

Come non valutare la poesia di ChatGPT

 
Come scrivevo l’altro ieri, ChatGPT semplicemente non riesce a scrivere sonetti corretti in italiano (anche se si avvicina molto al risultato). Un conto è però la correttezza formale, per esempio dal punto di vista metrico; un altro conto la qualità. ChatGPT sa scrivere poesie di buon livello, anche se magari è meglio che si astenga da forme metriche tradizionali?
 
La risposta a questa domanda è per forza di cose più complessa, rispetto a questioni sull’accettabilità o meno di uno schema di rime. La qualità di una poesia è senz’altro connessa a questioni linguistiche e metriche, ma non si esaurisce in esse. Né, purtroppo o per fortuna, al momento abbiamo strumenti di misurazione oggettiva per la qualità poetica. L’impressione generale è comunque che le poesie di ChatGPT (così come le opere narrative) siano di scarsa qualità, prive di elementi che le rendono interessanti o memorabili.
 
Vale però la pena notare che c’è stato un tentativo ben noto di misurare la qualità delle poesie generate da ChatGPT in lingua inglese. I risultati di questo lavoro sono stati sintetizzati nel titolo di un contributo di Brian Porter ed Edouard Machery: AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably. Il contributo è stato pubblicato il 14 novembre 2024 negli “Scientific Reports” di “Nature” (!) e, secondo Google Scholar, al momento ha ricevuto 76 citazioni; soprattutto, ha avuto una discreta risonanza anche al di fuori del circuito specialistico.
 
Nonostante il successo, però, il contributo è metodologicamente disastroso e non dimostra affatto ciò che il titolo suggerisce. Certo, include tanti numeri e tante valutazioni di significatività fatte con chi quadro; secondo le parole degli autori nell’abstract:
 
We conducted two experiments with non-expert poetry readers and found that participants performed below chance levels in identifying AI-generated poems (46.6% accuracy, χ2(1, N = 16,340) = 75.13, p < 0.0001). Notably, participants were more likely to judge AI-generated poems as human-authored than actual human-authored poems (χ2(2, N = 16,340) = 247.04, p < 0.0001).
 
Naturalmente, però, i numeri non bastano né possono bastare a correggere i difetti a monte. Il primo punto è che, come per fortuna notano gli autori stessi, il titolo è molto ingannevole e, per cominciare, incompleto: a non riuscire a distinguere le poesie umane da quelle artificiali sono specificamente i “non esperti”. Quanto esperti sono i non esperti? I valutatori sono stati reclutati con il crowdsourcing (e su questa forma di valutazione, per faccende linguistiche, ho già avuto occasione di esprimere le mie riserve); quasi tutti hanno dichiarato di avere l’inglese come madrelingua e in maggioranza (55,8%) si sono rivelati persone “not very familiar with poetry”.
 
Questo pubblico potrebbe anche essere interessante, ma i valutatori fanno una scelta disastrosa. Scelgono infatti alcune poesie a caso nella storia della letteratura inglese selezionando 10 autori, fanno generare a ChatGPT poesie “nello stile” degli autori selezionati e poi sottopongono al pubblico 5 poesie originali e 5 poesie artificiali. Come risultato, buona parte delle poesie umane selezionate risulta in pratica incomprensibile, anche dal punto di vista linguistico, per un pubblico non esperto. Le poesie originali sono infatti di Chaucher, Shakespeare, Emily Dickinson, T. S. Eliot e Dorothea Lasky; come esempio può essere sufficiente la poesia di Eliot:
 
I observe: "Our sentimental friend the moon!
Or possibly (fantastic, I confess)
It may be Prester John’s balloon
Or an old battered lantern hung aloft
To light poor travellers to their distress."
She then: "How you digress!"
 
And I then: "Some one frames upon the keys
That exquisite nocturne, with which we explain
The night and moonshine; music which we seize
To body forth our own vacuity."
She then: "Does this refer to me?"
"Oh no, it is I who am inane."
  
"You, madam, are the eternal humorist,
The eternal enemy of the absolute,
Giving our vagrant moods the slightest twist!
With your aid indifferent and imperious
At a stroke our mad poetics to confute—"
And—"Are we then so serious?"
 
Un esperto di poesia modernista riesce senz’altro a decifrarla; ma un parlante inglese di medio livello che cosa può intendere a una rapida lettura di “Some one frames upon the keys / That exquisite nocturne, with which we explain / The night and moonshine; music which we seize / To body forth our own vacuity”? Quanti, per esempio, sanno o possono intuire al volo che un nocturne è un tipo di composizione musicale, informazione essenziale per comprendere il passo?
 
Per confronto, una poesia generata da ChatGPT “nello stile di lord Byron” è una simpatica filastrocca, dove forse l’unica difficoltà è costituita da doth per does:
 
She walks the earth with grace and pride,
A beauty that cannot be denied,
With eyes that shine like stars above,
And lips that speak of endless love.
 
But though she wears a smile so sweet,
A broken heart doth lie beneath,
For in her chest a pain doth beat,
A love unrequited, without relief.
 
And so she walks with heavy heart,
A figure haunting in the dark,
For love, the sweetest of all art,
Can also leave a painful mark.
 
Gli autori si rendono conto del problema, ma lo interpretano come una questione di differenze strutturali e connaturate:
 
because AI-generated poems do not have such complexity [as human poems], they are better at unambiguously communicating an image, a mood, an emotion, or a theme to non-expert readers of poetry, who may not have the time or interest for the in-depth analysis demanded by the poetry of human poets (p. 9).
 
In realtà, ovviamente, molte poesie umane comunicano senza problemi immagini ed emozioni anche al lettore inesperto! E d’altra parte ChatGPT può generare poesie complesse e che comunicano in modo ambiguo (quanto sia in grado di farlo può essere discutibile, ma semplici prompt bastano a ottenere risultati abbastanza interessanti). La differenza dunque, verosimilmente, non è strutturale, ma è relativa alle poesie che sono state scelte, cioè al fatto di aver inserito da un lato poesie umane complesse, appartenenti a tradizioni che privilegiano una scrittura complessa o comunque difficili per ragioni di altro tipo, e dall’altro poesie artificiali generate senza lo stesso vincolo.
 
Il titolo del contributo dovrebbe essere quindi riformulato più o meno così: “un pubblico che in media ha poca familiarità con la poesia non è in grado di distinguere tra semplici poesie generate da ChatGPT e poesie difficili scritte da esseri umani e assegna giudizi più favorevoli a semplici poesie generate con ChatGPT che a poesie difficili scritte da esseri umani”. Sintetizzando correttamente i risultati in questi termini, è ovvio che la cosa non è molto sorprendente! È anche ovvio che il risultato dice qualcosa sulle preferenze di un pubblico di “non esperti”, ma assai poco sulle capacità dei sistemi.
 
Come dovrebbe quindi procedere una valutazione sensata dei sistemi? Di sicuro dovrebbe evitare che la differenza dipenda da scelte redazionali, e non dalla sostanza. Una tale valutazione dovrebbe dunque mettere a confronto, per esempio, poesie moderniste originali e poesie moderniste scritte da ChatGPT, facendole poi valutare a lettori con le necessarie competenze linguistiche e letterarie. Non dovrebbe invece mettere a confronto filastrocche e poesie moderniste, facendole valutare a un pubblico con moderate competenze.
 
Negli ultimi mesi, diversi miei studenti hanno provato a fare proprio questo. I risultati sono stati interessanti, e anche piuttosto sfumati… con un po’ di fortuna, spero di parlarne più avanti su questo blog.
 

mercoledì 20 agosto 2025

Neanche ChatGPT-5 riesce a scrivere sonetti corretti

 
Immagine generata da ChatGPT-5 in risposta al prompt "Puoi generare l'immagine di un poeta robot piuttosto confuso che si gratta la testa?"
La recente presentazione di ChatGPT-5 ha confermato le idee di scettici come Gary Marcus (e, nel mio piccolo, le mie): lo sviluppo delle intelligenze artificiali generative non progredisce più in modo significativo. Ai primi controlli, ChatGPT-5 non presenta differenze rilevanti rispetto al precedente 4.5. Alcune capacità sembrano migliorate, altre peggiorate… e addirittura, gruppi di utenti hanno chiesto con forza che tornasse disponibile la versione 4.5.
 
Nel parlare di questi argomenti mi sono trovato negli ultimi anni a dover enfatizzare sia il bicchiere mezzo pieno sia il bicchiere mezzo vuoto. Queste tecnologie sono incredibili, dal punto di vista linguistico. Tuttavia, non sono perfette e, soprattutto, non sembrano affatto tappe sulla strada della vera intelligenza. L’elemento sorpresa viene per me soprattutto dal “com’è possibile che sistemi così stupidi e del tutto privi di intelligenza possano produrre alcuni risultati di alto livello?”
 
Naturalmente, porre la questione in termini generali non è molto utile. Più utile è invece vedere che cosa questi sistemi sono davvero in grado di produrre. Per esempio, in passato hanno spesso avuto notevoli difficoltà a produrre sonetti: con la versione 4.5, in particolare, non sono mai riuscito a far generare loro sonetti completamente corretti dal punto di vista metrico, e solo in pochi casi ho ottenuto sonetti in cui anche solo lo schema delle rime era accettabile (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano produrre qualcosa che si avvicina molto a un vero sonetto regolare!). Cosa interessante, quando si chiede al sistema di rispettare con precisione lo schema delle rime, per far tornare i conti ChatGPT spesso inserisce parole inventate.
 
Un esempio tipico può essere una conversazione che ho tenuto stamattina, e che, per chi ha accesso al servizio, è disponibile qui. Il prompt iniziale proposto a ChatGPT-5 è stato semplicemente: “Puoi scrivermi un sonetto sulla pioggia d’agosto?”.
 
Il sonetto generato in risposta al prompt era sbagliato fin dal primo verso, che ovviamente non è riconducibile in nessun modo a un endecasillabo:
 
Scende leggera, eppur densa, la pioggia estiva,
spegne la polvere, placa l’afa accesa,
tra i campi bruni la terra ancor s’attiva,
e beve l’acqua come fonte intesa.

Il cielo, a un tratto, rompe la sua riva,
scioglie il silenzio in musica distesa,
mentre la brezza, tiepida e furtiva,
porta profumi d’erba ancor sorpresa.

Gli alberi danzano al ritmo improvviso,
foglie che brillan sotto i lampi d’oro,
e il giorno svela un volto più deciso.

Così d’agosto il pianto ha dolce decoro:
nel pianto breve s’apre un nuovo sorriso,
rinato il mondo in un celeste coro.
 
In effetti, per quanto si possa essere generosi con la sinalefe, le sillabe metriche del verso iniziale non possono essere meno di 13, con un accento sulla dodicesima (estìva). Tuttavia, al tempo stesso, lo schema delle rime del sonetto proposto era accettabile (ABAB ABAB CDC DCD; le rime alternate nelle quartine sono tipiche della poesia duecentesca, più che di quella classica, ma al sistema non era stato dato nessun vincolo specifico).
 
ChatGPT-5 poi è partito, nel modo caratteristico di questa particolare versione del sistema, facendo proposte autonome. Mi ha infatti chiesto se volevo un sonetto più “moderno” e, ottenuta conferma, me ne ha proposto uno privo di rime. A richiesta di un sonetto che seguisse lo schema ABBA ABBA CDE CDE è poi riuscito a portare a termine il compito, ma solo facendo coincidere la E con la C (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano rispondere a richieste specifiche sugli schemi delle rime!). Inoltre, come nelle versioni 4 e 4.5, per far tornare i conti ha dovuto inserire parole inventate ed espressioni ben poco sensate. Lo mostra per esempio la terzina finale:
 
Così la pioggia il tempo riconduova, (C)
e in stilla pura l’anima comprende (D)
che ogni calore al fresco si ritrova. (E)
 
Ho già parlato del “problema del 99,5%”: per lavori di un minimo di estensione, anche nei casi migliori il prodotto di questi sistemi non solo non è perfetto, ma non può essere corretto dai sistemi stessi in autonomia o con l’uso di prompt, per quanto sofisticati (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano produrre qualcosa che per il 99,5% è corretto!).
 
Dove ci troviamo, quindi? Dal mio punto di vista, credo che possiamo tirare il fiato. Le tecnologie hanno raggiunto in sostanza il loro limite: possiamo metterci a vedere bene se e come usarle, senza tenere il fiato in attesa di grandi novità. Anche così, comunque, il bicchiere mezzo pieno garantisce allo studioso tempi interessanti!
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.