lunedì 13 ottobre 2025

Tavosanis, L’italiano sulla via dell’India

 
È appena uscito il mio nuovo libro, L’italiano sulla via dell’India! Pubblicato dal Mulino, è disponibile attraverso il sito dell’editore e sui normali canali di vendita, sia come testo a stampa sia come e-book.
 
L’argomento del libro può sembrare strano: l’uso dell’italiano in Asia nel Seicento, visto in particolare attraverso le testimonianze dei viaggiatori dell’epoca. Dico che può sembrare strano perché (come argomento più in dettaglio appunto nelle sezioni introduttive del libro) mi sembra che in Italia, da un lato, siano ancora diffusi i luoghi comuni sulla scarsa rilevanza internazionale dell’italiano, ora e in passato; e dall’altro, che ci sia un interesse sorprendentemente ridotto nei confronti dell’Asia. A me, invece, sembrano ci siano ottimi motivi per interessarsi tanto della lingua italiana quanto di quella vasta regione del mondo.
 
Sintetizzerò al massimo la tesi del volume: per tutto il Seicento, l’italiano era la lingua europea di gran lunga più nota, usata e insegnata in una vasta area che va dalle coste del Mediterraneo fino a quelle del Golfo Persico (con qualche propaggine fino in India). In termini moderni, si tratta della Siria, dell’Iraq e della Persia, cioè i paesi attraversati dai viaggiatori che per un motivo o per l’altro si recavano in India per via di terra.

La lingua italiana, naturalmente, era usata dai viaggiatori italiani… ma, soprattutto, anche da persone di tutt’altra origine, a cominciare dai mercanti e dai viaggiatori di altri paesi europei, che spesso se ne servivano anche tra di loro, in assenza di italiani. La usavano poi, in particolare, moltissimi mercanti e religiosi armeni, mediatori essenziali tra Asia ed Europa. E a volte, l’uso si collegava a un insegnamento formale e abbastanza stabile. Le testimonianze menzionano in effetti almeno tre scuole in cui nel corso del Seicento l’insegnamento dell’italiano ebbe una certa stabilità, a opera di religiosi francesi: ad Aleppo, a Baghdad e a Isfahan in Persia.
 
Che l’italiano fosse una lingua usata anche in assenza di italiani non è una novità assoluta. Diversi studi recenti hanno iniziato a chiarire il ruolo dell’italiano come lingua franca lungo le coste del Mediterraneo; il mio contributo si rivolge però all’interno, e a un’area geografica ancora poco esplorata in quest’ottica. Inoltre, le testimonianze dei viaggiatori presentano aspetti dell’uso reale su cui le fonti d’informazione più impiegate, cioè i documenti d’archivio, per quanto rilevanti, non possono dire molto.
 
Alle questioni generali si affianca poi la presentazione di una serie di viaggiatori, ognuno con le proprie particolarità e idiosincrasie, da prendere in esame per valutare le testimonianze. Lato italiano, si tratta di nobiluomini come Pietro Della Valle o Ambrogio Bembo, di religiosi come Giuseppe Sebastiani o Antonio Murchio, e di personaggi di minor rilievo sociale come Angelo Legrenzi e Niccolò Manucci. Ma anche lato francese, come vedrà il lettore, non mancano personaggi interessanti.
 
I casi raccontati sono di tipo assai diverso. Si va dalle prediche durante la messa (in Terrasanta e a Isfahan) fino alle battute durante ai banchetti, e dalle lezioni di italiano nel deserto alle presentazioni trionfali in India. Il quadro che ne emerge mi sembra però molto coerente: quello di una lingua che nel Seicento godeva di elevatissimo prestigio e uso comune presso alcune nazionalità. Per il resto, saranno i lettori a fornire il giudizio…
 
Mirko Tavosanis, L’italiano sulla via dell’India, Bologna, il Mulino, 2025 pp. 224, ISBN 978-88-15-39320-3, € 22 (a stampa) ed € 14,99 (e-book).
 

venerdì 10 ottobre 2025

ChatGPT è ancora scarso, come poeta... ma dipende!

 
Robot poeta a Livorno: immagine generata da ChatGPT-5
Dicevo ad agosto che anche ChatGPT-5 non sembra in grado di scrivere in modo affidabile sonetti perfettamente regolari in lingua italiana: nei prodotti che ho visto c’è sempre almeno una rima che non torna o un verso con un numero sbagliato di sillabe. Certo, visto che i sonetti generati in questo modo si avvicinano abbastanza alla correttezza, generandone un numero sufficiente è probabile che prima o poi, per caso, ne venga prodotto anche uno che non contiene errori. Però, questa vicinanza alla correttezza mette in luce anche la peculiare stranezza (dal punto di vista umano) del fenomeno: se il sistema riesce a generare tredici versi con il corretto numero di sillabe, perché sbaglia il quattordicesimo? Io non ho spiegazioni al di là del notare che un comportamento del genere sembra collegabile alla natura statistica del procedimento generativo…
 
Comunque, le cose vanno assai meglio quando si chiede a ChatGPT di scrivere testi poetici che non devono rispettare vincoli formali precisi. Per esempio, poesie in versi liberi. A quel punto non è più questione di metrica e si entra nelle valutazioni umane sulla qualità del prodotto.
 
Un parere diffuso, e del tutto ragionevole, è che le poesie generate in questo modo siano comunque scarsine. Ripetitive, piene di banalità e luoghi comuni, con scelte non all’altezza. Alcuni lettori dichiarano che la natura generata di un testo “si vede subito”. Ma è davvero così? Davvero il lettore cui viene sottoposta, per esempio, una mescolanza di poesie umane e poesie generate, senza indicazione esplicita della fonte, è in grado di distinguere?
 
Al polo opposto, ho parlato di un tentativo tanto famoso quanto metodologicamente carente di controllare i giudizi umani sulle poesie generate. Quel tentativo arrivava alla conclusione che gli esseri umani preferivano le poesie di ChatGPT a quelle scritte di autori famosi; io ho cercato di spiegare i motivi per cui, realizzata nel modo proposto, la valutazione suggeriva qualcosa di molto diverso.
 
Negli ultimi anni, in effetti, due studenti dei miei corsi per l’Università di Pisa hanno fatto valutazioni simili in modi che mi sembrano assai più soddisfacenti dal punto di vista metodologico rispetto a quelli adottati dal famoso articolo. In pratica, il principio base è quello (che dovrebbe essere ovvio) per cui non si chiede ai valutatori di valutare testi completamente diversi tra di loro, ma di valutare testi quanto più simili possibile: alcuni umani, alcuni generati.
 
Dati i limiti di ChatGPT nella generazione di poesie che rispettino i vincoli della tradizione metrica italiana, in entrambi i casi è stato necessario prendere come oggetto la metrica libera, e cioè in sostanza autori del Novecento. La dottoressa Sara Palazzi ha quindi preso in esame poesie di Ungaretti, il dottor Gabriele Fabrizi poesie di Caproni (entrambe le valutazioni sono state condotte con ChatGPT-4.5).
 
Cruciale nel contesto è stata la scelta dei valutatori. L’apprezzamento della letteratura si lega infatti alla cultura: una persona che conoscesse la lingua italiana ma non avesse familiarità con il concetto di “poesia” in nessuna lingua troverebbe senz’altro strane opere come le poesie di Montale (per non parlare delle differenze tra gli Ossi di seppia e Satura…). Per esprimersi con cognizione di causa sulle poesie, i valutatori quindi devono avere un buon livello di familiarità con la poesia italiana del Novecento e delle sue modalità espressive. Al tempo stesso, se si fa un confronto su Ungaretti e Caproni, è bene non coinvolgere esperti che per esempio siano in grado di dire se una poesia è o no di Caproni perché, semplicemente, le conoscono già tutte.
 
In modo del tutto ragionevole, per entrambe le esperienze descritte sono stati dunque scelti valutatori con competenze adeguate ma non esaustive. A questi valutatori sono poi state sottoposte poesie relativamente brevi, in parte originali, in parte generate da ChatGPT “nello stile” dei poeti interessati, per generazione diretta o rielaborazione. Per esempio, per Ungaretti una coppia è stata questa:
 
Originale di Ungaretti: In galleria

Un occhio di stelle
ci spia da quello stagno
e filtra la sua benedizione ghiacciata
su quest’acquario
di sonnambula noia.
 
ChatGPT: Lucciole

Nella notte grigia e muta,
Lucciole accese,
come lumi spenti
nel cuore che langue.

 
I risultati sono stati molto interessanti. Nel caso di Ungaretti, per esempio, sono stati scelti come valutatori dieci studenti di corsi di studio dell’area umanistica dell’Università di Pisa e la valutazione è stata eseguita su tre coppie di poesie. Il compito consisteva nell’individuare, tra due poesie, quale era stata scritta da Ungaretti e quale da ChatGPT. In due casi su tre (tra cui quello della coppia riportata qui sopra) i valutatori si sono divisi al 50%: non sono stati in grado, insomma, di distinguere in modo affidabile tra testi originali e testi generate. Nel terzo caso, invece, 9 valutatori su 10 hanno correttamente distinto tra testo originale e testo generato.
 
In modo un po’ diverso sono andate le cose per Caproni, in un lavoro che ha potuto basarsi su quello fatto nella relazione precedente. Qui le poesie prese in esame erano innanzitutto più lunghe. Per esempio, è stata presa questa coppia:
 
Originale di Caproni: Preghiera

Anima mia leggera,
va’ a Livorno, ti prego.
E con la tua candela
timida, di nottetempo
fa’ un giro; e, se n’hai il tempo,
perlustra e scruta, e scrivi
se per caso Anna Picchi
è ancora viva tra i vivi.

Proprio quest’oggi torno,
deluso, da Livorno.
Ma tu, tanto più netta
di me, la camicetta
ricorderai, e il rubino
di sangue, sul serpentino
d’oro che lei portava
sul petto, dove s’appannava.

Anima mia, sii brava
e va’ in cerca di lei.
Tu sai cosa darei
se la incontrassi per strada.
 

ChatGPT: Lettera alla sera

Anima mia gentile,
torna laggiù, dove la luce s’abbassa.
Cammina piano, per favore —
non svegliare il ricordo.
Guarda se c’è ancora,
sul muro scrostato del porto,
quel segno che tracciammo
col gesso, da ragazzi.
E cerca lei,
la donna che rideva a fatica,
con la sciarpa a righe
e l’ombra negli occhi.
Dimmi se è rimasta
o se il vento l’ha portata
oltre il viale,
dietro il fanale spento.
Io, oggi,
me ne sono andato
senza trovarla.

 
In questo caso i valutatori sono stati studenti o laureati del corso di studio magistrale in Italianistica dell’Università di Pisa. Le coppie di poesie sono state tre, come nella prova precedente, ma qui in tutti i casi una maggioranza di valutatori ha riconosciuto ChatGPT (con percentuali che variano tra il 72 e l’81%).
 
Naturalmente, ci sarebbe molto altro da dire su queste relazioni e sul dettaglio di ciò che è stato necessario fare per generare i testi e costruire la valutazione. Entrambi i lavori poi hanno punti di forza che qui si possono indicare solo sinteticamente: il primo è stato pionieristico, il secondo è stato portato avanti con un prompting sofisticato. Il metodo, naturalmente, deve ancora essere messo a fuoco in tanti aspetti. Ma non mi sembra inutile notare come relazioni scritte da studenti magistrali per superare un singolo esame, con un minimo di guida da parte del docente, superino senz’altro per correttezza metodologica studi di cui si è molto parlato perfino a livello internazionale. Ho già detto che io (apparentemente in ristretta compagnia) ho un’elevata considerazione delle capacità degli studenti italiani? Beh, se non l’ho già detto, lo dico adesso!
 
Certo, da due prove circoscritte, anche se metodologicamente corrette, non si possono ricavare conclusioni generali: il linguaggio umano e la poesia sono oggetti troppo variati ed eterogenei. Ma senz’altro si può indicare una direzione che è anche di buon senso. Cioè, in alcuni casi, per testi semplici e senza schemi metrici rigorosi, ChatGPT può anche scrivere cose che i valutatori non riescono sempre a distinguere da produzioni umane. Quando però il testo si fa anche solo leggermente più complesso, i limiti dei testi generati sono più evidenti.
 
Al di là di esagerazioni come quelle del contributo citato (“Gli esseri umani preferiscono le poesie di ChatGPT”) o della sicumera di molte dichiarazioni “umanistiche” (“Ah, io lo capisco al volo, quando un testo è di ChatGPT: è senz’anima…!”), la situazione che emerge quando il confronto è ben condotto è dunque interessante. Le caratteristiche del testo generato sono più evidenti in alcuni casi, meno percepibili in altri; la competenza del valutatore è essenziale ma non sempre dirimente. Definire in modo più esatto questo quadro è oggi interessantissimo, e rappresenta secondo me una sfida reale e importante per gli addetti ai lavori.
 

mercoledì 24 settembre 2025



Locandina del convegno Bembo 500
 
In questi giorni parteciperò a Padova al convegno Bembo 500 - Cinquecento anni di Prose, che si preannuncia interessantissimo. Io parlerò domani; i lavori si possono seguire in streaming qui: https://unipd.zoom.us/j/85824402245
 

venerdì 5 settembre 2025

Di nuovo a Dresda per AI-ROM

 
Sono di nuovo a Dresda: il convegno AI-ROM è arrivato alla III edizione, e si conferma un importante punto di riferimento per chi sia interessato alle intelligenze artificiali generative. 
 
Il convegno si tiene il 4 e il 5 settembre 2025. Io terrò oggi pomeriggio un intervento dedicato a Gli errori grammaticali degli LLM: diversità tra sistemi e caratteristiche generali, in cui metto a confronto ChatGPT-4o, Minerva LLM e DeepSeek. Tuttavia, gli interventi interessanti sono moltissimi!
 
Quest’anno il convegno ha ampliato la propria copertura, inserendo, oltre alle lingue romanze, anche quelle germaniche (l’anno scorso in pratica tutti gli interventi erano stati dedicati all’italiano). Per chi è in tempo, gli interventi possono essere seguiti anche online, previa registrazione!
 

venerdì 22 agosto 2025

Come non valutare la poesia di ChatGPT

 
Come scrivevo l’altro ieri, ChatGPT semplicemente non riesce a scrivere sonetti corretti in italiano (anche se si avvicina molto al risultato). Un conto è però la correttezza formale, per esempio dal punto di vista metrico; un altro conto la qualità. ChatGPT sa scrivere poesie di buon livello, anche se magari è meglio che si astenga da forme metriche tradizionali?
 
La risposta a questa domanda è per forza di cose più complessa, rispetto a questioni sull’accettabilità o meno di uno schema di rime. La qualità di una poesia è senz’altro connessa a questioni linguistiche e metriche, ma non si esaurisce in esse. Né, purtroppo o per fortuna, al momento abbiamo strumenti di misurazione oggettiva per la qualità poetica. L’impressione generale è comunque che le poesie di ChatGPT (così come le opere narrative) siano di scarsa qualità, prive di elementi che le rendono interessanti o memorabili.
 
Vale però la pena notare che c’è stato un tentativo ben noto di misurare la qualità delle poesie generate da ChatGPT in lingua inglese. I risultati di questo lavoro sono stati sintetizzati nel titolo di un contributo di Brian Porter ed Edouard Machery: AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably. Il contributo è stato pubblicato il 14 novembre 2024 negli “Scientific Reports” di “Nature” (!) e, secondo Google Scholar, al momento ha ricevuto 76 citazioni; soprattutto, ha avuto una discreta risonanza anche al di fuori del circuito specialistico.
 
Nonostante il successo, però, il contributo è metodologicamente disastroso e non dimostra affatto ciò che il titolo suggerisce. Certo, include tanti numeri e tante valutazioni di significatività fatte con chi quadro; secondo le parole degli autori nell’abstract:
 
We conducted two experiments with non-expert poetry readers and found that participants performed below chance levels in identifying AI-generated poems (46.6% accuracy, χ2(1, N = 16,340) = 75.13, p < 0.0001). Notably, participants were more likely to judge AI-generated poems as human-authored than actual human-authored poems (χ2(2, N = 16,340) = 247.04, p < 0.0001).
 
Naturalmente, però, i numeri non bastano né possono bastare a correggere i difetti a monte. Il primo punto è che, come per fortuna notano gli autori stessi, il titolo è molto ingannevole e, per cominciare, incompleto: a non riuscire a distinguere le poesie umane da quelle artificiali sono specificamente i “non esperti”. Quanto esperti sono i non esperti? I valutatori sono stati reclutati con il crowdsourcing (e su questa forma di valutazione, per faccende linguistiche, ho già avuto occasione di esprimere le mie riserve); quasi tutti hanno dichiarato di avere l’inglese come madrelingua e in maggioranza (55,8%) si sono rivelati persone “not very familiar with poetry”.
 
Questo pubblico potrebbe anche essere interessante, ma i valutatori fanno una scelta disastrosa. Scelgono infatti alcune poesie a caso nella storia della letteratura inglese selezionando 10 autori, fanno generare a ChatGPT poesie “nello stile” degli autori selezionati e poi sottopongono al pubblico 5 poesie originali e 5 poesie artificiali. Come risultato, buona parte delle poesie umane selezionate risulta in pratica incomprensibile, anche dal punto di vista linguistico, per un pubblico non esperto. Le poesie originali sono infatti di Chaucher, Shakespeare, Emily Dickinson, T. S. Eliot e Dorothea Lasky; come esempio può essere sufficiente la poesia di Eliot:
 
I observe: "Our sentimental friend the moon!
Or possibly (fantastic, I confess)
It may be Prester John’s balloon
Or an old battered lantern hung aloft
To light poor travellers to their distress."
She then: "How you digress!"
 
And I then: "Some one frames upon the keys
That exquisite nocturne, with which we explain
The night and moonshine; music which we seize
To body forth our own vacuity."
She then: "Does this refer to me?"
"Oh no, it is I who am inane."
  
"You, madam, are the eternal humorist,
The eternal enemy of the absolute,
Giving our vagrant moods the slightest twist!
With your aid indifferent and imperious
At a stroke our mad poetics to confute—"
And—"Are we then so serious?"
 
Un esperto di poesia modernista riesce senz’altro a decifrarla; ma un parlante inglese di medio livello che cosa può intendere a una rapida lettura di “Some one frames upon the keys / That exquisite nocturne, with which we explain / The night and moonshine; music which we seize / To body forth our own vacuity”? Quanti, per esempio, sanno o possono intuire al volo che un nocturne è un tipo di composizione musicale, informazione essenziale per comprendere il passo?
 
Per confronto, una poesia generata da ChatGPT “nello stile di lord Byron” è una simpatica filastrocca, dove forse l’unica difficoltà è costituita da doth per does:
 
She walks the earth with grace and pride,
A beauty that cannot be denied,
With eyes that shine like stars above,
And lips that speak of endless love.
 
But though she wears a smile so sweet,
A broken heart doth lie beneath,
For in her chest a pain doth beat,
A love unrequited, without relief.
 
And so she walks with heavy heart,
A figure haunting in the dark,
For love, the sweetest of all art,
Can also leave a painful mark.
 
Gli autori si rendono conto del problema, ma lo interpretano come una questione di differenze strutturali e connaturate:
 
because AI-generated poems do not have such complexity [as human poems], they are better at unambiguously communicating an image, a mood, an emotion, or a theme to non-expert readers of poetry, who may not have the time or interest for the in-depth analysis demanded by the poetry of human poets (p. 9).
 
In realtà, ovviamente, molte poesie umane comunicano senza problemi immagini ed emozioni anche al lettore inesperto! E d’altra parte ChatGPT può generare poesie complesse e che comunicano in modo ambiguo (quanto sia in grado di farlo può essere discutibile, ma semplici prompt bastano a ottenere risultati abbastanza interessanti). La differenza dunque, verosimilmente, non è strutturale, ma è relativa alle poesie che sono state scelte, cioè al fatto di aver inserito da un lato poesie umane complesse, appartenenti a tradizioni che privilegiano una scrittura complessa o comunque difficili per ragioni di altro tipo, e dall’altro poesie artificiali generate senza lo stesso vincolo.
 
Il titolo del contributo dovrebbe essere quindi riformulato più o meno così: “un pubblico che in media ha poca familiarità con la poesia non è in grado di distinguere tra semplici poesie generate da ChatGPT e poesie difficili scritte da esseri umani e assegna giudizi più favorevoli a semplici poesie generate con ChatGPT che a poesie difficili scritte da esseri umani”. Sintetizzando correttamente i risultati in questi termini, è ovvio che la cosa non è molto sorprendente! È anche ovvio che il risultato dice qualcosa sulle preferenze di un pubblico di “non esperti”, ma assai poco sulle capacità dei sistemi.
 
Come dovrebbe quindi procedere una valutazione sensata dei sistemi? Di sicuro dovrebbe evitare che la differenza dipenda da scelte redazionali, e non dalla sostanza. Una tale valutazione dovrebbe dunque mettere a confronto, per esempio, poesie moderniste originali e poesie moderniste scritte da ChatGPT, facendole poi valutare a lettori con le necessarie competenze linguistiche e letterarie. Non dovrebbe invece mettere a confronto filastrocche e poesie moderniste, facendole valutare a un pubblico con moderate competenze.
 
Negli ultimi mesi, diversi miei studenti hanno provato a fare proprio questo. I risultati sono stati interessanti, e anche piuttosto sfumati… con un po’ di fortuna, spero di parlarne più avanti su questo blog.
 

mercoledì 20 agosto 2025

Neanche ChatGPT-5 riesce a scrivere sonetti corretti

 
Immagine generata da ChatGPT-5 in risposta al prompt "Puoi generare l'immagine di un poeta robot piuttosto confuso che si gratta la testa?"
La recente presentazione di ChatGPT-5 ha confermato le idee di scettici come Gary Marcus (e, nel mio piccolo, le mie): lo sviluppo delle intelligenze artificiali generative non progredisce più in modo significativo. Ai primi controlli, ChatGPT-5 non presenta differenze rilevanti rispetto al precedente 4.5. Alcune capacità sembrano migliorate, altre peggiorate… e addirittura, gruppi di utenti hanno chiesto con forza che tornasse disponibile la versione 4.5.
 
Nel parlare di questi argomenti mi sono trovato negli ultimi anni a dover enfatizzare sia il bicchiere mezzo pieno sia il bicchiere mezzo vuoto. Queste tecnologie sono incredibili, dal punto di vista linguistico. Tuttavia, non sono perfette e, soprattutto, non sembrano affatto tappe sulla strada della vera intelligenza. L’elemento sorpresa viene per me soprattutto dal “com’è possibile che sistemi così stupidi e del tutto privi di intelligenza possano produrre alcuni risultati di alto livello?”
 
Naturalmente, porre la questione in termini generali non è molto utile. Più utile è invece vedere che cosa questi sistemi sono davvero in grado di produrre. Per esempio, in passato hanno spesso avuto notevoli difficoltà a produrre sonetti: con la versione 4.5, in particolare, non sono mai riuscito a far generare loro sonetti completamente corretti dal punto di vista metrico, e solo in pochi casi ho ottenuto sonetti in cui anche solo lo schema delle rime era accettabile (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano produrre qualcosa che si avvicina molto a un vero sonetto regolare!). Cosa interessante, quando si chiede al sistema di rispettare con precisione lo schema delle rime, per far tornare i conti ChatGPT spesso inserisce parole inventate.
 
Un esempio tipico può essere una conversazione che ho tenuto stamattina, e che, per chi ha accesso al servizio, è disponibile qui. Il prompt iniziale proposto a ChatGPT-5 è stato semplicemente: “Puoi scrivermi un sonetto sulla pioggia d’agosto?”.
 
Il sonetto generato in risposta al prompt era sbagliato fin dal primo verso, che ovviamente non è riconducibile in nessun modo a un endecasillabo:
 
Scende leggera, eppur densa, la pioggia estiva,
spegne la polvere, placa l’afa accesa,
tra i campi bruni la terra ancor s’attiva,
e beve l’acqua come fonte intesa.

Il cielo, a un tratto, rompe la sua riva,
scioglie il silenzio in musica distesa,
mentre la brezza, tiepida e furtiva,
porta profumi d’erba ancor sorpresa.

Gli alberi danzano al ritmo improvviso,
foglie che brillan sotto i lampi d’oro,
e il giorno svela un volto più deciso.

Così d’agosto il pianto ha dolce decoro:
nel pianto breve s’apre un nuovo sorriso,
rinato il mondo in un celeste coro.
 
In effetti, per quanto si possa essere generosi con la sinalefe, le sillabe metriche del verso iniziale non possono essere meno di 13, con un accento sulla dodicesima (estìva). Tuttavia, al tempo stesso, lo schema delle rime del sonetto proposto era accettabile (ABAB ABAB CDC DCD; le rime alternate nelle quartine sono tipiche della poesia duecentesca, più che di quella classica, ma al sistema non era stato dato nessun vincolo specifico).
 
ChatGPT-5 poi è partito, nel modo caratteristico di questa particolare versione del sistema, facendo proposte autonome. Mi ha infatti chiesto se volevo un sonetto più “moderno” e, ottenuta conferma, me ne ha proposto uno privo di rime. A richiesta di un sonetto che seguisse lo schema ABBA ABBA CDE CDE è poi riuscito a portare a termine il compito, ma solo facendo coincidere la E con la C (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano rispondere a richieste specifiche sugli schemi delle rime!). Inoltre, come nelle versioni 4 e 4.5, per far tornare i conti ha dovuto inserire parole inventate ed espressioni ben poco sensate. Lo mostra per esempio la terzina finale:
 
Così la pioggia il tempo riconduova, (C)
e in stilla pura l’anima comprende (D)
che ogni calore al fresco si ritrova. (E)
 
Ho già parlato del “problema del 99,5%”: per lavori di un minimo di estensione, anche nei casi migliori il prodotto di questi sistemi non solo non è perfetto, ma non può essere corretto dai sistemi stessi in autonomia o con l’uso di prompt, per quanto sofisticati (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano produrre qualcosa che per il 99,5% è corretto!).
 
Dove ci troviamo, quindi? Dal mio punto di vista, credo che possiamo tirare il fiato. Le tecnologie hanno raggiunto in sostanza il loro limite: possiamo metterci a vedere bene se e come usarle, senza tenere il fiato in attesa di grandi novità. Anche così, comunque, il bicchiere mezzo pieno garantisce allo studioso tempi interessanti!
 

giovedì 22 maggio 2025

Fiorentino e Tavosanis, Chiaro, sintetico e brillante

 
LId'O 21 - 2024
Sull’ultimo numero della rivista Lingua italiana d’oggi – LId’O è uscito un contributo firmato da Giuliana Fiorentino e da me. Il contributo si intitola Chiaro, sintetico, e brillante: l’italiano dei testi redatti con l’IA funziona? e si inserisce in una sezione dedicata esplicitamente a “Lingua italiana e intelligenza artificiale”, che include altri interventi di chi lavora nel settore. 
 
La presenza della sezione mostra quanto siano ormai maturi i tempi per una riflessione ampia sul rapporto tra l’italiano e l’intelligenza artificiale. Tuttavia, il contributo di Giuliana Fiorentino e mio vuole essere già una sintesi riguardo una questione importante: in mezzo a tutte le esagerazioni, quali sono le capacità effettive delle intelligenze artificiali generative, e in particolare di ChatGPT?
 
Il titolo sintetizza il modo in cui abbiamo cercato di procedere. In pratica, abbiamo valutato ChatGPT su tre tipi di compito: il miglioramento della chiarezza dei testi amministrativi, la sintesi di articoli scientifici e la stesura di articoli di giornale di taglio brillante. I risultati sono stati interessanti.
 
Il primo compito affrontato è quello su cui è possibile tirare conclusioni più approfondite, grazie a una preesistente tradizione di studi sul linguaggio amministrativo e a una serie di progetti di ricerca in corso adesso. Ad alcune di queste attività ho già dedicato spazio. Per quanto riguarda il contributo, però, è senz’altro utile riportare la conclusione, che mette in evidenza punti di forza e punti di debolezza: “l’efficacia che si registra a livello morfosintattico nella semplificazione realizzata utilizzando modelli di IA non è ugualmente raggiunta sul piano lessicale, per il quale occorrerà ipotizzare un diverso sistema di intervento per aumentare la chiarezza” (p. 53).
 
A monte, però, è anche utile riportare i modi sofisticati con cui ChatGPT interviene:
 
la riduzione della lunghezza delle frasi per cui a parità di testo il numero di frasi complessive aumenta; l’introduzione del soggetto esplicito; l’eliminazione di circonlocuzioni; l’evitamento di frasi parentetiche o incidentali; la riduzione del numero di verbi di forma passiva e infine la sostituzione di parole rare con parole semplici e di uso più comune (p. 52).
 
Per altri tipi di compito, i lavori presentati hanno una base meno ampia su cui fondarsi: Anche il campione preso in esame in dettaglio qui è molto limitato, in quanto si tratta di un unico articolo (il mio L’italiano in Asia nella testimonianza di Pietro Della Valle), il cui riassunto è stato esaminato per:
  • coerenza 
  • scorrevolezza 
  • correttezza 
  • pertinenza
I risultati sono stati decisamente positivi. Per esempio, per la scorrevolezza sono presenti un’etichetta molto ricalcata sull’inglese e un errore sintattico: non molto, per un testo lungo una pagina.
 
Ancora più interessanti sono forse i risultati dell’analisi della “brillantezza”. Anche qui, il campione non è ampio: si è trattato solo di un unico articolo di opinione, sottoposto a un gruppo di valutatori assieme a un articolo sullo stesso argomento scritto da una giornalista umana. La richiesta fornita ai valutatori era semplice: dire per ogni testo se era stato scritto da un’IA o da un essere umano. Va notato che i valutatori erano poi competenti, trattandosi di studenti impegnati in un corso dedicato proprio alla scrittura delle IA generative! Ciononostante, non è stato possibile individuare in modo affidabile l’origine dei due testi.
 
Certo, con questo tipo di valutazione siamo solo agli inizi. Ma mi sembra importante intanto confermare che sistemi come ChatGPT sono in grado di fare un lavoro paragonabile a quello degli esseri umani per alcuni tipi di compito – mentre per altri tipi falliscono miseramente (e di questa variabilità viene dato conto nelle prime pagine del contributo). Il che, com’è ovvio, richiede qualche riflessione tanto ai ricercatori quanto ai docenti di materie umanistiche in generale.
 
Giuliana Fiorentino e Mirko Tavosanis, Chiaro, sintetico, e brillante: l’italiano dei testi redatti con l’IA funziona?, Lingua Italiana d’Oggi, 21, 2024, pp. 37-65.
 

lunedì 20 gennaio 2025

Un Master in traduzione al tempo dell’intelligenza artificiale

 

Un momento della presentazione di oggi
Da qualche mese sono stato eletto Direttore del Master in traduzione specialistica dall’inglese all’italiano organizzato dalle università di Genova e Pisa e gestito dal Consorzio ICoN. Stamattina sono iniziate le attività della XVII edizione!
 
Il Master si svolge quasi interamente a distanza, ma il primo giorno è dedicato a un incontro di presentazione e coordinamento in presenza. Stamattina i corsisti si sono quindi ritrovati, interessati e attenti, nell’Aula Multimediale di Palazzo Ricci a Pisa per la prima parte dell’incontro; le attività proseguiranno nel pomeriggio presso la sede del Consorzio.
 
Ma, un momento… un Master in traduzione? Nell’epoca della traduzione automatica e dell’intelligenza artificiale? Sì, e personalmente lo dirigo senza nessun dubbio e nessuna incertezza sulla sua rilevanza. In fin dei conti, studio e valuto da molti anni i sistemi di traduzione automatica, inclusi quelli moderni, basati su reti neurali (nonché le intelligenze artificiali generative). Mi sembra quindi di sapere bene quali sono i punti di forza dei sistemi automatici, ma anche quali sono i punti di debolezza.
 
Ho già parlato del “problema del 99,5%” parlando della generazione di testo, ma il problema è simile anche per le traduzioni. Per lavori di un minimo di estensione, insomma, anche nei casi migliori il prodotto di questi sistemi non solo non è perfetto, ma non può essere corretto in modo autonomo dai sistemi stessi. Le percentuali di errore assomigliano però a quelle di un traduttore umano competente che consegni un testo non revisionato (anche se tutto dipende, naturalmente, dai casi specifici). La traduzione specialistica, inoltre, pone problemi particolari che non vengono gestiti bene dai sistemi generalisti: per esempio, la frequente necessità di usare in modo coerente la stessa traduzione per lo stesso termine, senza ricorrere a variazioni o sinonimi all’interno del testo.
 
In tale situazione, la revisione assume un ruolo fondamentale. Il traduttore umano, più che occuparsi di produrre la prima versione del testo, in molti casi deve oggi intervenire su una prima versione prodotta da sistemi di intelligenza artificiale. Alle competenze nella traduzione devono quindi accompagnare competenze di revisione.
 
Ora, competenze di questo tipo non sono poi così diffuse. Di qui l’importanza di un percorso formale che aiuti i traduttori a sviluppare anche queste competenze assieme a quelle tradizionali. Il Master in traduzione si è quindi riallineato in quest’ottica, in cui la scrittura in lingua italiana e il cosiddetto “post-editing” diventano centrali… senza che le competenze più tradizionali vengano trascurate, naturalmente!
 
L’idea è che questa combinazione sia non solo molto utile dal punto di vista pratico, ma rappresenti un ottimo punto di partenza per l’ingresso dei corsisti nel mercato del lavoro. L’insistenza sull’elemento umano non è dunque dovuta al tentativo di negare sviluppi già in corso, ma a quello di impiegare al meglio le competenze umane indispensabili. E sottolineo che questa indispensabilità non è un pio desiderio o altro: è la semplice conseguenza del modo in cui davvero funzionano, ora e nel prevedibile futuro, questi strumenti – verificato sul campo e misurato nel modo più sofisticato oggi disponibile.
 
Quindi, un caloroso “in bocca al lupo” ai nuovi studenti! Parlo sicuramente a nome di tutte le persone coinvolte se prometto che faremo tutto il possibile per rendere l’esperienza positiva a ogni livello.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.