Linguaggio e scrittura: I limiti di ChatGPT: il problema del 99,5%

martedì 22 ottobre 2024

I limiti di ChatGPT: il problema del 99,5%

Come dicevo pochi giorni fa, ChatGPT in sostanza scrive bene in italiano. In prima approssimazione, il livello dei testi che produce è paragonabile a quello dei testi prodotti da studenti universitari di laurea magistrale; o, più in generale, da persone di elevato livello culturale che non siano professioniste della scrittura. In altra prospettiva, il numero di veri e propri errori che si ritrova nei testi di ChatGPT in italiano è simile a quello che si ritrova nei testi di professionisti della scrittura (dai professori universitari di materie umanistiche ai giornalisti) prima che su di essi venga condotta una revisione finale. Diciamo, quelli che si trova di fronte la persona incaricata di dare una rilettura agli atti di un convegno non particolarmente rilevante...

Tuttavia, è utile andare oltre la prima approssimazione! Va quindi ricordato che il lavoro di ChatGPT, nei miei sondaggi, non è mai stato perfetto. Più in dettaglio, all’interno di testi di una certa estensione compaiono sempre, prima o poi, errori o tratti che un professionista della scrittura non ammetterebbe (nel commento della settimana scorsa ho citato in particoalre la frequenza dei calchi dall’inglese). Sintetizzando, possiamo dire che il sistema al momento non riesce a svolgere in modo affidabile la revisione finale.

Facciamo un esempio pratico. Premetto che la frequenza delle cosiddette “allucinazioni” fa sì che sia pericolosissimo usare questi sistemi come motori di ricerca o strumenti per la ricerca di informazioni. Comunque, a fini dimostrativi, stamattina ho chiesto una definizione a ChatGPT-4o: “Puoi spiegarmi che cos'è un fonema?”. La risposta è stata:

Un fonema è l'unità minima distintiva del suono all'interno di una lingua. In altre parole, un fonema è un suono che, se cambiato, modifica il significato di una parola. Per esempio, in italiano, le parole "pane" e "cane" si distinguono per un solo suono, quello della lettera "p" rispetto alla "c". Questo suono diverso rappresenta due fonemi distinti (/p/ e /k/), che creano una differenza di significato.

I fonemi non corrispondono necessariamente ai singoli caratteri dell'alfabeto: per esempio, in italiano il suono "ch" in "chiave" è un solo fonema, anche se rappresentato da due lettere.

Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non cambiano il significato della parola, sono considerate varianti dello stesso fonema.

In questo caso, la spiegazione contiene errori rilevanti nella sostanza. In particolare, nel primo capoverso si parla del fonema come di un “suono” che può essere “cambiato”, e questo è un modo decisamente distorto per presentare l’informazione. Più in dettaglio, è come minimo ambigua la seconda parte della terza frase (io direi che “… si distinguono solo perché è diverso il suono iniziale: nella prima è quello rappresentato dalla lettera "p", nella seconda quello rappresentato dalla lettera "c"”). Inoltre, è decisamente confusa la spiegazione successiva: “Questo suono diverso rappresenta due fonemi distinti…” In realtà, appunto, non si tratta di un singolo “suono diverso” che “rappresenta due fonemi” ma di due suoni diversi (una “diversità di suono”) che corrispondono a due fonemi distinti.

Soprattutto, però, è utile notare che in questo testo compare uno dei tipici errori formali delle intelligenze artificiali generative. L’ultima frase dice infatti:

Il testo non è grammaticale perché il soggetto non espresso della preposizione coordinata “sono considerate varianti” (e della subordinata “finché non cambiano”) non è in realtà quello della prima preposizione (cioè “un fonema”), ma quello della frase tra parentesi (cioè “queste varianti si chiamano allofoni”). La frase tra parentesi rientra in effetti, secondo la terminologia usata da Renzi, Salvi e Cardinaletti nella Grande grammatica italiana di consultazione, nella categoria delle “parentetiche”. Ora, nell’italiano scritto le parentetiche sono (e devono essere) prive di legami sintattici con la frase che le contiene; non possono quindi fornire il soggetto implicito della proposizione successiva. Di conseguenza, il testo dovrebbe essere corretto, per esempio, in questo modo, creando due frasi distinte con l’esplicitazione del diverso soggetto e l’eliminazione della parentetica:

Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto. Queste varianti si chiamano allofoni, ma, se non cambiano il significato della parola, sono appunto considerate semplici varianti dello stesso fonema.

L’esperienza mostra che tale tipo di intervento, ovvio per un revisore esperto anche se digiuno di grammatica, non è per niente ovvio a ChatGPT. In questo caso, per esempio, ho iniziato una nuova conversazione con il sistema, dandogli tra virgolette il brano appena generato sul fonema, preceduto dalla richiesta: “Questa spiegazione non è del tutto corretta nella forma linguistica. Puoi correggerla?” La risposta di ChatGPT non è stata soddisfacente:

Ecco una versione migliorata della tua spiegazione:

"Il fonema è l'unità minima distintiva del suono in una lingua. In altre parole, un fonema è un suono che, se modificato, cambia il significato di una parola. Ad esempio, in italiano, le parole pane e cane si distinguono per un solo suono, quello iniziale: la /p/ di pane e la /k/ di cane. Questi due suoni rappresentano fonemi distinti, /p/ e /k/, che determinano una differenza di significato.

I fonemi non corrispondono necessariamente ai singoli caratteri dell'alfabeto. Per esempio, in italiano il suono della combinazione ch in chiave è un unico fonema, pur essendo scritto con due lettere.

Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma, finché non alterano il significato della parola, vengono considerate varianti dello stesso fonema."

In questa versione, ho riformulato alcune frasi per migliorare la scorrevolezza e la precisione terminologica.

È interessante notare che, senza che ciò venisse richiesto, il sistema ha eseguito alcuni interventi sia sulla sostanza sia sugli aspetti che potremmo definire “redazionali”. Per esempio, all’impiego dei grassetti ha sostituito quello dei corsivi e all’uso di “Per esempio” (che io raccomando) ha sostituito quello di “Ad esempio”. Per la sostanza, poi, la spiegazione del primo capoverso è diventata decisamente più corretta! Nell’ultima frase di quel capoverso ancora non si dovrebbe dire che i suoni “rappresentano” (semmai “corrispondono” o simili), ma la spiegazione fornita nella frase precedente è adesso molto più accettabile.

Tuttavia, l’errore linguistico nell’ultima frase è rimasto e non è stato notato. Lo stesso avviene se ci si concentra sull’ultima frase chiedendo in modo più esplicito:

La frase "Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma, finché non alterano il significato della parola, vengono considerate varianti dello stesso fonema." contiene un errore sintattico. Puoi correggerla?

La risposta, che include una spiegazione non corrispondente all’intervento effettivamente eseguito, è ancora insoddisfacente:

Hai ragione, la frase può essere migliorata dal punto di vista sintattico. Ecco la versione corretta:

"Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non alterano il significato della parola, sono considerate varianti dello stesso fonema."

Ho eliminato la virgola superflua prima di "sono considerate" per rendere la frase più fluida e corretta.

Questa difficoltà a compiere l’ultimo passo è il motivo per cui la generazione di testo, al momento, per raggiungere un livello professionale umano su testi di una certa estensione ha sempre bisogno di una revisione umana. Si tratta, in altre parole, di una delle tante manifestazioni del problema del passare dal 99,5% al 100% di successi (non sono percentuali esatte, ma rendono l’idea!). Tale problema si è rivelato spinosissimo in molti settori: nell’ambito della guida automatica la differenza dello 0,5% è quella che ancora oggi impedisce di avere automobili in grado di muoversi senza continua supervisione umana se non in situazioni ben controllate (in pratica, nel mondo occidentale solo i servizi di Waymo in alcune aree di tre città americane raggiungono questo livello in un contesto urbano).

Nella scrittura, il problema è senz’altro meno spinoso perché, banalmente… anche gli esseri umani hanno un po’ di difficoltà a fare l’ultima revisione. I redattori editoriali in effetti esistono (esistevano?) anche per quello. La differenza è che l’essere umano può anche autorevisionarsi senza troppi problemi, tipicamente rivedendo il testo la mattina dopo, a mente fresca. ChatGPT e sistemi simili no, o perlomeno, non in modo tanto affidabile da poter fare a meno della supervisione.

Questo è il motivo per cui anche nell’elaborazione del testo, se si vuole raggiungere un risultato all’altezza degli standard dell’editoria contemporanea, il coinvolgimento umano rimane indispensabile. Le capacità di sistemi come ChatGPT restano stupefacenti, ma va ricordato che rimane anche quello 0,5%, e che sembra uno 0,5% assai difficile da eliminare.

2 commenti:

AF ha detto...: Nella frase "le parentetiche sono (e devono) essere prive di legami sintattici con la frase che le contiene" l'infinito fuori dalla parentesi retto dal modale che sta dentro può considerarsi una sorta di parentetica? ;); 2 novembre 2024 alle ore 10:23
Mirko Tavosanis ha detto...: Giustissima nota!!! Correggo subito... Per la serie: anche gli autori umani sbagliano in questo modo, quando non rivedono a sufficienza il testo, ma riescono a correggersi in modo abbastanza affidabile su semplice segnalazione!; 2 novembre 2024 alle ore 10:31