Linguaggio e scrittura: ottobre 2024

martedì 22 ottobre 2024

I limiti di ChatGPT: il problema del 99,5%

Come dicevo pochi giorni fa, ChatGPT in sostanza scrive bene in italiano. In prima approssimazione, il livello dei testi che produce è paragonabile a quello dei testi prodotti da studenti universitari di laurea magistrale; o, più in generale, da persone di elevato livello culturale che non siano professioniste della scrittura. In altra prospettiva, il numero di veri e propri errori che si ritrova nei testi di ChatGPT in italiano è simile a quello che si ritrova nei testi di professionisti della scrittura (dai professori universitari di materie umanistiche ai giornalisti) prima che su di essi venga condotta una revisione finale. Diciamo, quelli che si trova di fronte la persona incaricata di dare una rilettura agli atti di un convegno non particolarmente rilevante...

Tuttavia, è utile andare oltre la prima approssimazione! Va quindi ricordato che il lavoro di ChatGPT, nei miei sondaggi, non è mai stato perfetto. Più in dettaglio, all’interno di testi di una certa estensione compaiono sempre, prima o poi, errori o tratti che un professionista della scrittura non ammetterebbe (nel commento della settimana scorsa ho citato in particoalre la frequenza dei calchi dall’inglese). Sintetizzando, possiamo dire che il sistema al momento non riesce a svolgere in modo affidabile la revisione finale.

Facciamo un esempio pratico. Premetto che la frequenza delle cosiddette “allucinazioni” fa sì che sia pericolosissimo usare questi sistemi come motori di ricerca o strumenti per la ricerca di informazioni. Comunque, a fini dimostrativi, stamattina ho chiesto una definizione a ChatGPT-4o: “Puoi spiegarmi che cos'è un fonema?”. La risposta è stata:

Un fonema è l'unità minima distintiva del suono all'interno di una lingua. In altre parole, un fonema è un suono che, se cambiato, modifica il significato di una parola. Per esempio, in italiano, le parole "pane" e "cane" si distinguono per un solo suono, quello della lettera "p" rispetto alla "c". Questo suono diverso rappresenta due fonemi distinti (/p/ e /k/), che creano una differenza di significato.

I fonemi non corrispondono necessariamente ai singoli caratteri dell'alfabeto: per esempio, in italiano il suono "ch" in "chiave" è un solo fonema, anche se rappresentato da due lettere.

Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non cambiano il significato della parola, sono considerate varianti dello stesso fonema.

In questo caso, la spiegazione contiene errori rilevanti nella sostanza. In particolare, nel primo capoverso si parla del fonema come di un “suono” che può essere “cambiato”, e questo è un modo decisamente distorto per presentare l’informazione. Più in dettaglio, è come minimo ambigua la seconda parte della terza frase (io direi che “… si distinguono solo perché è diverso il suono iniziale: nella prima è quello rappresentato dalla lettera "p", nella seconda quello rappresentato dalla lettera "c"”). Inoltre, è decisamente confusa la spiegazione successiva: “Questo suono diverso rappresenta due fonemi distinti…” In realtà, appunto, non si tratta di un singolo “suono diverso” che “rappresenta due fonemi” ma di due suoni diversi (una “diversità di suono”) che corrispondono a due fonemi distinti.

Soprattutto, però, è utile notare che in questo testo compare uno dei tipici errori formali delle intelligenze artificiali generative. L’ultima frase dice infatti:

Il testo non è grammaticale perché il soggetto non espresso della preposizione coordinata “sono considerate varianti” (e della subordinata “finché non cambiano”) non è in realtà quello della prima preposizione (cioè “un fonema”), ma quello della frase tra parentesi (cioè “queste varianti si chiamano allofoni”). La frase tra parentesi rientra in effetti, secondo la terminologia usata da Renzi, Salvi e Cardinaletti nella Grande grammatica italiana di consultazione, nella categoria delle “parentetiche”. Ora, nell’italiano scritto le parentetiche sono (e devono essere) prive di legami sintattici con la frase che le contiene; non possono quindi fornire il soggetto implicito della proposizione successiva. Di conseguenza, il testo dovrebbe essere corretto, per esempio, in questo modo, creando due frasi distinte con l’esplicitazione del diverso soggetto e l’eliminazione della parentetica:

Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto. Queste varianti si chiamano allofoni, ma, se non cambiano il significato della parola, sono appunto considerate semplici varianti dello stesso fonema.

L’esperienza mostra che tale tipo di intervento, ovvio per un revisore esperto anche se digiuno di grammatica, non è per niente ovvio a ChatGPT. In questo caso, per esempio, ho iniziato una nuova conversazione con il sistema, dandogli tra virgolette il brano appena generato sul fonema, preceduto dalla richiesta: “Questa spiegazione non è del tutto corretta nella forma linguistica. Puoi correggerla?” La risposta di ChatGPT non è stata soddisfacente:

Ecco una versione migliorata della tua spiegazione:

"Il fonema è l'unità minima distintiva del suono in una lingua. In altre parole, un fonema è un suono che, se modificato, cambia il significato di una parola. Ad esempio, in italiano, le parole pane e cane si distinguono per un solo suono, quello iniziale: la /p/ di pane e la /k/ di cane. Questi due suoni rappresentano fonemi distinti, /p/ e /k/, che determinano una differenza di significato.

I fonemi non corrispondono necessariamente ai singoli caratteri dell'alfabeto. Per esempio, in italiano il suono della combinazione ch in chiave è un unico fonema, pur essendo scritto con due lettere.

Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma, finché non alterano il significato della parola, vengono considerate varianti dello stesso fonema."

In questa versione, ho riformulato alcune frasi per migliorare la scorrevolezza e la precisione terminologica.

È interessante notare che, senza che ciò venisse richiesto, il sistema ha eseguito alcuni interventi sia sulla sostanza sia sugli aspetti che potremmo definire “redazionali”. Per esempio, all’impiego dei grassetti ha sostituito quello dei corsivi e all’uso di “Per esempio” (che io raccomando) ha sostituito quello di “Ad esempio”. Per la sostanza, poi, la spiegazione del primo capoverso è diventata decisamente più corretta! Nell’ultima frase di quel capoverso ancora non si dovrebbe dire che i suoni “rappresentano” (semmai “corrispondono” o simili), ma la spiegazione fornita nella frase precedente è adesso molto più accettabile.

Tuttavia, l’errore linguistico nell’ultima frase è rimasto e non è stato notato. Lo stesso avviene se ci si concentra sull’ultima frase chiedendo in modo più esplicito:

La frase "Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma, finché non alterano il significato della parola, vengono considerate varianti dello stesso fonema." contiene un errore sintattico. Puoi correggerla?

La risposta, che include una spiegazione non corrispondente all’intervento effettivamente eseguito, è ancora insoddisfacente:

Hai ragione, la frase può essere migliorata dal punto di vista sintattico. Ecco la versione corretta:

"Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non alterano il significato della parola, sono considerate varianti dello stesso fonema."

Ho eliminato la virgola superflua prima di "sono considerate" per rendere la frase più fluida e corretta.

Questa difficoltà a compiere l’ultimo passo è il motivo per cui la generazione di testo, al momento, per raggiungere un livello professionale umano su testi di una certa estensione ha sempre bisogno di una revisione umana. Si tratta, in altre parole, di una delle tante manifestazioni del problema del passare dal 99,5% al 100% di successi (non sono percentuali esatte, ma rendono l’idea!). Tale problema si è rivelato spinosissimo in molti settori: nell’ambito della guida automatica la differenza dello 0,5% è quella che ancora oggi impedisce di avere automobili in grado di muoversi senza continua supervisione umana se non in situazioni ben controllate (in pratica, nel mondo occidentale solo i servizi di Waymo in alcune aree di tre città americane raggiungono questo livello in un contesto urbano).

Nella scrittura, il problema è senz’altro meno spinoso perché, banalmente… anche gli esseri umani hanno un po’ di difficoltà a fare l’ultima revisione. I redattori editoriali in effetti esistono (esistevano?) anche per quello. La differenza è che l’essere umano può anche autorevisionarsi senza troppi problemi, tipicamente rivedendo il testo la mattina dopo, a mente fresca. ChatGPT e sistemi simili no, o perlomeno, non in modo tanto affidabile da poter fare a meno della supervisione.

Questo è il motivo per cui anche nell’elaborazione del testo, se si vuole raggiungere un risultato all’altezza degli standard dell’editoria contemporanea, il coinvolgimento umano rimane indispensabile. Le capacità di sistemi come ChatGPT restano stupefacenti, ma va ricordato che rimane anche quello 0,5%, e che sembra uno 0,5% assai difficile da eliminare.

venerdì 18 ottobre 2024

ChatGPT scrive bene in italiano

Immagine generata da GPT-4o sulla base del prompt: Genere un'immagine di Pietro Bembo che esamina, con espressione perplessa e vagamente stupita, il testo che vede sullo schermo di un computer laptop. Assieme a Pietro Bembo deve esserci un personaggio con gli occhiali che guarda lo stesso schermo. L'immagine deve imitare lo stile di una xilografia rinascimentale.

Riflettere sulla valutazione dei testi prodotti da intelligenze artificiali è interessante. Ma andando sulla pratica: quanto sono buoni i testi scritti in italiano? Risposta sintetica: sono di alto livello, con pochissimi errori. Perlomeno, quando si rimane al livello dei testi in italiano standard.

Questa caratteristica generale è già stata autorevolmente segnalata in diverse occasioni da Claudio Marazzini, Presidente emerito dell’Accademia della Crusca, che in un’intervista del 2023 ha per esempio dichiarato:

Ho fatto alcuni esperimenti, anche con l’amico Petralli. E devo dire che ChatGPT, beh, fa un uso corretto della lingua italiana. Ma anche delle altre lingue, come il neogreco o il basco. Sì, questo chatbot è ottimo sia nella comprensione sia nella scrittura. Rimanendo all’italiano, si comporta come un parlante nativo. Direi anche piuttosto colto.

In effetti, non ci sono dubbi sul fatto che l’italiano di ChatGPT sia di alto livello e che per esempio includa pochissimi errori grammaticali. Il livello è davvero quello del “parlante nativo” e piuttosto colto! Tuttavia, occasionalmente si producono errori veri e propri (come del resto accade anche ai madrelingua, quando producono testi): nel mio contributo uscito su “AI-Linguistica” fornisco un po’ di dettagli. Per esempio, nel piccolo corpus preso in esame nel contributo (circa 7000 parole, ricavate da ChatGPT-3.5 e ChatGPT-4) compaiono due errori sintattici:

Il termine "diritto d'autore" e "copyright" sono spesso utilizzati in modo intercambiabile (…)
Se appropriato per il corso, mostri [invece di “mostra”] loro esempi di scritti creativi che sono stati premiati o riconosciuti per la loro qualità

Nel secondo esempio vale poi la pena notare l’uso del pronome standard “loro” invece del neostandard “gli” – a rinforzare il livello di formalità.

In aggiunta a questi, nel corpus sono presenti due errori ortografici: “un’autore” e “clarezza” al posto di “chiarezza”. Inoltre, per quanto riguarda scelte su cui nell’italiano contemporaneo ci sono in effetti oscillazioni, nella frase “in modo che gli studenti possano esporre se stessi” il pronome “sé stessi” è stato scritto senza accento (secondo l’uso scolastico e contro il noto invito di Luca Serianni), mentre l’uso della -d eufonica nei testi è decisamente oscillanti.

Nel corpus però l’aspetto più significativo è un altro: il gran numero di calchi dall’inglese (come l’impiego dell’aggettivo “accademico” in contesti in cui l’italiano userebbe “scientifico”). A questo si aggiunge l’uso di una parola inglese (“jargon”) al posto della parola corrispondente italiana (“gergo”) senza che il contesto fornisca nessuna motivazione per la sostituzione. In diversi punti il rapporto con l’inglese è in effetti tanto forte che alcune frasi, se fossero prodotte da un autore umano, sarebbero caratterizzate come traduzioni un po’ meccaniche dall’inglese. Per esempio:

Mi dispiace, Mirko, ma non posso fornire saggistica specifica o estratti di saggistica a causa delle restrizioni di copyright.

Il meccanismo con cui è stata generata questa frase non è una traduzione… ma è difficile non ricondurre le ultime parole a una traduzione meccanica di un originale in lingua inglese, “copyright restrictions”, che in italiano in questo contesto dovrebbe essere presentato come “restrizioni dovute al copyright” (o meglio ancora, “restrizioni dovute al diritto d’autore”).

Diciamo quindi che i testi prodotti da ChatGPT non arrivano al livello di un testo professionale pubblicato a stampa da un editore affermato dopo una revisione redazionale. Arrivano però tranquillamente, nella mia esperienza, al livello di un testo scritto da bravi studenti universitari o da persone di elevato livello culturale ma che non siano professionisti della scrittura. Vale anche la pena di notare che, dal punto di vista morfosintattico, le frasi con errori arrivano a un livello che è normale anche nel testo di professionisti della scrittura prima che sia condotta la revisione finale.

venerdì 11 ottobre 2024

Tavosanis, Valutare la qualità dei testi generati in lingua italiana

L’ho scritto a inizio settimana parlando di Co-Intelligence di Ethan Mollick: capire che cosa sanno fare o meno le cosiddette “intelligenze artificiali generative” non è affatto intuitivo. Di qui la centralità della valutazione dei loro prodotti.

Un mio contributo sull’argomento è stato pubblicato questa estate dalla rivista “AI-Linguistica” e ha come titolo, appunto, Valutare la qualità dei testi generati in lingua italiana. È anche un contributo piuttosto lungo, perché per arrivare alla valutazione di questi testi occorre fare un buon numero di premesse.

Uno dei motivi per cui le premesse sono necessarie è che non esiste un metodo collaudato per valutare i testi prodotti in questo modo. Esistono, certamente, diverse tradizioni di valutazione dei testi, praticate da gruppi diversi di persone: quella scolastica, quella del mondo della traduzione umana, quella della comunità della traduzione automatica, quella del testing linguistico… Ognuna di esse fornisce contributi interessanti. Nessuna di esse però, a mio giudizio, può essere adottata pari pari per la valutazione dei testi generati dalle intelligenze artificiali generative (ChatGPT e simili, insomma).

Di una cosa però sono sicuro: in questa fase, la valutazione dei testi delle intelligenze artificiali generative deve essere necessariamente una valutazione fatta da esseri umani competenti. Non esistono scorciatoie: non ci sono sistemi automatici o crowdsourcing che possano sostituire il lavoro di chi può dire se un’espressione è accettabile o meno nell’uso professionale. Le competenze linguistiche e filologiche sono indispensabili per riuscire a comprendere e valutare correttamente questi testi.

Aggiungo che non si tratta di un’idea a priori: è la conclusione cui sono arrivato dopo aver provato in modo sistematico le alternative e aver visto che, semplicemente, forniscono risultati molto meno validi rispetto alla valutazione di esseri umani competenti. I dettagli sugli esperimenti che mi portano a questa conclusione saranno presentati nei prossimi mesi in alcuni contributi in uscita, ma il quadro d’assieme è ben chiaro – e in linea con tutto ciò che sappiamo (ma spesso dimentichiamo) sulla valutazione.

Mirko Tavosanis, Valutare la qualità dei testi generati in lingua italiana, “AI-Linguistica” 1, 1, 2024, pp. 1-24. https://doi.org/10.62408/ai-ling.v1i1.14

martedì 8 ottobre 2024

Mollick, Co-Intelligence

Sicuramente, una delle cose che rendono difficile comprendere il funzionamento delle “intelligenze artificiali generative” (ChatGPT è simili) è il fatto che le loro capacità sono ben poco intuitive. In particolare, sono capaci di eseguire bene compiti sorprendenti e difficili, ma non sono capaci di eseguirne altri che sembrerebbero invece semplici.

Questa constatazione è ovviamente centrale per molte riflessioni. È anche uno dei nuclei alla base di un libro recente, Co-Intelligence di Ethan Mollick. Una delle definizioni più interessanti contenute nel libro è infatti quella che descrive i limiti delle capacità delle intelligenze artificiali generative come una “Jagged Frontier” (p. 46): una frontiera frastagliata, con molte sporgenze e rientranze, e che oltretutto ha confini invisibili. Solo un’esplorazione attenta, a opera di molte persone diverse, può individuare questi confini con una serie di tentativi ed errori.

Non c’è dubbio che questa descrizione si adatti bene alle esperienze degli ultimi anni, con la scoperta graduale delle capacità dei prompt e la messa a fuoco del fatto che i sistemi generativi rispondono in modo diverso a seconda del modo in cui viene posta la domanda (cosa che ancora pochi sanno, direi). Inoltre, l’idea che il modo migliore per scoprire cose nuove in questo settore sia quello di coinvolgere tante persone, invece che limitarsi al lavoro di pochi esperti, mi trova molto in sintonia (pp. 143-146).

Ciò che mi differenzia invece da Mollick è la stima dei risultati ricavabili da questa attività di esplorazione. Mollick dice per esempio, con sicurezza senz’altro eccessiva, che “These advances are once-in-a-generation technologies, like steam power or the internet, that touch every industry and every aspect of life” (p. xv). Al termine di una serie di paragoni spesso discutibili, viene poi spiegato il titolo del libro: “AI works, in many ways, as a co-intelligence. It augments, or potentially replaces, human thinking to dramatic results” (p. xvi). Tutto questo sulla base di, ahimè, “early studies” che mostrano le possibilità di aumentare la produttività dal 20 all’80 per cento in settori come la programmazione.

Il guaio di queste stime è che, storicamente, si rivelano quasi sempre molto ottimistiche. Le menzionerò ancora nelle conclusioni e conto di parlarne più avanti nella recensione di un altro libro recente... ma la lunga sequenza storica di esagerazioni nelle possibilità delle tecnologie dovrebbe rendere ragionevolmente scettico ogni lettore informato. Così come si dovrebbe essere davvero scettici, viste le esperienze, sulla visione ottimistica che il libro presenta per l’inserimento delle IA nel mondo del lavoro (il capitolo 6 è a volte quasi imbarazzante da questo punto di vista, specie se letto in Italia).

Più in dettaglio, dopo una sezione dedicata a discutere i rischi legati all’uso disinvolto delle “intelligenze artificiali predittive”, Mollick articola più in dettaglio le sue posizioni nel terzo capitolo, dedicato a presentare “Four Rules for Co-Intelligence”. I principi sono:

Always invite AI to the table, cioè in pratica provare a usare l’IA in tutte le attività, a parte evidentemente le situazioni in cui ci sono vincoli morali o legali (p. 46).
Be the human in the loop, cioè tenere d’occhio la produzione dei sistemi in modo da fornire un’attenta supervisione umana al lavoro delle IA (p. 51).
Treat AI like a person (but tell it what kind of person it is), cioè sfruttare il fatto che le risposte dei sistemi variano molto, anche qualitativamente, a seconda del ruolo che l’interlocutore umano assegna loro – da dilettante a specialista (p. 54).
Assume this is the worst AI you will ever use, cioè tenere conto delle possibilità di sviluppo dei sistemi (p. 59).

Io avrei alcune obiezioni al primo e al quarto principio. Per esempio, in rapporto al quarto, non sono così convinto del fatto che le intelligenze artificiali possano solo migliorare: in mancanza di grandi sviluppi tecnici, i vincoli legali, o la semplice procedura di “enshittification” di cui parla Cory Doctorow, possono benissimo rendere le IA del futuro meno capaci di quelle di oggi.

Soprattutto, però, in rapporto al terzo sono molto meno convinto di Mollick sulla quantità di benefici ricavabili in questo modo. Alcuni ce ne sono sicuramente, ma dopo due anni di tentativi da parte di milioni di utenti è intanto difficile immaginare che possa venire fuori qualcosa di radicalmente nuovo. Resta senz’altro la possibilità di trovare soluzioni individuali per problemi specifici – ma, appunto, non è affatto garantito che per esempio in una qualche attività lavorativa ci siano per forza di cose situazioni in cui le intelligenze artificiali generative possano aiutare. A cominciare innanzitutto dalla scuola, e da attività come l’insegnamento della scrittura!

Come già detto, infatti, le stime dei benefici sono preliminari e in situazioni del genere l’esagerazione è la regola. Che le IA abbiano alcune capacità effettivamente utili è indubbio; altrettanto indubbio, però, è che abbiano fortissimi limiti. Prima di abbracciare un generale ottimismo, mi sembra quindi utile entrare molto più in dettaglio nella valutazione. Questo è ciò che sto facendo con diversi lavori di ricerca… e conto di parlarne presto anche qui.

Ethan Mollick Co-Intelligence: Living and Working with AI, Londra, Penguin, 2024, versione Kindle, € 14,99, ISBN 978-0-753-56078-5 ASIN B0CHHY2PS4.

martedì 1 ottobre 2024

L’intelligenza artificiale generativa a scuola e all’università

Genera un'immagine in bianco e nero di docenti e studenti che scrivono usando strumenti basati sull'intelligenza artificiale. L'immagine deve essere imitare lo stile di una xilografia rinascimentale e dovrebbe avere un numero di dettagli non eccessivo, per la pubblicazione online. Alcuni degli strumenti presentati nell'immagine dovrebbero essere riconoscibili come sistemi informatici moderni.

L’anno accademico 2024-2025 per me è partito con diverse esperienze interessanti: all’Università di Pisa ho iniziato il mio corso sulla valutazione delle intelligenze artificiali generative con gli studenti della laurea magistrale in Italianistica e ho parlato delle possibilità dei sistemi attuali ai docenti in formazione dei cosiddetti PF60.

Sottolineo un punto di particolare interesse. Nonostante da due anni a questa parte le intelligenze artificiali in generale, e le intelligenze artificiali generative in particolare, siano diventati temi di moda, la consapevolezza delle loro capacità (o incapacità) reali non mi sembra ancora diffusa. Per esempio, ho potuto constatare personalmente che, anche in un pubblico di studenti di alto livello e interessati a questioni linguistiche, pochi avevano provato ChatGPT come qualcosa di più di una curiosità. Anche tra quei pochi, poi, buona parte aveva provato a usare ChatGPT soprattutto come motore di ricerca – cioè per un compito per cui il sistema è decisamente inadatto.

Mettere per iscritto qualche osservazione generale sulla situazione mi sembra quindi utile. Utile per me, innanzitutto: anche se negli ultimi anni ho dedicato molto lavoro a questi temi, i contributi specifici non possono sostituire una sintesi.

Partirei quindi da una constatazione generale: le intelligenze artificiali generative sono una novità reale e importante. Non avranno certo l’impatto predetto da alcuni entusiasti (non sempre disinteressati), ma le loro capacità sono concrete ed effettive proprio in relazione a diversi tipi di lavoro di area umanistica. Dalla scrittura di temi scolastici alla produzione di esercizi, dalla traduzione alla didattica, in parte gli effetti sono già evidenti. In parte sono ancora solo potenziali, ma come possibilità concretissime, non astratte (non si può sapere se si manifesteranno, ma le possibilità effettive ci sono). Seguire gli sviluppi non è quindi una rincorsa di mode comunicative, ma un aggiornamento su attività importanti e che stanno prendendo una forma su cui si può ancora intervenire.

Faccio un esempio praticissimo. Alcuni docenti mi hanno segnalato di aver già ricevuto inviti, più o meno pressanti, a usare ChatGPT per la correzione dei compiti scolastici, in nome dell’efficienza e dell’oggettività. Non ho informazioni di prima mano, ma non ho dubbi sul fatto che inviti del genere possano diventare assai più numerosi e pressanti nei prossimi anni. Sarebbe una buona cosa? Per domande del genere, la risposta corretta è sempre “dipende dal tipo di uso che se ne fa”, ma in questa situazione specifica mi sembra indispensabile aggiungere un avviso di prudenza: “nella maggior parte dei casi, probabilmente no”.

Una legittima domanda successiva potrebbe poi essere: come mai, “probabilmente no”? Una risposta richiederà però molti approfondimenti puntuali. Si tratta di un viaggio lungo, ma credo che sia un viaggio che vale la pena fare. Uno dei motivi, e non il meno importante, è il fatto che l’impatto delle novità invita a vedere molte cose in una prospettiva nuova e consente di rimettere in discussione anche idee ormai fossilizzate. Nelle prossime settimane spero di presentare qui diversi esempi interessanti.