giovedì 5 dicembre 2024

Pascucci e Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana

 
Ieri è iniziato il convegno CLiC-it 2024. Una delle buone abitudini di molti convegni scientifici è la pubblicazione degli atti prima che il convegno si tenga. Per questo, già da qualche giorno i contributi sono disponibili sul sito CLiC-it
 
Tra questi contributi si trova anche un articolo scritto da Mariachiara Pascucci, dottoranda del dottorato in Studi italianistici dell’Università di Pisa, e da me: Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana. Anche in questo caso, in un convegno che ammette come lingue di lavoro sia l’inglese sia l’italiano, il nostro è in effetti l’unico contributo scritto in italiano su oltre 100 testi pubblicati negli atti… quando posso, continuo anche questa battaglia!
 
Veniamo però alla sostanza. Il contributo è collegato a una serie di lavori recenti sul miglioramento della chiarezza dei testi e si occupa di un aspetto che può sembrare marginale ma che a me sembra centrale: chi riesce a valutare meglio la chiarezza di un testo in lingua italiana?
 
La risposta a questa domanda non è banale. Esistono da decenni alcuni indicatori di chiarezza, come il GULPEASE o la percentuale di parole che appartengono al Vocabolario di Base dell’italiano. Tuttavia, questi indicatori hanno diversi limiti – e non possono valutare, per esempio, se un testo è stato reso più “chiaro” sacrificando informazioni importanti o introducendo veri e propri errori. Per una valutazione di questo tipo occorre appoggiarsi a esseri umani.
 
La domanda diventa quindi: quali esseri umani? Per alcuni tipi di valutazione, la risposta è semplice e può essere fornita con elevatissimo livello di precisione da persone con una competenza linguistica generica, da madrelingua o addirittura da non madrelingua, senza che sia necessaria una particolare formazione. Non occorre un curriculum da redattore o una laurea in linguistica italiana per dire per esempio che la frase “il gatti mangiassero camminare” non è grammaticale.
 
Per altri tipi di valutazione, la situazione però cambia. Valutare la qualità dei testi generati mi sembra essenziale; tuttavia, alcune deviazioni rispetto allo standard professionale di scrittura possono essere notate sistematicamente solo da professionisti o da persone molto attente. Lo stesso vale, verosimilmente, per giudizi sulla chiarezza di diversi tipi di testo. E le intelligenze artificiali generative su cui sto lavorando in questo periodo si avvicinano ormai talmente tanto al modello umano professionale che viene il sospetto che la valutazione di ciò che producono possa ormai essere compiuta in modo convincente solo da professionisti. Di qui le mie perplessità sul tipo di valutazione oggi senz’altro prevalente in questo genere di studi, cioè quella fatta da non esperti. In particolare, ho da tempo molte perplessità sull’affidabilità delle valutazioni compiute attraverso la pratica del “crowdsourcing”: reclutare valutatori non esperti attraverso piattaforme online.
 
Un conto è però sospettare che la situazione sia questa, un conto documentarla e quantificarla. Per questo ci siamo messi al lavoro… e i risultati sono stati interessanti. Come punto di partenza abbiamo usato dei testi resi più chiari (auspicabilmente) attraverso l’intervento di esseri umani e di ChatGPT. Abbiamo poi valutato noi stessi questi testi, considerandoci “esperti” di riferimento. Dopodiché, abbiamo sottoposto i testi a valutatori esperti (= studenti magistrali che hanno seguito un mio corso sulla valutazione), a valutatori reclutati attraverso il sistema del crowdsourcing e, per finire, a ChatGPT stesso. Abbiamo poi visto quanto i diversi valutatori si sono avvicinati alla valutazione di riferimento.
 
I risultati sono stati in parte sorprendenti. Come era lecito attendersi, i valutatori esperti si sono avvicinati più di ogni altro gruppo al risultato di riferimento. Tuttavia, il secondo posto è stato ottenuto non dai valutatori reclutati attraverso il crowdsourcing ma da ChatGPT: il crowdsourcing è finito al terzo posto. Personalmente, diffido da tempo dell’attendibilità del crowdsourcing per questo genere di valutazioni, ma non immaginavo che potesse prodursi una classifica del genere.
 
Naturalmente, molto dipende dal modo in cui è stato costruito l’esperimento! E nulla dimostra che i risultati saranno gli stessi, per esempio, con altri tipi di incarico. Ma fornire indicazioni quantitative che mostrano quanto i risultati della valutazione dipendano dai valutatori mi sembra fondamentale!
 
Mariachiara Pascucci e Mirko Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana, in Proceedings of the Tenth Italian Conference on Computational Linguistics (CLiC-it 2024), Pisa, 4-6 dicembre 2024, a cura di Felice Dell’Orletta, Alessandro Lenci, Simonetta Montemagni e Rachele Sprugnoli, Aachen, CEUR-WS, 2024 ISSN 1613-0073.
 

sabato 16 novembre 2024

A Tubinga per l'ADI

 
Sono a Tubinga per la partecipazione all’interessantissimo quindicesimo convegno dell’Associazione Docenti di Italiano in Germania. Il convegno si intitola L’IA-taliano: l’intelligenza artificiale nella didattica delle lingue; è iniziato ieri e si concluderà oggi.
 
Io ho parlato stamattina, con un intervento a invito in plenaria intitolato Scrivere con l’intelligenza artificiale. Ho poi partecipato alla tavola rotonda con gli altri relatori in plenaria: Anna-Maria De Cesare, Paolo Di Paolo e Stefania Spina. E adesso sto seguendo i workshop didattici (di Davide Schenetti e Alessandro Bencivenni). In generale, è un evento interessantissimo che risponde a un’esigenza di aggiornamento molto sentita.
 
In più, ci sono arrivato in treno, con vagone letto Nightjet da Venezia a Stoccarda; se va tutto bene, ripartirò tra un po’ con lo stesso collegamento, in senso inverso. E il treno per me è sempre un motivo di soddisfazione in più!
 

lunedì 4 novembre 2024

Narayanan e Kapoor – AI Snake Oil

 
Era l’ora! Ecco un libro che posso consigliare senza riserve a proposito delle possibilità dell’“intelligenza artificiale” attuale: AI Snake Oil di Arvind Narayanan e Sayash Kapoor. 
  
Le mie esperienze sulla valutazione sono molto in sintonia con il sottotitolo del libro, What Artificial Intelligence Can Do, What It Can't, and How to Tell the Difference. Il titolo, però, potrebbe risultare opaco al lettore italiano. Gli autori per fortuna ne chiariscono il significato nel primo capitolo, Introduction, rinviando ai venditori di “olio di serpente” (snake oil) diffusi negli Stati Uniti tra la fine dell’Ottocento e i primi del Novecento. L’“olio di serpente” era infatti ritenuto in grado di curare un po’ tutti i problemi di salute: dai reumatismi ai morsi di animale al mal di denti. Ovviamente, non funzionava. Il che però non impediva ai venditori di arricchirsi con il prodotto, che oltretutto spesso, come notano gli autori, in realtà non conteneva davvero “olio di serpente”. Allo stesso modo,
 
AI snake oil is AI that does not and cannot work, like the hiring video analysis software that originally motivated the research that led to this book. The goal of this book is to identify AI snake oil—and to distinguish it from AI that can work well if used in the right ways. While some cases of snake oil are clear cut, the boundaries are a bit fuzzy. In many cases, AI works to some extent but is accompanied by exaggerated claims by the companies selling it. That hype leads to overreliance, such as using AI as a replacement for human expertise instead of as a way to augment it (p. 28).
  
Gli autori notano poi come buona parte delle esagerazioni sia riconducibile al fatto che l’etichetta di “intelligenza artificiale” (IA) viene assegnata a sistemi molto diversi tra di loro. E fanno quindi una distinzione tanto ragionevole quanto forte tra IA “predittive” e IA “generative”.
 
Il secondo capitolo, intitolato How Predictive AI Goes Wrong, viene quindi dedicato a mostrare il modo in cui le IA “predittive” hanno collezionato una serie imponente di insuccessi. Gli autori insistono anche sul fatto che questi sistemi vengono già utilizzati in molti contesti per fare previsioni su questioni di assoluta rilevanza – in particolare nel sistema giudiziario degli Stati Uniti (con sistemi come ORAS e PSA: p. 51) – con esiti non solo pessimi in generale ma chiaramente punitivi per i gruppi sociali svantaggiati: esempi non solo di “how AI tools search under the streetlight” ma di come “More often than not, the streetlight is pointed at the poor” (p. 53).
 
Il secondo capitolo si conclude con alcune ipotesi sul perché, nonostante gli evidenti limiti, i sistemi predittivi sono così popolari. Gli autori ritengono che al di là delle motivazioni pratiche, ci siano anche cause psicologiche profonde:
 
part of the reason surely is that decision-makers are people—people who dread randomness like everyone else. This means they can’t stand the thought of the alternative to this way of decision-making—that is, acknowledging that the future cannot be predicted. They would have to accept that they have no control over, say, picking good job performers, and that it’s not possible to do better than a process that is mostly random (p. 57).
 
Non so quanto essere d’accordo con questo, ma ho pochi elementi per esprimermi in un senso o nell’altro! In fin dei conti, i sistemi predittivi vengono usati soprattutto negli Stati Uniti: in Italia non mi sembrano particolarmente popolari e non ne ho mai sentito incoraggiare l’uso, per esempio, nei concorsi pubblici o nei tribunali.
 
Di applicazione più generale è il capitolo 3, Why Can’t AI Predict the Future? Qui viene presentata innanzitutto una storia di tentativi (falliti) di usare il computer per predire il futuro. Gli autori notano però che non tutte le predizioni sono impossibili: alcune sono perfettamente possibili e normalmente usate. Quel che conta è imparare a distinguere tra ciò che in effetti funziona abbastanza da avere applicazioni pratiche (a cominciare dalle previsioni del tempo) e ciò che invece non funziona per nulla (le previsioni delle agitazioni sociali, o del mercato azionario). Un esempio discusso in dettaglio (da p. 69) è quello della Fragile Families Challenge, uno studio su larga scala condotto per cercare di prevedere gli esiti di vita (voti scolastici e simili) di un campione molto ampio di bambini nati attorno al Duemila. Nonostante la partecipazione di numerosi gruppi di ricerca, anche i migliori modelli sviluppati e basati su IA “were only slightly better than a coin flip” e non sono riusciti a ottenere previsioni migliori di quelle basate su indicatori molto semplici (p. 73).
 
Gli autori notano poi l’incapacità attuale, anche da parte dei migliori esperti, di prevedere in dettaglio successi o fallimenti nell’industria del cinema o della musica, oltre che nei meme. Alcuni dei limiti sono dovuti a vincoli pratici, come la scarsa disponibilità di dati pertinenti; altri però sembrano strutturalmente impossibili da superare (p. 97).
 
Molto diverso è il tono del quarto capitolo, The Long Road to Generative AI. Gli autori esordiscono infatti chiarendo che in questo caso “the technology is powerful and the advances are real” (p. 99). 
Chi segue il mio lavoro conoscerà le mie osservazioni sulla difficoltà di valutare le IA generative, da ChatGPT in giù. Narayanan e Kapoor descrivono il problema in questi termini:
 
Some products do what it says on the tin. Others don’t work at all. In between those two extremes are products that are useful but oversold. Each of these can be harmful, in different ways. Generative AI is a mixed bag.(…) The varied landscape of generative AI applications resists a simple characterization of the limits of the technology (pp. 103-104).
 
Detto questo, gli autori passano a descrivere anche i successi, insistendo in particolare sull’importanza della competizione ImageNet per la classificazione di immagini a partire dal 2020 (p. 111). Insistono poi anche sul ruolo importante del recente premio Nobel Geoffrey Hinton in quanto inventore dalla tecnica di “backpropagation”. Ma notano anche i problemi connessi al fatto che competizioni e tecniche del genere sono poi andate avanti senza coinvolgere gli esperti dei settori su cui le tecniche operavano, creando dinamiche di autoreferenzialità.
 
Vale la pena di notare anche le ragionevoli posizioni degli autori riguardo alla questione di quanto le attività di cui sono capaci i sistemi siano vera comprensione:
 
Understanding is not all or nothing. Chatbots may not understand a topic as deeply or in the same way as a person—especially an expert—might, but they might still understand it to some useful degree. (…) Chatbots “understand” in the sense that they build internal representations of the world through their training process. Again, those representations might differ from ours, might be inaccurate, and might be impoverished because they don’t interact with the world in the way that we do. Nonetheless, these representations are useful, and they allow chatbots to gain capabilities that would be simply impossible if they were merely giant statistical tables of patterns observed in the data. (…) we know that language models learn the structure of language, even though they don’t have grammatical rules programmed into them (pp. 137-138).
 
Non sorprendentemente, gli autori poi ipotizzano che tutte le preoccupazioni sul modo in cui i sistemi generativi possano essere usati per esempio per manipolare elezioni siano esagerate (p. 147). Il vero rischio si colloca invece nelle modalità di sfruttamento economico (p. 148).
 
Con questa ragionevolissima impostazione, non sorprende che la risposta alla domanda posta nel titolo del capitolo 5, Is Advanced AI an Existential Treat? sia un semplice “no”. La domanda più interessante è allora: perché diverse persone intelligenti credono a una cosa tanto assurda? La spiegazione degli autori accosta ai ben evidenti motivi di profitto anche fattori di altro tipo, come la continua tentazione di ognuno ad assegnare importanza cosmica al proprio lavoro.
 
Molto simile è anche l’impostazione del capitolo 5, Why Can’t AI Fix Social Media? I sistemi di “content moderation” (‘moderazione dei contenuti’) vengono qui considerati un terzo tipo di IA, in aggiunta a quelle predittive e generative. Anche qui, però, come nel caso delle IA predittive, i fallimenti sono evidenti – e sono evidenti anche gli abusi.
 
Su questa base, il sesto capitolo si chiede Why Do Myths about AI Persist? Un punto importante è l’applicazione meccanica di semplici cliché sul modo in cui le tecnologie avanzano. Ma vorrei conservare soprattutto una citazione rilevante a proposito dei meccanismi con cui le esagerazioni si autoalimentano:
 
performance on benchmark datasets overestimates the usefulness of AI in the real world. As we saw in chapter 4, the dominant way to determine the usefulness of AI is through benchmark datasets. But benchmarks are wildly overused in AI. They have been heavily criticized for collapsing a multidimensional evaluation into a single number. When used as a way to compare humans and bots, the results can mislead people into believing that AI is close to replacing humans (p. 241).
 
E una citazione sul confronto con la realtà, e su quanto anche i premi Nobel possano dire stupidaggini perfino nel loro campo:
 
Researchers also misuse language to imply that AI tools perform better than they actually do—for instance, by implying that they have human-level reading comprehension, when the only evidence is on a benchmark dataset instead of evaluations in the real world. This culture is exemplified by a dismissive attitude toward domain experts that many AI researchers and developers hold. In 2016, AI pioneer Geoffrey Hinton claimed: “If you work as a radiologist, you’re like the coyote that’s already over the edge of the cliff but hasn’t yet looked down, so doesn’t realize there’s no ground underneath him. People should stop training radiologists now. It’s just completely obvious that within five years, deep learning is going to do better than radiologists.” In 2022, there was a worldwide shortage of radiologists. AI has not even come close to replacing radiologists (pp. 238-239).
 
Detto questo, gli autori si mettono alla prova nel capitolo 8, Where Do We Go from here?. Citano i problemi con i sistemi di identificazione dei testi generati, incoraggiano ad accettare la casualità di molte valutazioni, notano l’impatto reale sui traduttori e così via. E poi descrivono due scenari futuri, visti attraverso gli occhi di due bambini d’invenzione, Kai e Maya. Nel mondo di Kai gli errori legislativi e di sviluppo portano a uno scenario in cui l’applicazione dell’IA devasta la scuola e la vita sociale; nel mondo di Maya, frutto di scelte più sensate, l’IA porta invece un aiuto reale in molte situazioni. Per scegliere l’uno invece dell’altro, gli autori notano che sono necessarie competenze e riflessioni approfondite, non la riproposizione di luoghi comuni. E su questo, come su molte altre delle loro osservazioni, non posso che concordare.
 
Una citazione finale da conservare, con un concetto che sta alla base anche di molte delle mie idee sul modo in cui devono essere valutate le capacità dei sistemi generativi:
 
Medical researchers perform RCTs [randomized controlled trials] despite their slow pace and high expense for a simple reason—easier, faster methods don’t work. The same is true in many areas where AI is used for automated decision-making (p.45).
 
Arvind Narayanan e Sayash Kapoor, AI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference, Princeton, Princeton University Press 2024, edizione Kindle. € 18,19, ISBN 9780691249643.

Piccola nota storica: agli interessati della mia generazione, il titolo del libro ricorderà quello di Silicon Snake Oil di Clifford Stoll, uscito nel 1995 e con un’impostazione simile. Stoll, però, non viene mai citato da Narayanan e Kapoor. L’omissione può essere motivata facilmente: il libro di Stoll, che ahimè non ho letto, era una critica radicale a Internet e viene normalmente citato come esempio di totale fallimento nelle predizioni. Per esempio, prevedeva che il commercio elettronico non sarebbe mai decollato e che i giornali non sarebbero mai stati rimpiazzati dalle pubblicazioni online… Non avendolo mai letto non so quanto fossero ragionevoli le argomentazioni pubblicate. Di sicuro, il libro di Narayanan e Kapoor brilla invece per la sua prudenza e per la competenza mostrata dagli autori, oltre che per la sua leggibilità.
 

martedì 22 ottobre 2024

I limiti di ChatGPT: il problema del 99,5%

 
Come dicevo pochi giorni fa, ChatGPT in sostanza scrive bene in italiano. In prima approssimazione, il livello dei testi che produce è paragonabile a quello dei testi prodotti da studenti universitari di laurea magistrale; o, più in generale, da persone di elevato livello culturale che non siano professioniste della scrittura. In altra prospettiva, il numero di veri e propri errori che si ritrova nei testi di ChatGPT in italiano è simile a quello che si ritrova nei testi di professionisti della scrittura (dai professori universitari di materie umanistiche ai giornalisti) prima che su di essi venga condotta una revisione finale. Diciamo, quelli che si trova di fronte la persona incaricata di dare una rilettura agli atti di un convegno non particolarmente rilevante...
 
Tuttavia, è utile andare oltre la prima approssimazione! Va quindi ricordato che il lavoro di ChatGPT, nei miei sondaggi, non è mai stato perfetto. Più in dettaglio, all’interno di testi di una certa estensione compaiono sempre, prima o poi, errori o tratti che un professionista della scrittura non ammetterebbe (nel commento della settimana scorsa ho citato in particoalre la frequenza dei calchi dall’inglese). Sintetizzando, possiamo dire che il sistema al momento non riesce a svolgere in modo affidabile la revisione finale.
 
Facciamo un esempio pratico. Premetto che la frequenza delle cosiddette “allucinazioni” fa sì che sia pericolosissimo usare questi sistemi come motori di ricerca o strumenti per la ricerca di informazioni. Comunque, a fini dimostrativi, stamattina ho chiesto una definizione a ChatGPT-4o: “Puoi spiegarmi che cos'è un fonema?”. La risposta è stata:
 
Un fonema è l'unità minima distintiva del suono all'interno di una lingua. In altre parole, un fonema è un suono che, se cambiato, modifica il significato di una parola. Per esempio, in italiano, le parole "pane" e "cane" si distinguono per un solo suono, quello della lettera "p" rispetto alla "c". Questo suono diverso rappresenta due fonemi distinti (/p/ e /k/), che creano una differenza di significato.
I fonemi non corrispondono necessariamente ai singoli caratteri dell'alfabeto: per esempio, in italiano il suono "ch" in "chiave" è un solo fonema, anche se rappresentato da due lettere. 
Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non cambiano il significato della parola, sono considerate varianti dello stesso fonema.    

In questo caso, la spiegazione  contiene errori rilevanti nella sostanza. In particolare, nel primo capoverso si parla del fonema come di un “suono” che può essere “cambiato”, e questo è un modo decisamente distorto per presentare l’informazione. Più in dettaglio, è come minimo ambigua la seconda parte della terza frase (io direi che “… si distinguono solo perché è diverso il suono iniziale: nella prima è quello rappresentato dalla lettera "p", nella seconda quello rappresentato dalla lettera "c"”). Inoltre, è decisamente confusa la spiegazione successiva: “Questo suono diverso rappresenta due fonemi distinti…” In realtà, appunto, non si tratta di un singolo “suono diverso” che “rappresenta due fonemi” ma di due suoni diversi (una “diversità di suono”) che corrispondono a due fonemi distinti.
 
Soprattutto, però, è utile notare che in questo testo compare uno dei tipici errori formali delle intelligenze artificiali generative. L’ultima frase dice infatti:
 
Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non cambiano il significato della parola, sono considerate varianti dello stesso fonema.  
  
Il testo non è grammaticale perché il soggetto non espresso della preposizione coordinata “sono considerate varianti” (e della subordinata “finché non cambiano”) non è in realtà quello della prima preposizione (cioè “un fonema”), ma quello della frase tra parentesi (cioè “queste varianti si chiamano allofoni”). La frase tra parentesi rientra in effetti, secondo la terminologia usata da Renzi, Salvi e Cardinaletti nella Grande grammatica italiana di consultazione, nella categoria delle “parentetiche”. Ora, nell’italiano scritto le parentetiche sono (e devono essere) prive di legami sintattici con la frase che le contiene; non possono quindi fornire il soggetto implicito della proposizione successiva. Di conseguenza, il testo dovrebbe essere corretto, per esempio, in questo modo, creando due frasi distinte con l’esplicitazione del diverso soggetto e l’eliminazione della parentetica:
 
Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto. Queste varianti si chiamano allofoni, ma, se non cambiano il significato della parola, sono appunto considerate semplici varianti dello stesso fonema.
 
L’esperienza mostra che tale tipo di intervento, ovvio per un revisore esperto anche se digiuno di grammatica, non è per niente ovvio a ChatGPT. In questo caso, per esempio, ho iniziato una nuova conversazione con il sistema, dandogli tra virgolette il brano appena generato sul fonema, preceduto dalla richiesta: “Questa spiegazione non è del tutto corretta nella forma linguistica. Puoi correggerla?” La risposta di ChatGPT non è stata soddisfacente:
 
Ecco una versione migliorata della tua spiegazione:
"Il fonema è l'unità minima distintiva del suono in una lingua. In altre parole, un fonema è un suono che, se modificato, cambia il significato di una parola. Ad esempio, in italiano, le parole pane e cane si distinguono per un solo suono, quello iniziale: la /p/ di pane e la /k/ di cane. Questi due suoni rappresentano fonemi distinti, /p/ e /k/, che determinano una differenza di significato.
I fonemi non corrispondono necessariamente ai singoli caratteri dell'alfabeto. Per esempio, in italiano il suono della combinazione ch in chiave è un unico fonema, pur essendo scritto con due lettere.
Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma, finché non alterano il significato della parola, vengono considerate varianti dello stesso fonema."
In questa versione, ho riformulato alcune frasi per migliorare la scorrevolezza e la precisione terminologica.
 
È interessante notare che, senza che ciò venisse richiesto, il sistema ha eseguito alcuni interventi sia sulla sostanza sia sugli aspetti che potremmo definire “redazionali”. Per esempio, all’impiego dei grassetti ha sostituito quello dei corsivi e all’uso di “Per esempio” (che io raccomando) ha sostituito quello di “Ad esempio”. Per la sostanza, poi, la spiegazione del primo capoverso è diventata decisamente più corretta! Nell’ultima frase di quel capoverso ancora non si dovrebbe dire che i suoni “rappresentano” (semmai “corrispondono” o simili), ma la spiegazione fornita nella frase precedente è adesso molto più accettabile.
 
Tuttavia, l’errore linguistico nell’ultima frase è rimasto e non è stato notato. Lo stesso avviene se ci si concentra sull’ultima frase chiedendo in modo più esplicito:
 
La frase "Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma, finché non alterano il significato della parola, vengono considerate varianti dello stesso fonema." contiene un errore sintattico. Puoi correggerla?
 
La risposta, che include una spiegazione non corrispondente all’intervento effettivamente eseguito, è ancora insoddisfacente:
 
Hai ragione, la frase può essere migliorata dal punto di vista sintattico. Ecco la versione corretta:
"Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non alterano il significato della parola, sono considerate varianti dello stesso fonema."
Ho eliminato la virgola superflua prima di "sono considerate" per rendere la frase più fluida e corretta.
 
Questa difficoltà a compiere l’ultimo passo è il motivo per cui la generazione di testo, al momento, per raggiungere un livello professionale umano su testi di una certa estensione ha sempre bisogno di una revisione umana. Si tratta, in altre parole, di una delle tante manifestazioni del problema del passare dal 99,5% al 100% di successi (non sono percentuali esatte, ma rendono l’idea!). Tale problema si è rivelato spinosissimo in molti settori: nell’ambito della guida automatica la differenza dello 0,5% è quella che ancora oggi impedisce di avere automobili in grado di muoversi senza continua supervisione umana se non in situazioni ben controllate (in pratica, nel mondo occidentale solo i servizi di Waymo in alcune aree di tre città americane raggiungono questo livello in un contesto urbano).
 
Nella scrittura, il problema è senz’altro meno spinoso perché, banalmente… anche gli esseri umani hanno un po’ di difficoltà a fare l’ultima revisione. I redattori editoriali in effetti esistono (esistevano?) anche per quello. La differenza è che l’essere umano può anche autorevisionarsi senza troppi problemi, tipicamente rivedendo il testo la mattina dopo, a mente fresca. ChatGPT e sistemi simili no, o perlomeno, non in modo tanto affidabile da poter fare a meno della supervisione.
 
Questo è il motivo per cui anche nell’elaborazione del testo, se si vuole raggiungere un risultato all’altezza degli standard dell’editoria contemporanea, il coinvolgimento umano rimane indispensabile. Le capacità di sistemi come ChatGPT restano stupefacenti, ma va ricordato che rimane anche quello 0,5%, e che sembra uno 0,5% assai difficile da eliminare.
 

venerdì 18 ottobre 2024

ChatGPT scrive bene in italiano

 
Immagine generata da GPT-4o sulla base del prompt: Genere un'immagine di Pietro Bembo che esamina, con espressione perplessa e vagamente stupita, il testo che vede sullo schermo di un computer laptop. Assieme a Pietro Bembo deve esserci un personaggio con gli occhiali che guarda lo stesso schermo. L'immagine deve imitare lo stile di una xilografia rinascimentale.
Riflettere sulla valutazione dei testi prodotti da intelligenze artificiali è interessante. Ma andando sulla pratica: quanto sono buoni i testi scritti in italiano? Risposta sintetica: sono di alto livello, con pochissimi errori. Perlomeno, quando si rimane al livello dei testi in italiano standard.
 
Questa caratteristica generale è già stata autorevolmente segnalata in diverse occasioni da Claudio Marazzini, Presidente emerito dell’Accademia della Crusca, che in un’intervista del 2023 ha per esempio dichiarato:
 
Ho fatto alcuni esperimenti, anche con l’amico Petralli. E devo dire che ChatGPT, beh, fa un uso corretto della lingua italiana. Ma anche delle altre lingue, come il neogreco o il basco. Sì, questo chatbot è ottimo sia nella comprensione sia nella scrittura. Rimanendo all’italiano, si comporta come un parlante nativo. Direi anche piuttosto colto.
 
In effetti, non ci sono dubbi sul fatto che l’italiano di ChatGPT sia di alto livello e che per esempio includa pochissimi errori grammaticali. Il livello è davvero quello del “parlante nativo” e piuttosto colto! Tuttavia, occasionalmente si producono errori veri e propri (come del resto accade anche ai madrelingua, quando producono testi): nel mio contributo uscito su “AI-Linguistica” fornisco un po’ di dettagli. Per esempio, nel piccolo corpus preso in esame nel contributo (circa 7000 parole, ricavate da ChatGPT-3.5 e ChatGPT-4) compaiono due errori sintattici:
  • Il termine "diritto d'autore" e "copyright" sono spesso utilizzati in modo intercambiabile (…)
  • Se appropriato per il corso, mostri [invece di “mostra”] loro esempi di scritti creativi che sono stati premiati o riconosciuti per la loro qualità
Nel secondo esempio vale poi la pena notare l’uso del pronome standard “loro” invece del neostandard “gli” – a rinforzare il livello di formalità.
 
In aggiunta a questi, nel corpus sono presenti due errori ortografici: “un’autore” e “clarezza” al posto di “chiarezza”. Inoltre, per quanto riguarda scelte su cui nell’italiano contemporaneo ci sono in effetti oscillazioni, nella frase “in modo che gli studenti possano esporre se stessi” il pronome “sé stessi” è stato scritto senza accento (secondo l’uso scolastico e contro il noto invito di Luca Serianni), mentre l’uso della -d eufonica nei testi è decisamente oscillanti.
 
Nel corpus però l’aspetto più significativo è un altro: il gran numero di calchi dall’inglese (come l’impiego dell’aggettivo “accademico” in contesti in cui l’italiano userebbe “scientifico”). A questo si aggiunge l’uso di una parola inglese (“jargon”) al posto della parola corrispondente italiana (“gergo”) senza che il contesto fornisca nessuna motivazione per la sostituzione. In diversi punti il rapporto con l’inglese è in effetti tanto forte che alcune frasi, se fossero prodotte da un autore umano, sarebbero caratterizzate come traduzioni un po’ meccaniche dall’inglese. Per esempio:
 
Mi dispiace, Mirko, ma non posso fornire saggistica specifica o estratti di saggistica a causa delle restrizioni di copyright.
 
Il meccanismo con cui è stata generata questa frase non è una traduzione… ma è difficile non ricondurre le ultime parole a una traduzione meccanica di un originale in lingua inglese, “copyright restrictions”, che in italiano in questo contesto dovrebbe essere presentato come “restrizioni dovute al copyright” (o meglio ancora, “restrizioni dovute al diritto d’autore”).
 
Diciamo quindi che i testi prodotti da ChatGPT non arrivano al livello di un testo professionale pubblicato a stampa da un editore affermato dopo una revisione redazionale. Arrivano però tranquillamente, nella mia esperienza, al livello di un testo scritto da bravi studenti universitari o da persone di elevato livello culturale ma che non siano professionisti della scrittura. Vale anche la pena di notare che, dal punto di vista morfosintattico, le frasi con errori arrivano a un livello che è normale anche nel testo di professionisti della scrittura prima che sia condotta la revisione finale.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.