Linguaggio e scrittura: 2024

giovedì 5 dicembre 2024

Pascucci e Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana

Ieri è iniziato il convegno CLiC-it 2024. Una delle buone abitudini di molti convegni scientifici è la pubblicazione degli atti prima che il convegno si tenga. Per questo, già da qualche giorno i contributi sono disponibili sul sito CLiC-it.

Tra questi contributi si trova anche un articolo scritto da Mariachiara Pascucci, dottoranda del dottorato in Studi italianistici dell’Università di Pisa, e da me: Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana. Anche in questo caso, in un convegno che ammette come lingue di lavoro sia l’inglese sia l’italiano, il nostro è in effetti l’unico contributo scritto in italiano su oltre 100 testi pubblicati negli atti… quando posso, continuo anche questa battaglia!

Veniamo però alla sostanza. Il contributo è collegato a una serie di lavori recenti sul miglioramento della chiarezza dei testi e si occupa di un aspetto che può sembrare marginale ma che a me sembra centrale: chi riesce a valutare meglio la chiarezza di un testo in lingua italiana?

La risposta a questa domanda non è banale. Esistono da decenni alcuni indicatori di chiarezza, come il GULPEASE o la percentuale di parole che appartengono al Vocabolario di Base dell’italiano. Tuttavia, questi indicatori hanno diversi limiti – e non possono valutare, per esempio, se un testo è stato reso più “chiaro” sacrificando informazioni importanti o introducendo veri e propri errori. Per una valutazione di questo tipo occorre appoggiarsi a esseri umani.

La domanda diventa quindi: quali esseri umani? Per alcuni tipi di valutazione, la risposta è semplice e può essere fornita con elevatissimo livello di precisione da persone con una competenza linguistica generica, da madrelingua o addirittura da non madrelingua, senza che sia necessaria una particolare formazione. Non occorre un curriculum da redattore o una laurea in linguistica italiana per dire per esempio che la frase “il gatti mangiassero camminare” non è grammaticale.

Per altri tipi di valutazione, la situazione però cambia. Valutare la qualità dei testi generati mi sembra essenziale; tuttavia, alcune deviazioni rispetto allo standard professionale di scrittura possono essere notate sistematicamente solo da professionisti o da persone molto attente. Lo stesso vale, verosimilmente, per giudizi sulla chiarezza di diversi tipi di testo. E le intelligenze artificiali generative su cui sto lavorando in questo periodo si avvicinano ormai talmente tanto al modello umano professionale che viene il sospetto che la valutazione di ciò che producono possa ormai essere compiuta in modo convincente solo da professionisti. Di qui le mie perplessità sul tipo di valutazione oggi senz’altro prevalente in questo genere di studi, cioè quella fatta da non esperti. In particolare, ho da tempo molte perplessità sull’affidabilità delle valutazioni compiute attraverso la pratica del “crowdsourcing”: reclutare valutatori non esperti attraverso piattaforme online.

Un conto è però sospettare che la situazione sia questa, un conto documentarla e quantificarla. Per questo ci siamo messi al lavoro… e i risultati sono stati interessanti. Come punto di partenza abbiamo usato dei testi resi più chiari (auspicabilmente) attraverso l’intervento di esseri umani e di ChatGPT. Abbiamo poi valutato noi stessi questi testi, considerandoci “esperti” di riferimento. Dopodiché, abbiamo sottoposto i testi a valutatori esperti (= studenti magistrali che hanno seguito un mio corso sulla valutazione), a valutatori reclutati attraverso il sistema del crowdsourcing e, per finire, a ChatGPT stesso. Abbiamo poi visto quanto i diversi valutatori si sono avvicinati alla valutazione di riferimento.

I risultati sono stati in parte sorprendenti. Come era lecito attendersi, i valutatori esperti si sono avvicinati più di ogni altro gruppo al risultato di riferimento. Tuttavia, il secondo posto è stato ottenuto non dai valutatori reclutati attraverso il crowdsourcing ma da ChatGPT: il crowdsourcing è finito al terzo posto. Personalmente, diffido da tempo dell’attendibilità del crowdsourcing per questo genere di valutazioni, ma non immaginavo che potesse prodursi una classifica del genere.

Naturalmente, molto dipende dal modo in cui è stato costruito l’esperimento! E nulla dimostra che i risultati saranno gli stessi, per esempio, con altri tipi di incarico. Ma fornire indicazioni quantitative che mostrano quanto i risultati della valutazione dipendano dai valutatori mi sembra fondamentale!

Mariachiara Pascucci e Mirko Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana, in Proceedings of the Tenth Italian Conference on Computational Linguistics (CLiC-it 2024), Pisa, 4-6 dicembre 2024, a cura di Felice Dell’Orletta, Alessandro Lenci, Simonetta Montemagni e Rachele Sprugnoli, Aachen, CEUR-WS, 2024 ISSN 1613-0073.

sabato 16 novembre 2024

A Tubinga per l'ADI

Sono a Tubinga per la partecipazione all’interessantissimo quindicesimo convegno dell’Associazione Docenti di Italiano in Germania. Il convegno si intitola L’IA-taliano: l’intelligenza artificiale nella didattica delle lingue; è iniziato ieri e si concluderà oggi.

Io ho parlato stamattina, con un intervento a invito in plenaria intitolato Scrivere con l’intelligenza artificiale. Ho poi partecipato alla tavola rotonda con gli altri relatori in plenaria: Anna-Maria De Cesare, Paolo Di Paolo e Stefania Spina. E adesso sto seguendo i workshop didattici (di Davide Schenetti e Alessandro Bencivenni). In generale, è un evento interessantissimo che risponde a un’esigenza di aggiornamento molto sentita.

In più, ci sono arrivato in treno, con vagone letto Nightjet da Venezia a Stoccarda; se va tutto bene, ripartirò tra un po’ con lo stesso collegamento, in senso inverso. E il treno per me è sempre un motivo di soddisfazione in più!

lunedì 4 novembre 2024

Narayanan e Kapoor – AI Snake Oil

Era l’ora! Ecco un libro che posso consigliare senza riserve a proposito delle possibilità dell’“intelligenza artificiale” attuale: AI Snake Oil di Arvind Narayanan e Sayash Kapoor.

Le mie esperienze sulla valutazione sono molto in sintonia con il sottotitolo del libro, What Artificial Intelligence Can Do, What It Can't, and How to Tell the Difference. Il titolo, però, potrebbe risultare opaco al lettore italiano. Gli autori per fortuna ne chiariscono il significato nel primo capitolo, Introduction, rinviando ai venditori di “olio di serpente” (snake oil) diffusi negli Stati Uniti tra la fine dell’Ottocento e i primi del Novecento. L’“olio di serpente” era infatti ritenuto in grado di curare un po’ tutti i problemi di salute: dai reumatismi ai morsi di animale al mal di denti. Ovviamente, non funzionava. Il che però non impediva ai venditori di arricchirsi con il prodotto, che oltretutto spesso, come notano gli autori, in realtà non conteneva davvero “olio di serpente”. Allo stesso modo,

AI snake oil is AI that does not and cannot work, like the hiring video analysis software that originally motivated the research that led to this book. The goal of this book is to identify AI snake oil—and to distinguish it from AI that can work well if used in the right ways. While some cases of snake oil are clear cut, the boundaries are a bit fuzzy. In many cases, AI works to some extent but is accompanied by exaggerated claims by the companies selling it. That hype leads to overreliance, such as using AI as a replacement for human expertise instead of as a way to augment it (p. 28).

Gli autori notano poi come buona parte delle esagerazioni sia riconducibile al fatto che l’etichetta di “intelligenza artificiale” (IA) viene assegnata a sistemi molto diversi tra di loro. E fanno quindi una distinzione tanto ragionevole quanto forte tra IA “predittive” e IA “generative”.

Il secondo capitolo, intitolato How Predictive AI Goes Wrong, viene quindi dedicato a mostrare il modo in cui le IA “predittive” hanno collezionato una serie imponente di insuccessi. Gli autori insistono anche sul fatto che questi sistemi vengono già utilizzati in molti contesti per fare previsioni su questioni di assoluta rilevanza – in particolare nel sistema giudiziario degli Stati Uniti (con sistemi come ORAS e PSA: p. 51) – con esiti non solo pessimi in generale ma chiaramente punitivi per i gruppi sociali svantaggiati: esempi non solo di “how AI tools search under the streetlight” ma di come “More often than not, the streetlight is pointed at the poor” (p. 53).

Il secondo capitolo si conclude con alcune ipotesi sul perché, nonostante gli evidenti limiti, i sistemi predittivi sono così popolari. Gli autori ritengono che al di là delle motivazioni pratiche, ci siano anche cause psicologiche profonde:

part of the reason surely is that decision-makers are people—people who dread randomness like everyone else. This means they can’t stand the thought of the alternative to this way of decision-making—that is, acknowledging that the future cannot be predicted. They would have to accept that they have no control over, say, picking good job performers, and that it’s not possible to do better than a process that is mostly random (p. 57).

Non so quanto essere d’accordo con questo, ma ho pochi elementi per esprimermi in un senso o nell’altro! In fin dei conti, i sistemi predittivi vengono usati soprattutto negli Stati Uniti: in Italia non mi sembrano particolarmente popolari e non ne ho mai sentito incoraggiare l’uso, per esempio, nei concorsi pubblici o nei tribunali.

Di applicazione più generale è il capitolo 3, Why Can’t AI Predict the Future? Qui viene presentata innanzitutto una storia di tentativi (falliti) di usare il computer per predire il futuro. Gli autori notano però che non tutte le predizioni sono impossibili: alcune sono perfettamente possibili e normalmente usate. Quel che conta è imparare a distinguere tra ciò che in effetti funziona abbastanza da avere applicazioni pratiche (a cominciare dalle previsioni del tempo) e ciò che invece non funziona per nulla (le previsioni delle agitazioni sociali, o del mercato azionario). Un esempio discusso in dettaglio (da p. 69) è quello della Fragile Families Challenge, uno studio su larga scala condotto per cercare di prevedere gli esiti di vita (voti scolastici e simili) di un campione molto ampio di bambini nati attorno al Duemila. Nonostante la partecipazione di numerosi gruppi di ricerca, anche i migliori modelli sviluppati e basati su IA “were only slightly better than a coin flip” e non sono riusciti a ottenere previsioni migliori di quelle basate su indicatori molto semplici (p. 73).

Gli autori notano poi l’incapacità attuale, anche da parte dei migliori esperti, di prevedere in dettaglio successi o fallimenti nell’industria del cinema o della musica, oltre che nei meme. Alcuni dei limiti sono dovuti a vincoli pratici, come la scarsa disponibilità di dati pertinenti; altri però sembrano strutturalmente impossibili da superare (p. 97).

Molto diverso è il tono del quarto capitolo, The Long Road to Generative AI. Gli autori esordiscono infatti chiarendo che in questo caso “the technology is powerful and the advances are real” (p. 99).

Chi segue il mio lavoro conoscerà le mie osservazioni sulla difficoltà di valutare le IA generative, da ChatGPT in giù. Narayanan e Kapoor descrivono il problema in questi termini:

Some products do what it says on the tin. Others don’t work at all. In between those two extremes are products that are useful but oversold. Each of these can be harmful, in different ways. Generative AI is a mixed bag.(…) The varied landscape of generative AI applications resists a simple characterization of the limits of the technology (pp. 103-104).

Detto questo, gli autori passano a descrivere anche i successi, insistendo in particolare sull’importanza della competizione ImageNet per la classificazione di immagini a partire dal 2020 (p. 111). Insistono poi anche sul ruolo importante del recente premio Nobel Geoffrey Hinton in quanto inventore dalla tecnica di “backpropagation”. Ma notano anche i problemi connessi al fatto che competizioni e tecniche del genere sono poi andate avanti senza coinvolgere gli esperti dei settori su cui le tecniche operavano, creando dinamiche di autoreferenzialità.

Vale la pena di notare anche le ragionevoli posizioni degli autori riguardo alla questione di quanto le attività di cui sono capaci i sistemi siano vera comprensione:

Understanding is not all or nothing. Chatbots may not understand a topic as deeply or in the same way as a person—especially an expert—might, but they might still understand it to some useful degree. (…) Chatbots “understand” in the sense that they build internal representations of the world through their training process. Again, those representations might differ from ours, might be inaccurate, and might be impoverished because they don’t interact with the world in the way that we do. Nonetheless, these representations are useful, and they allow chatbots to gain capabilities that would be simply impossible if they were merely giant statistical tables of patterns observed in the data. (…) we know that language models learn the structure of language, even though they don’t have grammatical rules programmed into them (pp. 137-138).

Non sorprendentemente, gli autori poi ipotizzano che tutte le preoccupazioni sul modo in cui i sistemi generativi possano essere usati per esempio per manipolare elezioni siano esagerate (p. 147). Il vero rischio si colloca invece nelle modalità di sfruttamento economico (p. 148).

Con questa ragionevolissima impostazione, non sorprende che la risposta alla domanda posta nel titolo del capitolo 5, Is Advanced AI an Existential Treat? sia un semplice “no”. La domanda più interessante è allora: perché diverse persone intelligenti credono a una cosa tanto assurda? La spiegazione degli autori accosta ai ben evidenti motivi di profitto anche fattori di altro tipo, come la continua tentazione di ognuno ad assegnare importanza cosmica al proprio lavoro.

Molto simile è anche l’impostazione del capitolo 5, Why Can’t AI Fix Social Media? I sistemi di “content moderation” (‘moderazione dei contenuti’) vengono qui considerati un terzo tipo di IA, in aggiunta a quelle predittive e generative. Anche qui, però, come nel caso delle IA predittive, i fallimenti sono evidenti – e sono evidenti anche gli abusi.

Su questa base, il sesto capitolo si chiede Why Do Myths about AI Persist? Un punto importante è l’applicazione meccanica di semplici cliché sul modo in cui le tecnologie avanzano. Ma vorrei conservare soprattutto una citazione rilevante a proposito dei meccanismi con cui le esagerazioni si autoalimentano:

performance on benchmark datasets overestimates the usefulness of AI in the real world. As we saw in chapter 4, the dominant way to determine the usefulness of AI is through benchmark datasets. But benchmarks are wildly overused in AI. They have been heavily criticized for collapsing a multidimensional evaluation into a single number. When used as a way to compare humans and bots, the results can mislead people into believing that AI is close to replacing humans (p. 241).

E una citazione sul confronto con la realtà, e su quanto anche i premi Nobel possano dire stupidaggini perfino nel loro campo:

Researchers also misuse language to imply that AI tools perform better than they actually do—for instance, by implying that they have human-level reading comprehension, when the only evidence is on a benchmark dataset instead of evaluations in the real world. This culture is exemplified by a dismissive attitude toward domain experts that many AI researchers and developers hold. In 2016, AI pioneer Geoffrey Hinton claimed: “If you work as a radiologist, you’re like the coyote that’s already over the edge of the cliff but hasn’t yet looked down, so doesn’t realize there’s no ground underneath him. People should stop training radiologists now. It’s just completely obvious that within five years, deep learning is going to do better than radiologists.” In 2022, there was a worldwide shortage of radiologists. AI has not even come close to replacing radiologists (pp. 238-239).

Detto questo, gli autori si mettono alla prova nel capitolo 8, Where Do We Go from here?. Citano i problemi con i sistemi di identificazione dei testi generati, incoraggiano ad accettare la casualità di molte valutazioni, notano l’impatto reale sui traduttori e così via. E poi descrivono due scenari futuri, visti attraverso gli occhi di due bambini d’invenzione, Kai e Maya. Nel mondo di Kai gli errori legislativi e di sviluppo portano a uno scenario in cui l’applicazione dell’IA devasta la scuola e la vita sociale; nel mondo di Maya, frutto di scelte più sensate, l’IA porta invece un aiuto reale in molte situazioni. Per scegliere l’uno invece dell’altro, gli autori notano che sono necessarie competenze e riflessioni approfondite, non la riproposizione di luoghi comuni. E su questo, come su molte altre delle loro osservazioni, non posso che concordare.

Una citazione finale da conservare, con un concetto che sta alla base anche di molte delle mie idee sul modo in cui devono essere valutate le capacità dei sistemi generativi:

Medical researchers perform RCTs [randomized controlled trials] despite their slow pace and high expense for a simple reason—easier, faster methods don’t work. The same is true in many areas where AI is used for automated decision-making (p.45).

Arvind Narayanan e Sayash Kapoor, AI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference, Princeton, Princeton University Press 2024, edizione Kindle. € 18,19, ISBN 9780691249643.

Piccola nota storica: agli interessati della mia generazione, il titolo del libro ricorderà quello di Silicon Snake Oil di Clifford Stoll, uscito nel 1995 e con un’impostazione simile. Stoll, però, non viene mai citato da Narayanan e Kapoor. L’omissione può essere motivata facilmente: il libro di Stoll, che ahimè non ho letto, era una critica radicale a Internet e viene normalmente citato come esempio di totale fallimento nelle predizioni. Per esempio, prevedeva che il commercio elettronico non sarebbe mai decollato e che i giornali non sarebbero mai stati rimpiazzati dalle pubblicazioni online… Non avendolo mai letto non so quanto fossero ragionevoli le argomentazioni pubblicate. Di sicuro, il libro di Narayanan e Kapoor brilla invece per la sua prudenza e per la competenza mostrata dagli autori, oltre che per la sua leggibilità.

martedì 22 ottobre 2024

I limiti di ChatGPT: il problema del 99,5%

Come dicevo pochi giorni fa, ChatGPT in sostanza scrive bene in italiano. In prima approssimazione, il livello dei testi che produce è paragonabile a quello dei testi prodotti da studenti universitari di laurea magistrale; o, più in generale, da persone di elevato livello culturale che non siano professioniste della scrittura. In altra prospettiva, il numero di veri e propri errori che si ritrova nei testi di ChatGPT in italiano è simile a quello che si ritrova nei testi di professionisti della scrittura (dai professori universitari di materie umanistiche ai giornalisti) prima che su di essi venga condotta una revisione finale. Diciamo, quelli che si trova di fronte la persona incaricata di dare una rilettura agli atti di un convegno non particolarmente rilevante...

Tuttavia, è utile andare oltre la prima approssimazione! Va quindi ricordato che il lavoro di ChatGPT, nei miei sondaggi, non è mai stato perfetto. Più in dettaglio, all’interno di testi di una certa estensione compaiono sempre, prima o poi, errori o tratti che un professionista della scrittura non ammetterebbe (nel commento della settimana scorsa ho citato in particoalre la frequenza dei calchi dall’inglese). Sintetizzando, possiamo dire che il sistema al momento non riesce a svolgere in modo affidabile la revisione finale.

Facciamo un esempio pratico. Premetto che la frequenza delle cosiddette “allucinazioni” fa sì che sia pericolosissimo usare questi sistemi come motori di ricerca o strumenti per la ricerca di informazioni. Comunque, a fini dimostrativi, stamattina ho chiesto una definizione a ChatGPT-4o: “Puoi spiegarmi che cos'è un fonema?”. La risposta è stata:

Un fonema è l'unità minima distintiva del suono all'interno di una lingua. In altre parole, un fonema è un suono che, se cambiato, modifica il significato di una parola. Per esempio, in italiano, le parole "pane" e "cane" si distinguono per un solo suono, quello della lettera "p" rispetto alla "c". Questo suono diverso rappresenta due fonemi distinti (/p/ e /k/), che creano una differenza di significato.

I fonemi non corrispondono necessariamente ai singoli caratteri dell'alfabeto: per esempio, in italiano il suono "ch" in "chiave" è un solo fonema, anche se rappresentato da due lettere.

Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non cambiano il significato della parola, sono considerate varianti dello stesso fonema.

In questo caso, la spiegazione contiene errori rilevanti nella sostanza. In particolare, nel primo capoverso si parla del fonema come di un “suono” che può essere “cambiato”, e questo è un modo decisamente distorto per presentare l’informazione. Più in dettaglio, è come minimo ambigua la seconda parte della terza frase (io direi che “… si distinguono solo perché è diverso il suono iniziale: nella prima è quello rappresentato dalla lettera "p", nella seconda quello rappresentato dalla lettera "c"”). Inoltre, è decisamente confusa la spiegazione successiva: “Questo suono diverso rappresenta due fonemi distinti…” In realtà, appunto, non si tratta di un singolo “suono diverso” che “rappresenta due fonemi” ma di due suoni diversi (una “diversità di suono”) che corrispondono a due fonemi distinti.

Soprattutto, però, è utile notare che in questo testo compare uno dei tipici errori formali delle intelligenze artificiali generative. L’ultima frase dice infatti:

Il testo non è grammaticale perché il soggetto non espresso della preposizione coordinata “sono considerate varianti” (e della subordinata “finché non cambiano”) non è in realtà quello della prima preposizione (cioè “un fonema”), ma quello della frase tra parentesi (cioè “queste varianti si chiamano allofoni”). La frase tra parentesi rientra in effetti, secondo la terminologia usata da Renzi, Salvi e Cardinaletti nella Grande grammatica italiana di consultazione, nella categoria delle “parentetiche”. Ora, nell’italiano scritto le parentetiche sono (e devono essere) prive di legami sintattici con la frase che le contiene; non possono quindi fornire il soggetto implicito della proposizione successiva. Di conseguenza, il testo dovrebbe essere corretto, per esempio, in questo modo, creando due frasi distinte con l’esplicitazione del diverso soggetto e l’eliminazione della parentetica:

Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto. Queste varianti si chiamano allofoni, ma, se non cambiano il significato della parola, sono appunto considerate semplici varianti dello stesso fonema.

L’esperienza mostra che tale tipo di intervento, ovvio per un revisore esperto anche se digiuno di grammatica, non è per niente ovvio a ChatGPT. In questo caso, per esempio, ho iniziato una nuova conversazione con il sistema, dandogli tra virgolette il brano appena generato sul fonema, preceduto dalla richiesta: “Questa spiegazione non è del tutto corretta nella forma linguistica. Puoi correggerla?” La risposta di ChatGPT non è stata soddisfacente:

Ecco una versione migliorata della tua spiegazione:

"Il fonema è l'unità minima distintiva del suono in una lingua. In altre parole, un fonema è un suono che, se modificato, cambia il significato di una parola. Ad esempio, in italiano, le parole pane e cane si distinguono per un solo suono, quello iniziale: la /p/ di pane e la /k/ di cane. Questi due suoni rappresentano fonemi distinti, /p/ e /k/, che determinano una differenza di significato.

I fonemi non corrispondono necessariamente ai singoli caratteri dell'alfabeto. Per esempio, in italiano il suono della combinazione ch in chiave è un unico fonema, pur essendo scritto con due lettere.

Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma, finché non alterano il significato della parola, vengono considerate varianti dello stesso fonema."

In questa versione, ho riformulato alcune frasi per migliorare la scorrevolezza e la precisione terminologica.

È interessante notare che, senza che ciò venisse richiesto, il sistema ha eseguito alcuni interventi sia sulla sostanza sia sugli aspetti che potremmo definire “redazionali”. Per esempio, all’impiego dei grassetti ha sostituito quello dei corsivi e all’uso di “Per esempio” (che io raccomando) ha sostituito quello di “Ad esempio”. Per la sostanza, poi, la spiegazione del primo capoverso è diventata decisamente più corretta! Nell’ultima frase di quel capoverso ancora non si dovrebbe dire che i suoni “rappresentano” (semmai “corrispondono” o simili), ma la spiegazione fornita nella frase precedente è adesso molto più accettabile.

Tuttavia, l’errore linguistico nell’ultima frase è rimasto e non è stato notato. Lo stesso avviene se ci si concentra sull’ultima frase chiedendo in modo più esplicito:

La frase "Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma, finché non alterano il significato della parola, vengono considerate varianti dello stesso fonema." contiene un errore sintattico. Puoi correggerla?

La risposta, che include una spiegazione non corrispondente all’intervento effettivamente eseguito, è ancora insoddisfacente:

Hai ragione, la frase può essere migliorata dal punto di vista sintattico. Ecco la versione corretta:

"Inoltre, un fonema può essere realizzato in modi leggermente diversi a seconda del contesto (queste varianti si chiamano allofoni), ma finché non alterano il significato della parola, sono considerate varianti dello stesso fonema."

Ho eliminato la virgola superflua prima di "sono considerate" per rendere la frase più fluida e corretta.

Questa difficoltà a compiere l’ultimo passo è il motivo per cui la generazione di testo, al momento, per raggiungere un livello professionale umano su testi di una certa estensione ha sempre bisogno di una revisione umana. Si tratta, in altre parole, di una delle tante manifestazioni del problema del passare dal 99,5% al 100% di successi (non sono percentuali esatte, ma rendono l’idea!). Tale problema si è rivelato spinosissimo in molti settori: nell’ambito della guida automatica la differenza dello 0,5% è quella che ancora oggi impedisce di avere automobili in grado di muoversi senza continua supervisione umana se non in situazioni ben controllate (in pratica, nel mondo occidentale solo i servizi di Waymo in alcune aree di tre città americane raggiungono questo livello in un contesto urbano).

Nella scrittura, il problema è senz’altro meno spinoso perché, banalmente… anche gli esseri umani hanno un po’ di difficoltà a fare l’ultima revisione. I redattori editoriali in effetti esistono (esistevano?) anche per quello. La differenza è che l’essere umano può anche autorevisionarsi senza troppi problemi, tipicamente rivedendo il testo la mattina dopo, a mente fresca. ChatGPT e sistemi simili no, o perlomeno, non in modo tanto affidabile da poter fare a meno della supervisione.

Questo è il motivo per cui anche nell’elaborazione del testo, se si vuole raggiungere un risultato all’altezza degli standard dell’editoria contemporanea, il coinvolgimento umano rimane indispensabile. Le capacità di sistemi come ChatGPT restano stupefacenti, ma va ricordato che rimane anche quello 0,5%, e che sembra uno 0,5% assai difficile da eliminare.

venerdì 18 ottobre 2024

ChatGPT scrive bene in italiano

Immagine generata da GPT-4o sulla base del prompt: Genere un'immagine di Pietro Bembo che esamina, con espressione perplessa e vagamente stupita, il testo che vede sullo schermo di un computer laptop. Assieme a Pietro Bembo deve esserci un personaggio con gli occhiali che guarda lo stesso schermo. L'immagine deve imitare lo stile di una xilografia rinascimentale.

Riflettere sulla valutazione dei testi prodotti da intelligenze artificiali è interessante. Ma andando sulla pratica: quanto sono buoni i testi scritti in italiano? Risposta sintetica: sono di alto livello, con pochissimi errori. Perlomeno, quando si rimane al livello dei testi in italiano standard.

Questa caratteristica generale è già stata autorevolmente segnalata in diverse occasioni da Claudio Marazzini, Presidente emerito dell’Accademia della Crusca, che in un’intervista del 2023 ha per esempio dichiarato:

Ho fatto alcuni esperimenti, anche con l’amico Petralli. E devo dire che ChatGPT, beh, fa un uso corretto della lingua italiana. Ma anche delle altre lingue, come il neogreco o il basco. Sì, questo chatbot è ottimo sia nella comprensione sia nella scrittura. Rimanendo all’italiano, si comporta come un parlante nativo. Direi anche piuttosto colto.

In effetti, non ci sono dubbi sul fatto che l’italiano di ChatGPT sia di alto livello e che per esempio includa pochissimi errori grammaticali. Il livello è davvero quello del “parlante nativo” e piuttosto colto! Tuttavia, occasionalmente si producono errori veri e propri (come del resto accade anche ai madrelingua, quando producono testi): nel mio contributo uscito su “AI-Linguistica” fornisco un po’ di dettagli. Per esempio, nel piccolo corpus preso in esame nel contributo (circa 7000 parole, ricavate da ChatGPT-3.5 e ChatGPT-4) compaiono due errori sintattici:

Il termine "diritto d'autore" e "copyright" sono spesso utilizzati in modo intercambiabile (…)
Se appropriato per il corso, mostri [invece di “mostra”] loro esempi di scritti creativi che sono stati premiati o riconosciuti per la loro qualità

Nel secondo esempio vale poi la pena notare l’uso del pronome standard “loro” invece del neostandard “gli” – a rinforzare il livello di formalità.

In aggiunta a questi, nel corpus sono presenti due errori ortografici: “un’autore” e “clarezza” al posto di “chiarezza”. Inoltre, per quanto riguarda scelte su cui nell’italiano contemporaneo ci sono in effetti oscillazioni, nella frase “in modo che gli studenti possano esporre se stessi” il pronome “sé stessi” è stato scritto senza accento (secondo l’uso scolastico e contro il noto invito di Luca Serianni), mentre l’uso della -d eufonica nei testi è decisamente oscillanti.

Nel corpus però l’aspetto più significativo è un altro: il gran numero di calchi dall’inglese (come l’impiego dell’aggettivo “accademico” in contesti in cui l’italiano userebbe “scientifico”). A questo si aggiunge l’uso di una parola inglese (“jargon”) al posto della parola corrispondente italiana (“gergo”) senza che il contesto fornisca nessuna motivazione per la sostituzione. In diversi punti il rapporto con l’inglese è in effetti tanto forte che alcune frasi, se fossero prodotte da un autore umano, sarebbero caratterizzate come traduzioni un po’ meccaniche dall’inglese. Per esempio:

Mi dispiace, Mirko, ma non posso fornire saggistica specifica o estratti di saggistica a causa delle restrizioni di copyright.

Il meccanismo con cui è stata generata questa frase non è una traduzione… ma è difficile non ricondurre le ultime parole a una traduzione meccanica di un originale in lingua inglese, “copyright restrictions”, che in italiano in questo contesto dovrebbe essere presentato come “restrizioni dovute al copyright” (o meglio ancora, “restrizioni dovute al diritto d’autore”).

Diciamo quindi che i testi prodotti da ChatGPT non arrivano al livello di un testo professionale pubblicato a stampa da un editore affermato dopo una revisione redazionale. Arrivano però tranquillamente, nella mia esperienza, al livello di un testo scritto da bravi studenti universitari o da persone di elevato livello culturale ma che non siano professionisti della scrittura. Vale anche la pena di notare che, dal punto di vista morfosintattico, le frasi con errori arrivano a un livello che è normale anche nel testo di professionisti della scrittura prima che sia condotta la revisione finale.

venerdì 11 ottobre 2024

Tavosanis, Valutare la qualità dei testi generati in lingua italiana

L’ho scritto a inizio settimana parlando di Co-Intelligence di Ethan Mollick: capire che cosa sanno fare o meno le cosiddette “intelligenze artificiali generative” non è affatto intuitivo. Di qui la centralità della valutazione dei loro prodotti.

Un mio contributo sull’argomento è stato pubblicato questa estate dalla rivista “AI-Linguistica” e ha come titolo, appunto, Valutare la qualità dei testi generati in lingua italiana. È anche un contributo piuttosto lungo, perché per arrivare alla valutazione di questi testi occorre fare un buon numero di premesse.

Uno dei motivi per cui le premesse sono necessarie è che non esiste un metodo collaudato per valutare i testi prodotti in questo modo. Esistono, certamente, diverse tradizioni di valutazione dei testi, praticate da gruppi diversi di persone: quella scolastica, quella del mondo della traduzione umana, quella della comunità della traduzione automatica, quella del testing linguistico… Ognuna di esse fornisce contributi interessanti. Nessuna di esse però, a mio giudizio, può essere adottata pari pari per la valutazione dei testi generati dalle intelligenze artificiali generative (ChatGPT e simili, insomma).

Di una cosa però sono sicuro: in questa fase, la valutazione dei testi delle intelligenze artificiali generative deve essere necessariamente una valutazione fatta da esseri umani competenti. Non esistono scorciatoie: non ci sono sistemi automatici o crowdsourcing che possano sostituire il lavoro di chi può dire se un’espressione è accettabile o meno nell’uso professionale. Le competenze linguistiche e filologiche sono indispensabili per riuscire a comprendere e valutare correttamente questi testi.

Aggiungo che non si tratta di un’idea a priori: è la conclusione cui sono arrivato dopo aver provato in modo sistematico le alternative e aver visto che, semplicemente, forniscono risultati molto meno validi rispetto alla valutazione di esseri umani competenti. I dettagli sugli esperimenti che mi portano a questa conclusione saranno presentati nei prossimi mesi in alcuni contributi in uscita, ma il quadro d’assieme è ben chiaro – e in linea con tutto ciò che sappiamo (ma spesso dimentichiamo) sulla valutazione.

Mirko Tavosanis, Valutare la qualità dei testi generati in lingua italiana, “AI-Linguistica” 1, 1, 2024, pp. 1-24. https://doi.org/10.62408/ai-ling.v1i1.14

martedì 8 ottobre 2024

Mollick, Co-Intelligence

Sicuramente, una delle cose che rendono difficile comprendere il funzionamento delle “intelligenze artificiali generative” (ChatGPT è simili) è il fatto che le loro capacità sono ben poco intuitive. In particolare, sono capaci di eseguire bene compiti sorprendenti e difficili, ma non sono capaci di eseguirne altri che sembrerebbero invece semplici.

Questa constatazione è ovviamente centrale per molte riflessioni. È anche uno dei nuclei alla base di un libro recente, Co-Intelligence di Ethan Mollick. Una delle definizioni più interessanti contenute nel libro è infatti quella che descrive i limiti delle capacità delle intelligenze artificiali generative come una “Jagged Frontier” (p. 46): una frontiera frastagliata, con molte sporgenze e rientranze, e che oltretutto ha confini invisibili. Solo un’esplorazione attenta, a opera di molte persone diverse, può individuare questi confini con una serie di tentativi ed errori.

Non c’è dubbio che questa descrizione si adatti bene alle esperienze degli ultimi anni, con la scoperta graduale delle capacità dei prompt e la messa a fuoco del fatto che i sistemi generativi rispondono in modo diverso a seconda del modo in cui viene posta la domanda (cosa che ancora pochi sanno, direi). Inoltre, l’idea che il modo migliore per scoprire cose nuove in questo settore sia quello di coinvolgere tante persone, invece che limitarsi al lavoro di pochi esperti, mi trova molto in sintonia (pp. 143-146).

Ciò che mi differenzia invece da Mollick è la stima dei risultati ricavabili da questa attività di esplorazione. Mollick dice per esempio, con sicurezza senz’altro eccessiva, che “These advances are once-in-a-generation technologies, like steam power or the internet, that touch every industry and every aspect of life” (p. xv). Al termine di una serie di paragoni spesso discutibili, viene poi spiegato il titolo del libro: “AI works, in many ways, as a co-intelligence. It augments, or potentially replaces, human thinking to dramatic results” (p. xvi). Tutto questo sulla base di, ahimè, “early studies” che mostrano le possibilità di aumentare la produttività dal 20 all’80 per cento in settori come la programmazione.

Il guaio di queste stime è che, storicamente, si rivelano quasi sempre molto ottimistiche. Le menzionerò ancora nelle conclusioni e conto di parlarne più avanti nella recensione di un altro libro recente... ma la lunga sequenza storica di esagerazioni nelle possibilità delle tecnologie dovrebbe rendere ragionevolmente scettico ogni lettore informato. Così come si dovrebbe essere davvero scettici, viste le esperienze, sulla visione ottimistica che il libro presenta per l’inserimento delle IA nel mondo del lavoro (il capitolo 6 è a volte quasi imbarazzante da questo punto di vista, specie se letto in Italia).

Più in dettaglio, dopo una sezione dedicata a discutere i rischi legati all’uso disinvolto delle “intelligenze artificiali predittive”, Mollick articola più in dettaglio le sue posizioni nel terzo capitolo, dedicato a presentare “Four Rules for Co-Intelligence”. I principi sono:

Always invite AI to the table, cioè in pratica provare a usare l’IA in tutte le attività, a parte evidentemente le situazioni in cui ci sono vincoli morali o legali (p. 46).
Be the human in the loop, cioè tenere d’occhio la produzione dei sistemi in modo da fornire un’attenta supervisione umana al lavoro delle IA (p. 51).
Treat AI like a person (but tell it what kind of person it is), cioè sfruttare il fatto che le risposte dei sistemi variano molto, anche qualitativamente, a seconda del ruolo che l’interlocutore umano assegna loro – da dilettante a specialista (p. 54).
Assume this is the worst AI you will ever use, cioè tenere conto delle possibilità di sviluppo dei sistemi (p. 59).

Io avrei alcune obiezioni al primo e al quarto principio. Per esempio, in rapporto al quarto, non sono così convinto del fatto che le intelligenze artificiali possano solo migliorare: in mancanza di grandi sviluppi tecnici, i vincoli legali, o la semplice procedura di “enshittification” di cui parla Cory Doctorow, possono benissimo rendere le IA del futuro meno capaci di quelle di oggi.

Soprattutto, però, in rapporto al terzo sono molto meno convinto di Mollick sulla quantità di benefici ricavabili in questo modo. Alcuni ce ne sono sicuramente, ma dopo due anni di tentativi da parte di milioni di utenti è intanto difficile immaginare che possa venire fuori qualcosa di radicalmente nuovo. Resta senz’altro la possibilità di trovare soluzioni individuali per problemi specifici – ma, appunto, non è affatto garantito che per esempio in una qualche attività lavorativa ci siano per forza di cose situazioni in cui le intelligenze artificiali generative possano aiutare. A cominciare innanzitutto dalla scuola, e da attività come l’insegnamento della scrittura!

Come già detto, infatti, le stime dei benefici sono preliminari e in situazioni del genere l’esagerazione è la regola. Che le IA abbiano alcune capacità effettivamente utili è indubbio; altrettanto indubbio, però, è che abbiano fortissimi limiti. Prima di abbracciare un generale ottimismo, mi sembra quindi utile entrare molto più in dettaglio nella valutazione. Questo è ciò che sto facendo con diversi lavori di ricerca… e conto di parlarne presto anche qui.

Ethan Mollick Co-Intelligence: Living and Working with AI, Londra, Penguin, 2024, versione Kindle, € 14,99, ISBN 978-0-753-56078-5 ASIN B0CHHY2PS4.

martedì 1 ottobre 2024

L’intelligenza artificiale generativa a scuola e all’università

Genera un'immagine in bianco e nero di docenti e studenti che scrivono usando strumenti basati sull'intelligenza artificiale. L'immagine deve essere imitare lo stile di una xilografia rinascimentale e dovrebbe avere un numero di dettagli non eccessivo, per la pubblicazione online. Alcuni degli strumenti presentati nell'immagine dovrebbero essere riconoscibili come sistemi informatici moderni.

L’anno accademico 2024-2025 per me è partito con diverse esperienze interessanti: all’Università di Pisa ho iniziato il mio corso sulla valutazione delle intelligenze artificiali generative con gli studenti della laurea magistrale in Italianistica e ho parlato delle possibilità dei sistemi attuali ai docenti in formazione dei cosiddetti PF60.

Sottolineo un punto di particolare interesse. Nonostante da due anni a questa parte le intelligenze artificiali in generale, e le intelligenze artificiali generative in particolare, siano diventati temi di moda, la consapevolezza delle loro capacità (o incapacità) reali non mi sembra ancora diffusa. Per esempio, ho potuto constatare personalmente che, anche in un pubblico di studenti di alto livello e interessati a questioni linguistiche, pochi avevano provato ChatGPT come qualcosa di più di una curiosità. Anche tra quei pochi, poi, buona parte aveva provato a usare ChatGPT soprattutto come motore di ricerca – cioè per un compito per cui il sistema è decisamente inadatto.

Mettere per iscritto qualche osservazione generale sulla situazione mi sembra quindi utile. Utile per me, innanzitutto: anche se negli ultimi anni ho dedicato molto lavoro a questi temi, i contributi specifici non possono sostituire una sintesi.

Partirei quindi da una constatazione generale: le intelligenze artificiali generative sono una novità reale e importante. Non avranno certo l’impatto predetto da alcuni entusiasti (non sempre disinteressati), ma le loro capacità sono concrete ed effettive proprio in relazione a diversi tipi di lavoro di area umanistica. Dalla scrittura di temi scolastici alla produzione di esercizi, dalla traduzione alla didattica, in parte gli effetti sono già evidenti. In parte sono ancora solo potenziali, ma come possibilità concretissime, non astratte (non si può sapere se si manifesteranno, ma le possibilità effettive ci sono). Seguire gli sviluppi non è quindi una rincorsa di mode comunicative, ma un aggiornamento su attività importanti e che stanno prendendo una forma su cui si può ancora intervenire.

Faccio un esempio praticissimo. Alcuni docenti mi hanno segnalato di aver già ricevuto inviti, più o meno pressanti, a usare ChatGPT per la correzione dei compiti scolastici, in nome dell’efficienza e dell’oggettività. Non ho informazioni di prima mano, ma non ho dubbi sul fatto che inviti del genere possano diventare assai più numerosi e pressanti nei prossimi anni. Sarebbe una buona cosa? Per domande del genere, la risposta corretta è sempre “dipende dal tipo di uso che se ne fa”, ma in questa situazione specifica mi sembra indispensabile aggiungere un avviso di prudenza: “nella maggior parte dei casi, probabilmente no”.

Una legittima domanda successiva potrebbe poi essere: come mai, “probabilmente no”? Una risposta richiederà però molti approfondimenti puntuali. Si tratta di un viaggio lungo, ma credo che sia un viaggio che vale la pena fare. Uno dei motivi, e non il meno importante, è il fatto che l’impatto delle novità invita a vedere molte cose in una prospettiva nuova e consente di rimettere in discussione anche idee ormai fossilizzate. Nelle prossime settimane spero di presentare qui diversi esempi interessanti.

venerdì 27 settembre 2024

Testi generati a Dresda

Non sono riuscito a parlarne sul momento, ma il 2 e il 3 settembre sono stato a Dresda per il II convegno AI-rom: “Automated texts in the romance languages and beyond”. Il convegno, ottimamente organizzato da Anna-Maria De Cesare, Tom Weidensdorfer e Michela Gargiulo, è poi di particolare interesse per chi si occupa di lingua italiana: a differenza di quanto avvenuto nel convegno dell’anno scorso, quest’anno tutti gli interventi erano dedicati appunto alla lingua italiana!

L’evento, naturalmente, è stato di estremo interesse: praticamente da ogni presentazione sono venuti fuori spunti per me molto interessanti. Impossibile descriverli qui tutti in dettaglio, ma vale la pena notare come su molte cose stia cominciando a formarsi un consenso.

Per pure ragioni di tempo accennerò qui solo al mio intervento, intitolato Grammatica generata: accettabilità e inaccettabilità di costruzioni prodotte dai sistemi di generazione di testo. All’interno, sono partito da studi recenti che hanno notato alcune divergenze linguistiche tra il comportamento umano e quello degli LLM quando sintassi e semantica sono intrecciate in modo particolarmente stretto. Per la lingua inglese sono in effetti già stati esaminati diversi esempi di questo tipo; per l’italiano, sono state mostrate da Anna-Maria De Cesare divergenze nell’espressione della progressione tematica e nell’uso dei connettivi.

Lato mio, mi sono occupato soprattutto di coesione e di quelle che Serianni ha chiamato “reggenze plurime”. Queste ultime, in effetti, rappresentano un ambito in cui il comportamento degli LLM e quello degli esseri umani mostrano sia divergenze sia punti di contatto. Per esempio, le costruzioni in cui una completiva esplicita e una completiva implicita vengono collocate in dipendenza dallo stesso verbo e coordinate, sebbene evitate nello scritto formale, sono relativamente frequenti sia nei testi di chi apprende l’italiano scritto sia nelle produzioni testuali degli LLM. Qui mi si vede appunto all’opera in una delle foto ufficiali:

Per i dettagli, rimando alla versione definitiva del contributo, che potrebbe uscire all’inizio dell’anno prossimo. Molti testi collegati al convegno saranno infatti ospitati dalla rivista AI-linguistica, che è già senz’altro un importante punto di riferimento per chi si occupa di questi temi… soprattutto in rapporto alla lingua italiana.

venerdì 9 agosto 2024

Rauch e Palumbo – Sierrita Mountains

Domenica 4, per staccare un po’, mi sono letto nel dopopranzo il Texone comprato qualche settimana fa: Sierrita Mountains con testi di Jacopo Rauch e, soprattutto, disegni di Giuseppe Palumbo.

Bilancio: un po’ incerto. Non sono mai stato un appassionato di Tex, e salvo errori l’ultimo “Texone” che avevo letto prima di questo era stato quello, indimenticabile, di Magnus, quasi trent’anni fa, nel 1996. Con quello attuale, ho trovato soggetto e sceneggiatura molto limitanti. In pratica, la storia consiste in una serie di scontri improbabili in cui Tex e compagni / compagno ammazzano un po’ di criminali di basso profilo. Tex Willer, in particolare, viene fuori in una forma che trovo ormai abbastanza odiosa: non solo fastidiosamente invulnerabile, ma proprio cattivo nella sua attività di giustiziere. E con un aspetto ancora più imperturbabile del solito.

Come l’ultima osservazione fa capire, non mi hanno troppo impressionato nemmeno i disegni di Palumbo – che viceversa apprezzavo molto tra anni Ottanta e primi Novanta. In questo caso li ho trovati piuttosto disuguali (con una evidente differenza di segno tra tavole più o meno schematiche) e ogni tanto perfino incerti. Per esempio, in diversi casi vengono rappresentati pugni o colpi alla testa in un modo che non rende chiaro che cosa è successo (più vistosamente alle pagine 54, 100 e 162; qui sopra la vignetta di pagina 54). Ogni tanto i movimenti ricordano il Ramarro dei tempi migliori, ma un po’ tutto si perde nella serie eccessiva degli Aaah!.

Jacopo Rauch e Giuseppe Palumbo, Sierrita Mountains, “Tex”, albo speciale n. 40, giugno 2004, € 9,90.

mercoledì 24 luglio 2024

Tavosanis, L’italiano in Asia nella testimonianza di Pietro Della Valle

Il mio prossimo libro sarà dedicato a un tema su cui lavoro da tempo, ma di cui ancora non avevo parlato su questo blog: l’uso dell’italiano in Asia nel Seicento, in particolare nell’area degli attuali Iraq e Iran, fino in India. Un uso assai più rilevante di quel che si immagina di solito, e che mi dà molta soddisfazione riportare alla luce.

Un primo contributo in questa direzione è intanto uscito nel corposo volume I testi e le varietà, a cura di Rita Librandi e Rosa Piro. Il volume è interessantissimo di per sé, ma è impossibile riassumere i testi presenti nelle sue quasi 900 pagine. Mi limito quindi a parlare del mio contributo, dedicato a L’italiano in Asia nella testimonianza di Pietro Della Valle.

Visto il tema del volume, il mio contributo è dedicato, più che a mostrare le situazioni dell’impiego dell’italiano, le varietà di lingua coinvolte: italiano letterario, italiano regionale, dialetti italianizzati, italiano di stranieri… La testimonianza di Pietro Della Valle, figura legata a ben altri interessi, non sempre è tanto esplicita quanto si potrebbe desiderare. Ma proprio qui sta la parte forse più divertente del lavoro: nel cercare di strizzare il testo e ricavarne quanto è possibile, distinguendo bene tra ragionevoli certezze e pure speculazioni.

Per esempio, nel quadro oggi ricostruibile è ovvio, e spesso dichiarato in modo esplicito, che molti europei non italiani presenti in Asia parlavano italiano. Ma come lo parlavano? Certo, di regola, non a livello di madrelingua. Però in tutte le lettere contenute nei suoi Viaggi, che occupano più di duemila pagine a stampa, Pietro Della Valle offre un’unica testimonianza di questo italiano di stranieri, in una frase in cui menziona il “comporre in prosa rettorichescamente, come dice un Franco che è qui con noi in Ispahan” (discussa a p. 806 del mio contributo).

Non entro ulteriormente nel dettaglio dei contenuti, ma dirò solo che sono molto contento di questo primo assaggio. Spero di poter parlare presto anche dei seguiti…

Mirko Tavosanis, L’italiano in Asia nella testimonianza di Pietro Della Valle, in I testi e le varietà, a cura di Rita Librandi e Rosa Piro, Firenze, Cesati, 2024, pp. 898, € 85, ISBN 979-12-5496-143-8, pp. 801-811. Copia ricevuta come autore.

venerdì 5 luglio 2024

Ghosh, La maledizione della noce moscata

Amitav Ghosh mi piace molto come narratore. Mi piace però anche come scrittore di… beh, più che farla rientrare in un genere ristretto, potremmo definirla “saggistica” in senso ampio: testi ampi e argomentati che riguardano problemi importanti. Anche questo La maledizione della noce moscata non fa eccezione, in quanto ha una base storica non è un “libro di storia” in senso stretto, perché parla molto dell’attualità. O meglio, parte dalla storia, e da molti dei suoi angoli dimenticati, per parlare soprattutto dell’attualità e del futuro.

I collegamenti generati in questo modo sono spesso arditi: a volte fanno emergere contatti reali, a volte sono semplicemente eccessivi o meccanici, e a volte non è facile decidere in quali tipologie rientrino. Per esempio, c’è un rapporto significativo tra il massacro degli indiani lakota compiuto dall’esercito degli Stati Uniti nel 1890 a Wounded Knee e l’impiego della riserva lakota di Pine Ridge come poligono di bombardamento negli anni Quaranta del Novecento (p. 80)? Sono senz’altro due atti condotti dalla stessa struttura ai danni di due gruppi di uno stesso popolo, ma il secondo è davvero così caratterizzante, o è solo un episodio minimo nella gestione della “questione indiana” negli USA tra Otto e Novecento, condotta attraverso ben altri strumenti? E naturalmente il rischio della superficialità o del fraintendimento, quando i casi presentati sono numerosi ed eterogenei, è altissimo (per esempio, Hormuz non è mai stata occupata dagli olandesi, a differenza di quanto dichiarato a p. 121). La difficoltà di decifrare e presentare la rete di rapporti del mondo reale è comunque ben chiara all’autore, che per esempio nota che “Ovviamente non c’è alcun rapporto di causa-effetto tra cambiamento climatico e Covid-19, ma le due cose non sono neppure del tutto slegate” (p. 147).

Il libro poi parte da crimine storico che in Italia risulta probabilmente noto solo agli specialisti: lo sterminio degli abitanti delle isole Banda, in Indonesia, a opera della (da poco arrivata) Compagnia olandese delle Indie orientali, negli anni Venti del Seicento. Si trattò di un massacro compiuto al servizio del commercio delle spezie in generale e della noce moscata in particolare; Ghosh lo presenta come esempio per un discorso assai più ampio sulla natura estrattiva e distruttiva della cultura occidentale, con ovvie proiezioni fino a oggi, e riconducibile alla pratica ideale della “terraformazione”. Come ricorda l’autore, la parola è stata inventata nel 1942 in inglese (“terraforming”) dallo scrittore di fantascienza Jack Williamson… era un po’ che non mi capitava di incontrare il suo nome! Tuttavia, è una parola che si adatta bene, in retrospettiva, a descrivere pratiche di lunghissimo periodo e di ampia fortuna nell’età moderna.

Si tratta in sostanza di una concezione del mondo-come-risorsa (p. 83) che si collega al “disprezzo che nasce dalla familiarità” (p. 87) e a un’idea ancora più generale: che tutto ciò che si trova al mondo possa essere messo al servizio di una “rottura del legame terreno” (p. 92) e di una desiderata trascendenza – legata a una teologia definita o ad ansie più generiche. Ghosh non è certo il primo a ipotizzare qualcosa del genere, ed esistono esposizioni assai più articolate di questo pezzo di storia delle idee: per l’età contemporanea, io sono per esempio molto legato a Velocità di fuga di Mark Dery, che tanto tempo fa ho tradotto in italiano. La prospettiva del discorso, però, qui ha diversi tratti innovativi. Il nucleo è la dipendenza dell’economia dalle ideologie e dai rapporti di potere: in quest’ottica, è il colonialismo che crea il capitalismo, e non viceversa (pp. 129-130). A quella del mondo-come-risorsa, Ghosh contrappone poi l’ipotesi Gaia (pp. 96-97) che considera la Terra come un organismo vivente. Il punto di arrivo è una vera e propria “politica vitalista” (p. 257 e successive). Qui, ammetto, non riesco a condividere molto il discorso.

All’interno dell’articolata argomentazione si collocano poi esperienze e contesti che in parte mi capita di conoscere da vicino. Per esempio, Ghosh dedica diverse pagine – pp. 170-172 – ai suoi colloqui con gli immigrati bengalesi in Italia, colloqui che hanno un ruolo importante anche nel suo romanzo L’isola dei fucili. E ampio spazio è dedicato, naturalmente, alla situazione attuale delle Sundarban. Ma in generale, il libro è una selva di fatti e prospettive diverse, esaminate in modo molto intelligente (io per esempio ho apprezzato molto la critica al determinismo tecnologico di David Abram, a p. 230, a proposito di ideologie linguistiche). A questo suo guardare al mondo in modo aperto, più che a proposte specifiche, attribuirei il suo valore.

Amitav Ghosh, La maledizione della noce moscata: parabole per un pianeta in crisi, Vicenza, Neri Pozza, 2022 (ed. or. The Nutmeg’s Curse: Parables for a Planet in Crisis, 2021; traduzione di Anna Nadotti e Norman Gobetti), pp. 361, ISBN 978-88-545-2305-0. Letto per graditissimo prestito.

giovedì 27 giugno 2024

Giugno tra Perugia e Milano

Per giugno il programma è/era meno fitto, rispetto ai mesi precedenti, ma tutt’altro che inconsistente.

Sabato 22 ho parlato durante il I convegno su L’intelligenza artificiale applicata all’insegnamento delle lingue alla Scuola lingue estere dell’Esercito a Perugia. Il tema mi interessa da tempo (ne ho scritto anche nel mio libro su Lingue e intelligenza artificiale), e nell’occasione ho cercato di raccontare le cose in prospettiva storica in un intervento intitolato Da Skinner a Khanmigo: ideologia e realtà delle macchine per imparare le lingue. Metà dell’intervento era dedicata a raccontare l’infatuazione del Novecento con questa idea; l’altra metà a mostrare che cosa effettivamente queste macchine sanno o non sanno fare. E il contesto è stato molto interessante, con diversi colleghi che presentavano esperienze e riflessioni di alto livello.

Adesso sono invece in viaggio per Milano, dove il 27 e il 28 si terrà l’evento Artificial Creativity: looking at the future of digital culture. All’interno, Anna Rinaldin e io abbiamo curato un “panel” linguistico al cui interno sono previsti quattro interventi molto interessanti su diversi aspetti del rapporto tra intelligenza artificiale e lingue.

E poi… pausa! I convegni e le presentazioni riprenderanno a settembre, ma in mezzo ci saranno due mesi estivi. E per la prima volta da un po’ di anni, spero anche di potermi permettere diversi bagni al mare…

martedì 14 maggio 2024

Maggio dal nord al sud

Anche maggio è un mese pieno di trasferte: questa settimana e la prossima farò quattro interventi, collegati da spostamenti a coppie dal nord al sud.

A dire il vero, un intervento l’ho tenuto già ieri, lunedì 13 maggio (10-13), con un evento online trasmesso dal Consorzio ICoN a Pisa: una doppia lezione su La traduzione automatica dalle schede perforate alle intelligenze artificiali e su Valutare la traduzione automatica nell’epoca dell’intelligenza artificiale per il Master in Traduzione specialistica inglese > italiano.

Il 16 maggio alle 11 sarò invece all’Università di Pavia (Aula II di Lettere) per una lezione su Lingua italiana e Large Language Models all’interno del corso di Storia della lingua italiana tenuto da Giuseppe Antonelli nel corso di laurea in Filologia moderna.

Da lì mi sposterò direttamente a Napoli, dove nel pomeriggio del 17, all’Istituto Italiano di Studi Filosofici, parlerò all’interno del laboratorio La macchina del pensiero. Linguaggi e paradigmi dell’intelligenza artificiale. Il mio intervento si colloca nella sezione dedicata a I problemi attuali e sarà dedicato a descrivere la Comunicazione senza intenzione dei sistemi a intelligenza artificiale.

La prossima settimana parteciperò invece al convegno torinese della Società Internazionale di Linguistica e Filologia italiana. Lì parlerò il 23 maggio alle 11:30 con un intervento dedicato a un tema completamente diverso rispetto agli altri, e cioè L’insegnamento dell’italiano in Asia nel Seicento: lezioni e scuole tra l’impero ottomano e l’impero safavide.

Da Torino passerò poi a Campobasso, per il convegno Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa. Lì il 24 maggio alle 12:50 parlerò su Riformulazione e miglioramento della leggibilità con ChatGPT, presentando anche i risultati di un’esperienza recente.

mercoledì 3 aprile 2024

Aprile tra università e televisione

Chiusi gli interventi di marzo, si riparte! Ad aprile parlerò in diversi posti, tra università, RAI e case editrici.

Già oggi pomeriggio (3 aprile 2024, alle 16) terrò una lezione all’Università di Torino all’interno dell’insegnamento di Teorie e pratiche della traduzione magistrale tenuto da Elisa Corino.

Domani pomeriggio (4 aprile 2024, ore 17) sarò invece all’Università di Firenze per parlare di “Lingua, stile e generazione automatica” nell’ambito del ciclo di incontri Cosa chiedere all’intelligenza artificiale? Un confronto tra apocalittici e integrati organizzato dal Dipartimento SAGAS (le mie posizioni sono naturalmente molto sfumate… ma se fossi costretto a scegliere, altrettanto naturalmente mi collocherei tra gli integrati!).

Il 15 aprile alle 14:30 sarò invece a Roma, alla RAI, per un intervento all’interno di un seminario sull’intelligenza artificiale organizzato dalla Comunità radiotelevisiva italofona.

Il 16 aprile sarò a Milano, o meglio a Segrate, dalle 17 alle 18:45, per un webinar organizzato dalla DeAgostini Scuola, sul tema “AI nella didattica delle materie umanistiche”.

Un programma fitto, insomma, ma che sicuramente offrirà molte occasioni per discussioni interessanti!

lunedì 4 marzo 2024

Marzo nelle / per le scuole

Non si può dire che l’inverno ripafrattese sia stato freddo… ma è stato comunque un periodo di letargo! Io riparto a marzo, con una serie di incontri per studenti e docenti. Tutti naturalmente dedicati al rapporto tra didattica e Intelligenza artificiale: un tema che in questo periodo – in modo del tutto ragionevole – attira molto l’attenzione in ambito scolastico.

Innanzitutto, terrò una serie di seminari nelle scuole all’interno dell’iniziativa Pianeta Galileo della Regione Toscana. Nell’ordine:

6 marzo: Liceo della Comunicazione San Bartolomeo a Sansepolcro
12 marzo: ITI G. Marconi a Pontedera
26 marzo: ITS Marchi-Forti a Pescia

Il pomeriggio del 21 invece sarò a Torino, al Liceo Statale “Regina Margherita”, per un evento formativo organizzato dai docenti della Rete dei licei economico-sociali della Valle d’Aosta e del Piemonte.