Linguaggio e scrittura: Valutazione

Visualizzazione post con etichetta Valutazione. Mostra tutti i post

martedì 3 marzo 2026

Tavosanis, Grammatica generata

Il 2025 è stato per me un anno decisamente impegnativo. In primo luogo, e di gran lunga, per gli eventi della vita; ma un po’ anche per i lavori da portare a termine. Questo secondo aspetto se non altro è più controllabile e, incrociando le dita, si sta normalizzando. Tuttavia, la quantità di cose da fare è stata tale da rendere difficile anche solo dar conto di quel che è stato pubblicato.

Segnalo quindi qui un mio contributo uscito già da qualche mese sulla rivista “AI-Linguistica”: Grammatica generata: analisi di alcune strutture presenti nei testi di ChatGPT in lingua italiana. Lì ho cercato di vedere quanti e quali sono gli errori grammaticali che ChatGPT, Minerva LLM e DeepSeek commettono nei testi generati in lingua italiana. Spoiler! Gli errori sono pochi ma non assenti (se ne trova uno ogni una-due pagine), e sono anche molto simili tra un modello e l’altro, sia per frequenza sia per qualità.

Tuttavia, una valutazione più precisa è resa difficile da una vaghezza nell’oggetto. Infatti, nell’italiano contemporaneo non è sempre chiaro che cosa sia errore o no. L’incertezza è viva soprattutto per la sintassi, e molto meno per la morfologia o l’ortografia, ma coinvolge comunque strutture comunissime. A scanso di equivoci, è bene precisare che ciò avviene anche (o specialmente?) nell’uso colto. In pratica, quindi, si vede che persone istruite, inclusi i docenti di materie letterarie nella scuola secondaria o i linguisti, hanno opinioni molto diverse tra di loro (e spesso vivacemente diverse tra di loro) riguardo l’accettabilità o meno di frasi come queste, che possono essere accettate senza problemi o violentemente critcate:

A Piero piace Maria e cerca di farsi bello ai suoi occhi.
In questi casi, una scrittura volutamente non chiara può servire a proteggere individui da potenziali danni, sia a livello personale che professionale.

Naturalmente, non sono io il primo ad accorgersi dello stato delle cose: da un quarto di secolo a questa parte, diversi ricercatori, incluso Gaetano Berruto, hanno fatto occasionale riferimento a questa “disomogeneità di giudizi”, evidente a chiunque si metta a leggere sistematicamente i tre monumentali tomi della Grande grammatica italiana di consultazione. Tuttavia, non si sono mai avute, per esempio, campagne di valutazione estese che rendessero conto della variabilità dei giudizi dei parlanti. E in generale, com’è ovvio, la produzione professionale spesso si tiene lontana dai casi incerti; che però emergono senza problemi quando a scrivere sono persone di alto livello culturale ma che non praticano professionalmente la scrittura in lingua italiana.

La questione sarebbe soprattutto scolastica, ma è impossibile evitarla quando si cerca di valutare la produzione delle intelligenze artificiali. Se un’intelligenza artificiale generativa produce strutture come “sia a livello personale che professionale”, che vanno in diretta violazione di alcuni principi enunciati da Luca Serianni, si tratta di un errore o no?

Anche in questo caso mi sembra insomma che l’intelligenza artificiale, oltre a essere un oggetto di studio interessante di per sé, permetta di tornare a riflettere su qualcosa che sia nella discussione scientifica sia nella pratica didattica è rimosso o negato. Anche dopo decenni di studi, l’italiano delle grammatiche non sempre dà conto dell’italiano reale… e vale senz’altro la pena approfondire la questione.

Mirko Tavosanis, Grammatica generata: analisi di alcune strutture presenti nei testi di ChatGPT in lingua italiana , “AI-Linguistica” 2, 2, 2025, pp. 1-32. https://doi.org/10.62408/ai-ling.v1i1.14

martedì 10 febbraio 2026

Che cosa ChatGPT riesce a far bene, nel febbraio 2026?

Ieri, lunedì 9 febbraio, si è tenuto l’ultimo appello invernale per i miei insegnamenti di Linguistica italiana tenuti negli ultimi anni per le lauree magistrali in Italianistica e Linguistica e traduzione dell’Università di Pisa. Al solito, si è trattata di un’occasione molto utile per vedere, attraverso le relazioni che gli studenti presentano all’esame, qual è lo stato delle capacità di ChatGPT e sistemi simili. Sì, perché non solo ho fatto diverse valutazioni nel corso degli anni, ma le valutazioni vanno ripetute spesso per vedere se le nuove versioni dei sistemi cambiano prestazioni o no.

Il quadro che ne esce è una conferma: i sistemi non stanno migliorando molto. Anzi, per alcuni compiti in italiano ho l’impressione che, per esempio, ChatGPT-5.2 lavori peggio di ChatGPT-4o. In generale, alcuni compiti restano al di fuori della loro portata mentre altri vengono svolti sorprendentemente bene. Tuttavia, è difficile esserne sicuri senza fare verifiche sistematiche. Per fortuna, diverse relazioni di alto livello si sono occupate proprio di questo!

Per esempio, uno dei lavori presentati all’esame descriveva il tentativo di far analizzare a ChatGPT i verbi presenti nel I canto dell’Inferno. Oltre tre anni dopo l’uscita di ChatGPT, un compito del genere si rivela ancora impossibile: il sistema individua i primi verbi e poi incomincia a elencare verbi che non esistono, a considerare verbi sostantivi come sonno, e così via. Né si riesce a superare il limite per esempio scomponendo il lavoro in fasi (“per prima cosa, fai un semplice elenco dei verbi presenti”). Insomma, inaffidabilità totale.

Le cose vanno un po’ meglio, ma non troppo meglio, per quanto riguarda l’analisi e la parafrasi di testi poetici della tradizione italiana: le verifiche sono state compiute su poesie di Dante, Bronzino, Leopardi, Carducci, Gozzano e Montale. Qui occorre distinguere tra i diversi aspetti del lavoro. ChatGPT inventa liberamente quando si tratta di metrica: non riesce a classificare i versi in modo affidabile, anche se a volte si avvicina al risultato lavorando di prompt. Al momento di classificare le figure retoriche, commette molti sbagli e, soprattutto, considera figure retoriche espressioni che non lo sono. Un po’ meglio vanno le cose quando si tratta di analizzare e spiegare il testo: in fin dei conti, un compito del genere consiste spesso nel presentare luoghi comuni e fare osservazioni di buon senso. Vale però la pena notare che a volte il sistema si lascia prendere la mano dai luoghi comuni e per esempio, analizzando Alla stazione in una mattina d’autunno, si mette a parlare del tema dell’“alienazione” nella poesia di Carducci…

Le cose vanno molto meglio quando si tratta di parafrasare. Qui il lavoro viene compiuto in modo abbastanza soddisfacente. Restano alcuni errori, ma è possibile riformulare testi in italiano contemporaneo a un livello molto vicino a quello di una buona parafrasi umana (e, cosa interessante, in alcuni punti si evitano errori presenti invece in alcune parafrasi). Questo vale anche per poesie di cui (come nel caso di un sonetto di Bronzino) non sembra esista una parafrasi completa in italiano recuperabile da qualche fonte.

E poi, arriviamo alla traduzione. Dove innanzitutto mi sembra che venga confermato un sospetto: per la traduzione letteraria, ChatGPT se la cava assai meglio di sistemi di traduzione specializzati come DeepL.

Dopo un piccolo lavoro sui prompt, la traduzione di un report giornalistico in inglese relativo a una gara di Formula 1 è stata giudicata di livello praticamente umano (terminologia specialistica inclusa). Va notato che, se oggi lavorare sui prompt non sembra troppo utile per la maggior parte dei compiti, è ancora necessario chiedere esplicitamente al sistema di mantenere il registro del testo di partenza e di conservare tutte le informazioni. E ammetto che io, pur essendo un premiato traduttore, avrei avuto molte difficoltà a rendere per esempio “dive up the inside” con “tuffarsi all’interno” o, soprattutto, “sat in his wheel tracks” con “rimasto negli scarichi”!

In un altro caso, cioè la traduzione di espressioni idiomatiche dal russo all’italiano nei testi narrativi, ChatGPT se l’è cavata non solo meglio di DeepL ma addirittura meglio di alcune classiche traduzioni umane pubblicate. Certo, una volta non esistevano dizionari adeguati, ma è comunque sorprendente notare quanti errori siano saltati fuori in un campione tutto sommato limitato.

Abbastanza bene, ma meno bene, sono andati i tentativi di usare ChatGPT per intervenire sull’espressione di genere, incluso l’impiego dello schwa. Anche qui si vedono i limiti dei sistemi per quanto riguarda la sistematicità del lavoro.

In conclusione (per usare un’espressione tipica di ChatGPT): l’ultimo anno non ha visto grandi cambiamenti nelle capacità dei sistemi. Alcuni compiti, anche molto banali, vengono ancora eseguiti a un livello inaccettabile in qualunque contesto realistico. Altri, come l’analisi di poesie, si trovano più o meno sul confine tra accettabilità e inaccettabilità. Altri ancora, come la parafrasi e, soprattutto, la traduzione, si collocano invece a un livello solo di poco inferiore a quello dei professionisti umani, e talvolta perfino lo superano. Si tratta senz’altro di una situazione stabile; ma di una situazione stabile che, credo, non ha ancora finito di dispiegare i propri effetti in diversi ambiti.

giovedì 22 gennaio 2026

Studi sul miglioramento della chiarezza con IA

Il volume di cui ho parlato a inizio mese, Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, contiene molti contributi rilevanti dal mio punto di vista. Come dicevo, circa un terzo del libro è occupato da lavori che affrontano il miglioramento della chiarezza condotto attraverso intelligenze artificiali generative. Anche gli altri due terzi sono interessanti, naturalmente! Ma è comprensibile che io mi concentri su ciò che è collegato più direttamente al mio lavoro.

Giuliana Fiorentino e Marco Russodivito presentano un lavoro intitolato Umano vs. AI: alcune considerazioni sulla semplificazione manuale a automatica del corpus ItaIst (pp. 53-78). Il lavoro presentato è in un certo senso preliminare alla realizzazione del sistema sempl.it realizzato dallo stesso gruppo di ricerca e pensato per la semplificazione dei testi amministrativi. Con questa finalità è stato innanzitutto realizzato il corpus ItaIst, una cui versione ridotta (8 documenti, per circa 33.000 token) è pubblicamente disponibile. Due esperti umani hanno semplificato i contenuti del corpus, impiegandoci rispettivamente 15 e 23 ore. La stessa operazione è stata poi ripetuta (in pochi minuti) con ChatGPT-4 sulla base di un breve prompt basato sul ruolo (p. 58). Il confronto mostra che, rispetto agli esperti umani, ChatGPT ha seguito criteri piuttosto simili, ma ha rielaborato il testo più in profondità e ha usato frasi in media più brevi (p. 60), applicando in modo creativo molti degli attuali criteri per il miglioramento della chiarezza anche in mancanza di indicazioni specifiche da parte dei ricercatori. Per valutare appieno i risultati occorre però una verifica sulla correttezza dei contenuti generati: gli autori promettono di presentare l’esito di questa verifica in un lavoro ora in stampa (p. 76).

Il contributo successivo, SEMPL-IT: un modello di intelligenza per la semplificazione dell’italiano, firmato da Vittorio Ganfi e Marco Russodivito (pp. 79-101), presenta appunto il sistema SEMPL-IT realizzato nel progetto citato nel contributo precedente. In dettaglio, il sistema è basato sul fine-tuning di tre LLM pre-addestrati: mt5-small, umt5-small e GPT2-small-italian (p. 89). Il fine-tuning dei tre modelli è stato condotto sul corpus ItaIst, usando la libreria Transformers su Google Colab (pp. 89-91). Un confronto con alcuni sistemi commerciali ha poi mostrato che i testi semplificati dai tre modelli ottengono risultati grosso modo simili per quanto riguarda alcune metriche automatiche; tuttavia, non sono stati ancora fatti confronti sulla qualità e correttezza dei testi. Questa mancanza di verifica, assieme alla presenza di “riscritture problematiche” in alcuni esempi discussi, rende un po’ ottimistiche le valutazioni degli autori sull’utilizzabilità pratica del prodotto nella forma descritta (p. 96). In ogni caso, il prodotto finito è ora disponibile all’indirizzo https://sempl-it.unimol.it/ats.

È dedicato a un argomento piuttosto diverso il contributo su Valutazione di tecniche di prompt engineering per la semplificazione dell’italiano burocratico e professionale firmato da Claudia Gigliotti, Walter Paci, Giovanni Acerboni, Alessandro Panunzi e Maria Roberta Perugini (pp. 119-138). In questo caso, l’analisi è stata svolta secondo modalità un po’ curiose: frasi di testi burocratici e professionali sono state riformulate con diversi prompt (Chain-of-Thought, few-shot, eccetera) e la verifica della comprensione dei testi da parte di utenti reclutati con il crowdsourcing è stata usata come metro per valutare l’efficacia dei prompt. Il risultato è stato che “non emergono differenze statisticamente significative né in termini di accuratezza nelle risposte né nel numero di riletture effettuate” (p. 134). Questo nonostante studi preliminari abbiano suggerito la maggior efficacia di prompt complessi.

Preciso per quanto riguarda quest’ultimo punto che le modalità mi sembrano curiose perché la valutazione ricollega direttamente il punteggio finale e il prompt, senza prendere assolutamente in esame il prodotto intermedio: il testo valutato. Può infatti darsi che i prompt ottengano tutti lo stesso esito perché, banalmente, i testi semplificati si assomigliano tutti, indipendentemente dalla modalità con cui sono stati ricavati. Un controllo del genere sembra assai utile e molto semplice da eseguire.

In ogni caso, l’irrilevanza delle rielaborazioni sul risultato finale potrebbe avere anche una causa diversa e più strutturale. Per valutatori con un titolo di studio avanzato (qui era richiesto come minimo il diploma: p. 123), testi come quelli che presumibilmente sono stati presi in esame qui sono infatti di regola comprensibili senza troppi problemi. In alcune valutazioni che ho condotto l’anno scorso ho visto non solo che gli studenti universitari a livello di laurea magistrale sembrano comprendere senza problemi sia i testi burocratici originali sia quelli semplificati (il che dovrebbe essere intuitivo), ma sembrano impiegare lo stesso tempo nella lettura, nonostante l’evidente differenza di complessità dei testi (e questo è già più sorprendente). Insomma, occorre ricordare l’italiano burocratico rappresenta un oggetto difficile da gestire per chi ha un livello non alto di conoscenza dell’italiano, ma assai meno per chi è arrivato per esempio alla formazione terziaria dopo studi in lingua italiana!

Il contributo successivo, di Anna-Maria De Cesare, è intitolato Per un’amministrazione impegnata e aggiornata: come formulare annunci di lavoro rispettosi della parità di genere con l’intelligenza artificiale generativa? (pp. 139-). Si tratta dunque della descrizione degli esiti di un compito pratico, già toccato in un precedente lavoro della stessa autrice. Qui viene approfondito il caso particolare della generazione degli sdoppiamenti contratti (“esperto/a”). Alla base di questa scelta si trova il fatto che la Cancelleria Federale svizzera ha individuato lo sdoppiamento contratto come “adeguato ad attuare il pari trattamento linguistico tra donna e uomo negli annunci di lavoro” (p. 140), il che già di per sé mostra quanto la consapevolezza su simili questioni sia maggiore in Svizzera rispetto all’Italia. Qui peraltro non vengono forniti i risultati completi del lavoro (l’autrice rimanda a un altro contributo), ma solo l’analisi di alcune riscritture proposte daisistemi. Vale la pena di notare che anche in questo caso un prompt relativamente semplice ha dato risultati migliori rispetto a un prompt più complesso (p. 150).

Ritorna sull’intelligenza artificiale un contributo di Teresa Monaco a fine volume: Semplificazione e intelligenza artificiale, quando la macchina “apre” alla fiducia (pp. 355-370). In questo caso, però, le considerazioni sono di tipo generale (e lasciano alcuni dubbi i collegamenti con le questioni linguistiche).

Testi provenienti da Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, ISBN 979-12-5496-268-8.

venerdì 2 gennaio 2026

Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative

Copertina del libro Amministrazione attiva

Nel maggio del 2024 sono stato a Campobasso per un convegno sull’Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa. Il convegno è stato molto interessante e ha mostrato anche in modo tangibile quanto le intelligenze artificiali generative siano oggi al centro dell’interesse di chi lavora sulla scrittura amministrativa. Un volume che include molti contributi dei partecipanti al convegno è uscito qualche mese fa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, e permette di quantificare: su circa 350 pagine di testo, esclusi indici e introduzione, circa 120 sono dedicate a esperienze che coinvolgono le intelligenze artificiali generative.

Rientra nel gruppo anche il mio contributo dedicato a Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative. Le esperienze presentate sono state illustrate da altre angolazioni in una sintesi scritta da Giuliana Fiorentino e da me e in un confronto tra metodi di valutazione scritto da Mariachiara Pascucci e da me. Tuttavia, in questa ultima pubblicazione si forniscono molti approfondimenti relativi alla domanda di base: le intelligenze artificiali generative riescono a migliorare la chiarezza dei testi? La risposta è sostanzialmente positiva, con alcune precisazioni.

Dal punto di vista metodologico, ho scelto di adottare la valutazione cosiddetta intrinseca eseguita da valutatori umani. In pratica, si forniscono i testi a valutatori umani che dicono quanto il lavoro è stato fatto bene (ed è importante che i valutatori abbiano le competenze necessarie a svolgere questa attività). Nessun sistema automatico di valutazione oggi è in grado di fare meglio di così!

I testi di partenza sono stati otto documenti di carattere informativo-amministrativo (in particolare, linee guida ministeriali), selezionati perché privi di valore giuridico vincolante ma rappresentativi delle difficoltà tipiche della comunicazione istituzionale. Ogni testo è stato riformulato sia da ChatGPT, utilizzando due prompt diversi mirati a migliorare la chiarezza senza perdere informazioni, sia da un intervento umano condotto secondo criteri consolidati nella letteratura sulla scrittura chiara.

Per rendere la valutazione più specifica, ho poi scomposto il giudizio in cinque ambiti distinti: correttezza delle informazioni, correttezza linguistica, chiarezza complessiva, livello di miglioramento rispetto all’originale e conservazione delle informazioni. I valutatori, studenti universitari con una buona formazione linguistica e specificamente preparati al compito, hanno assegnato per ogni ambito punteggi su una scala da 1 a 5, lavorando in modo indipendente e senza sapere se i testi valutati fossero stati prodotti da un essere umano o da un sistema automatico.

I risultati mostrano che le riformulazioni prodotte da ChatGPT raggiungono nel complesso un livello paragonabile a quello umano. Su 40 confronti diretti tra riformulazioni umane e automatiche (cioè, i punteggi ottenuti dagli 8 testi per 5 ambiti), ChatGPT ottiene un punteggio superiore rispetto alle riformulazioni umane in 14 casi e identico in altri 2. Tenuto conto dei due confronti in cui il punteggio è identico, la parità si sarebbe prodotta a 19: il livello attuale non è lontano dal traguardo!

In particolare, le prestazioni di ChatGPT sono risultate molto buone per quanto riguarda la chiarezza complessiva e la conservazione delle informazioni, ambiti nei quali le riformulazioni automatiche sono state valutate allo stesso livello di quelle umane. ChatGPT ha ricevuto invece punteggi peggiori nella correttezza linguistica e nel livello di miglioramento. È però importante notare che, nella maggior parte dei casi, gli scarti di punteggio sono contenuti.

Un limite significativo dell’indagine riguarda il basso accordo statistico tra i valutatori, misurato tramite l’α di Krippendorff, che non raggiunge la soglia di sufficienza. Questo risultato conferma quanto la valutazione del miglioramento della chiarezza sia un compito intrinsecamente complesso e spinge a perfezionare le procedure di valutazione.

I dati ottenuti giustificano senz’altro un cauto ottimismo sul piano applicativo. Sistemi come ChatGPT sembrano già oggi utilizzabili come strumenti di supporto nei processi redazionali orientati alla chiarezza, a condizione che siano inseriti in flussi di lavoro ben controllati da revisori umani competenti.

Al tempo stesso, però, ribadirei un punto forse ancora più importante: lavorare su questi temi è un’occasione preziosa per riflettere più in generale sui criteri con cui valutiamo i processi di miglioramento della chiarezza, indipendentemente dal fatto che il testo sia prodotto da esseri umani o da sistemi artificiali.

Mirko Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative, in Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, pp. 103-118.

venerdì 10 ottobre 2025

ChatGPT è ancora scarso, come poeta... ma dipende!

Robot poeta a Livorno: immagine generata da ChatGPT-5

Dicevo ad agosto che anche ChatGPT-5 non sembra in grado di scrivere in modo affidabile sonetti perfettamente regolari in lingua italiana: nei prodotti che ho visto c’è sempre almeno una rima che non torna o un verso con un numero sbagliato di sillabe. Certo, visto che i sonetti generati in questo modo si avvicinano abbastanza alla correttezza, generandone un numero sufficiente è probabile che prima o poi, per caso, ne venga prodotto anche uno che non contiene errori. Però, questa vicinanza alla correttezza mette in luce anche la peculiare stranezza (dal punto di vista umano) del fenomeno: se il sistema riesce a generare tredici versi con il corretto numero di sillabe, perché sbaglia il quattordicesimo? Io non ho spiegazioni al di là del notare che un comportamento del genere sembra collegabile alla natura statistica del procedimento generativo…

Comunque, le cose vanno assai meglio quando si chiede a ChatGPT di scrivere testi poetici che non devono rispettare vincoli formali precisi. Per esempio, poesie in versi liberi. A quel punto non è più questione di metrica e si entra nelle valutazioni umane sulla qualità del prodotto.

Un parere diffuso, e del tutto ragionevole, è che le poesie generate in questo modo siano comunque scarsine. Ripetitive, piene di banalità e luoghi comuni, con scelte non all’altezza. Alcuni lettori dichiarano che la natura generata di un testo “si vede subito”. Ma è davvero così? Davvero il lettore cui viene sottoposta, per esempio, una mescolanza di poesie umane e poesie generate, senza indicazione esplicita della fonte, è in grado di distinguere?

Al polo opposto, ho parlato di un tentativo tanto famoso quanto metodologicamente carente di controllare i giudizi umani sulle poesie generate. Quel tentativo arrivava alla conclusione che gli esseri umani preferivano le poesie di ChatGPT a quelle scritte di autori famosi; io ho cercato di spiegare i motivi per cui, realizzata nel modo proposto, la valutazione suggeriva qualcosa di molto diverso.

Negli ultimi anni, in effetti, due studenti dei miei corsi per l’Università di Pisa hanno fatto valutazioni simili in modi che mi sembrano assai più soddisfacenti dal punto di vista metodologico rispetto a quelli adottati dal famoso articolo. In pratica, il principio base è quello (che dovrebbe essere ovvio) per cui non si chiede ai valutatori di valutare testi completamente diversi tra di loro, ma di valutare testi quanto più simili possibile: alcuni umani, alcuni generati.

Dati i limiti di ChatGPT nella generazione di poesie che rispettino i vincoli della tradizione metrica italiana, in entrambi i casi è stato necessario prendere come oggetto la metrica libera, e cioè in sostanza autori del Novecento. La dottoressa Sara Palazzi ha quindi preso in esame poesie di Ungaretti, il dottor Gabriele Fabrizi poesie di Caproni (entrambe le valutazioni sono state condotte con ChatGPT-4.5).

Cruciale nel contesto è stata la scelta dei valutatori. L’apprezzamento della letteratura si lega infatti alla cultura: una persona che conoscesse la lingua italiana ma non avesse familiarità con il concetto di “poesia” in nessuna lingua troverebbe senz’altro strane opere come le poesie di Montale (per non parlare delle differenze tra gli Ossi di seppia e Satura…). Per esprimersi con cognizione di causa sulle poesie, i valutatori quindi devono avere un buon livello di familiarità con la poesia italiana del Novecento e delle sue modalità espressive. Al tempo stesso, se si fa un confronto su Ungaretti e Caproni, è bene non coinvolgere esperti che per esempio siano in grado di dire se una poesia è o no di Caproni perché, semplicemente, le conoscono già tutte.

In modo del tutto ragionevole, per entrambe le esperienze descritte sono stati dunque scelti valutatori con competenze adeguate ma non esaustive. A questi valutatori sono poi state sottoposte poesie relativamente brevi, in parte originali, in parte generate da ChatGPT “nello stile” dei poeti interessati, per generazione diretta o rielaborazione. Per esempio, per Ungaretti una coppia è stata questa:

Originale di Ungaretti: In galleria

Un occhio di stelle
ci spia da quello stagno
e filtra la sua benedizione ghiacciata
su quest’acquario
di sonnambula noia.

ChatGPT: Lucciole

Nella notte grigia e muta,
Lucciole accese,
come lumi spenti
nel cuore che langue.

I risultati sono stati molto interessanti. Nel caso di Ungaretti, per esempio, sono stati scelti come valutatori dieci studenti di corsi di studio dell’area umanistica dell’Università di Pisa e la valutazione è stata eseguita su tre coppie di poesie. Il compito consisteva nell’individuare, tra due poesie, quale era stata scritta da Ungaretti e quale da ChatGPT. In due casi su tre (tra cui quello della coppia riportata qui sopra) i valutatori si sono divisi al 50%: non sono stati in grado, insomma, di distinguere in modo affidabile tra testi originali e testi generate. Nel terzo caso, invece, 9 valutatori su 10 hanno correttamente distinto tra testo originale e testo generato.

In modo un po’ diverso sono andate le cose per Caproni, in un lavoro che ha potuto basarsi su quello fatto nella relazione precedente. Qui le poesie prese in esame erano innanzitutto più lunghe. Per esempio, è stata presa questa coppia:

Originale di Caproni: Preghiera

Anima mia leggera,
va’ a Livorno, ti prego.
E con la tua candela
timida, di nottetempo
fa’ un giro; e, se n’hai il tempo,
perlustra e scruta, e scrivi
se per caso Anna Picchi
è ancora viva tra i vivi.

Proprio quest’oggi torno,
deluso, da Livorno.
Ma tu, tanto più netta
di me, la camicetta
ricorderai, e il rubino
di sangue, sul serpentino
d’oro che lei portava
sul petto, dove s’appannava.

Anima mia, sii brava
e va’ in cerca di lei.
Tu sai cosa darei
se la incontrassi per strada.

ChatGPT: Lettera alla sera

Anima mia gentile,
torna laggiù, dove la luce s’abbassa.
Cammina piano, per favore —
non svegliare il ricordo.
Guarda se c’è ancora,
sul muro scrostato del porto,
quel segno che tracciammo
col gesso, da ragazzi.
E cerca lei,
la donna che rideva a fatica,
con la sciarpa a righe
e l’ombra negli occhi.
Dimmi se è rimasta
o se il vento l’ha portata
oltre il viale,
dietro il fanale spento.
Io, oggi,
me ne sono andato
senza trovarla.

In questo caso i valutatori sono stati studenti o laureati del corso di studio magistrale in Italianistica dell’Università di Pisa. Le coppie di poesie sono state tre, come nella prova precedente, ma qui in tutti i casi una maggioranza di valutatori ha riconosciuto ChatGPT (con percentuali che variano tra il 72 e l’81%).

Naturalmente, ci sarebbe molto altro da dire su queste relazioni e sul dettaglio di ciò che è stato necessario fare per generare i testi e costruire la valutazione. Entrambi i lavori poi hanno punti di forza che qui si possono indicare solo sinteticamente: il primo è stato pionieristico, il secondo è stato portato avanti con un prompting sofisticato. Il metodo, naturalmente, deve ancora essere messo a fuoco in tanti aspetti. Ma non mi sembra inutile notare come relazioni scritte da studenti magistrali per superare un singolo esame, con un minimo di guida da parte del docente, superino senz’altro per correttezza metodologica studi di cui si è molto parlato perfino a livello internazionale. Ho già detto che io (apparentemente in ristretta compagnia) ho un’elevata considerazione delle capacità degli studenti italiani? Beh, se non l’ho già detto, lo dico adesso!

Certo, da due prove circoscritte, anche se metodologicamente corrette, non si possono ricavare conclusioni generali: il linguaggio umano e la poesia sono oggetti troppo variati ed eterogenei. Ma senz’altro si può indicare una direzione che è anche di buon senso. Cioè, in alcuni casi, per testi semplici e senza schemi metrici rigorosi, ChatGPT può anche scrivere cose che i valutatori non riescono sempre a distinguere da produzioni umane. Quando però il testo si fa anche solo leggermente più complesso, i limiti dei testi generati sono più evidenti.

Al di là di esagerazioni come quelle del contributo citato (“Gli esseri umani preferiscono le poesie di ChatGPT”) o della sicumera di molte dichiarazioni “umanistiche” (“Ah, io lo capisco al volo, quando un testo è di ChatGPT: è senz’anima…!”), la situazione che emerge quando il confronto è ben condotto è dunque interessante. Le caratteristiche del testo generato sono più evidenti in alcuni casi, meno percepibili in altri; la competenza del valutatore è essenziale ma non sempre dirimente. Definire in modo più esatto questo quadro è oggi interessantissimo, e rappresenta secondo me una sfida reale e importante per gli addetti ai lavori.

venerdì 5 settembre 2025

Di nuovo a Dresda per AI-ROM

Sono di nuovo a Dresda: il convegno AI-ROM è arrivato alla III edizione, e si conferma un importante punto di riferimento per chi sia interessato alle intelligenze artificiali generative.

Il convegno si tiene il 4 e il 5 settembre 2025. Io terrò oggi pomeriggio un intervento dedicato a Gli errori grammaticali degli LLM: diversità tra sistemi e caratteristiche generali, in cui metto a confronto ChatGPT-4o, Minerva LLM e DeepSeek. Tuttavia, gli interventi interessanti sono moltissimi!

Quest’anno il convegno ha ampliato la propria copertura, inserendo, oltre alle lingue romanze, anche quelle germaniche (l’anno scorso in pratica tutti gli interventi erano stati dedicati all’italiano). Per chi è in tempo, gli interventi possono essere seguiti anche online, previa registrazione!

venerdì 22 agosto 2025

Come non valutare la poesia di ChatGPT

Come scrivevo l’altro ieri, ChatGPT semplicemente non riesce a scrivere sonetti corretti in italiano (anche se si avvicina molto al risultato). Un conto è però la correttezza formale, per esempio dal punto di vista metrico; un altro conto la qualità. ChatGPT sa scrivere poesie di buon livello, anche se magari è meglio che si astenga da forme metriche tradizionali?

La risposta a questa domanda è per forza di cose più complessa, rispetto a questioni sull’accettabilità o meno di uno schema di rime. La qualità di una poesia è senz’altro connessa a questioni linguistiche e metriche, ma non si esaurisce in esse. Né, purtroppo o per fortuna, al momento abbiamo strumenti di misurazione oggettiva per la qualità poetica. L’impressione generale è comunque che le poesie di ChatGPT (così come le opere narrative) siano di scarsa qualità, prive di elementi che le rendono interessanti o memorabili.

Vale però la pena notare che c’è stato un tentativo ben noto di misurare la qualità delle poesie generate da ChatGPT in lingua inglese. I risultati di questo lavoro sono stati sintetizzati nel titolo di un contributo di Brian Porter ed Edouard Machery: AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably. Il contributo è stato pubblicato il 14 novembre 2024 negli “Scientific Reports” di “Nature” (!) e, secondo Google Scholar, al momento ha ricevuto 76 citazioni; soprattutto, ha avuto una discreta risonanza anche al di fuori del circuito specialistico.

Nonostante il successo, però, il contributo è metodologicamente disastroso e non dimostra affatto ciò che il titolo suggerisce. Certo, include tanti numeri e tante valutazioni di significatività fatte con chi quadro; secondo le parole degli autori nell’abstract:

We conducted two experiments with non-expert poetry readers and found that participants performed below chance levels in identifying AI-generated poems (46.6% accuracy, χ2(1, N = 16,340) = 75.13, p < 0.0001). Notably, participants were more likely to judge AI-generated poems as human-authored than actual human-authored poems (χ2(2, N = 16,340) = 247.04, p < 0.0001).

Naturalmente, però, i numeri non bastano né possono bastare a correggere i difetti a monte. Il primo punto è che, come per fortuna notano gli autori stessi, il titolo è molto ingannevole e, per cominciare, incompleto: a non riuscire a distinguere le poesie umane da quelle artificiali sono specificamente i “non esperti”. Quanto esperti sono i non esperti? I valutatori sono stati reclutati con il crowdsourcing (e su questa forma di valutazione, per faccende linguistiche, ho già avuto occasione di esprimere le mie riserve); quasi tutti hanno dichiarato di avere l’inglese come madrelingua e in maggioranza (55,8%) si sono rivelati persone “not very familiar with poetry”.

Questo pubblico potrebbe anche essere interessante, ma i valutatori fanno una scelta disastrosa. Scelgono infatti alcune poesie a caso nella storia della letteratura inglese selezionando 10 autori, fanno generare a ChatGPT poesie “nello stile” degli autori selezionati e poi sottopongono al pubblico 5 poesie originali e 5 poesie artificiali. Come risultato, buona parte delle poesie umane selezionate risulta in pratica incomprensibile, anche dal punto di vista linguistico, per un pubblico non esperto. Le poesie originali sono infatti di Chaucher, Shakespeare, Emily Dickinson, T. S. Eliot e Dorothea Lasky; come esempio può essere sufficiente la poesia di Eliot:

I observe: "Our sentimental friend the moon!
Or possibly (fantastic, I confess)
It may be Prester John’s balloon
Or an old battered lantern hung aloft
To light poor travellers to their distress."
She then: "How you digress!"

And I then: "Some one frames upon the keys
That exquisite nocturne, with which we explain
The night and moonshine; music which we seize
To body forth our own vacuity."
She then: "Does this refer to me?"
"Oh no, it is I who am inane."

"You, madam, are the eternal humorist,
The eternal enemy of the absolute,
Giving our vagrant moods the slightest twist!
With your aid indifferent and imperious
At a stroke our mad poetics to confute—"
And—"Are we then so serious?"

Un esperto di poesia modernista riesce senz’altro a decifrarla; ma un parlante inglese di medio livello che cosa può intendere a una rapida lettura di “Some one frames upon the keys / That exquisite nocturne, with which we explain / The night and moonshine; music which we seize / To body forth our own vacuity”? Quanti, per esempio, sanno o possono intuire al volo che un nocturne è un tipo di composizione musicale, informazione essenziale per comprendere il passo?

Per confronto, una poesia generata da ChatGPT “nello stile di lord Byron” è una simpatica filastrocca, dove forse l’unica difficoltà è costituita da doth per does:

She walks the earth with grace and pride,
A beauty that cannot be denied,
With eyes that shine like stars above,
And lips that speak of endless love.

But though she wears a smile so sweet,
A broken heart doth lie beneath,
For in her chest a pain doth beat,
A love unrequited, without relief.

And so she walks with heavy heart,
A figure haunting in the dark,
For love, the sweetest of all art,
Can also leave a painful mark.

Gli autori si rendono conto del problema, ma lo interpretano come una questione di differenze strutturali e connaturate:

because AI-generated poems do not have such complexity [as human poems], they are better at unambiguously communicating an image, a mood, an emotion, or a theme to non-expert readers of poetry, who may not have the time or interest for the in-depth analysis demanded by the poetry of human poets (p. 9).

In realtà, ovviamente, molte poesie umane comunicano senza problemi immagini ed emozioni anche al lettore inesperto! E d’altra parte ChatGPT può generare poesie complesse e che comunicano in modo ambiguo (quanto sia in grado di farlo può essere discutibile, ma semplici prompt bastano a ottenere risultati abbastanza interessanti). La differenza dunque, verosimilmente, non è strutturale, ma è relativa alle poesie che sono state scelte, cioè al fatto di aver inserito da un lato poesie umane complesse, appartenenti a tradizioni che privilegiano una scrittura complessa o comunque difficili per ragioni di altro tipo, e dall’altro poesie artificiali generate senza lo stesso vincolo.

Il titolo del contributo dovrebbe essere quindi riformulato più o meno così: “un pubblico che in media ha poca familiarità con la poesia non è in grado di distinguere tra semplici poesie generate da ChatGPT e poesie difficili scritte da esseri umani e assegna giudizi più favorevoli a semplici poesie generate con ChatGPT che a poesie difficili scritte da esseri umani”. Sintetizzando correttamente i risultati in questi termini, è ovvio che la cosa non è molto sorprendente! È anche ovvio che il risultato dice qualcosa sulle preferenze di un pubblico di “non esperti”, ma assai poco sulle capacità dei sistemi.

Come dovrebbe quindi procedere una valutazione sensata dei sistemi? Di sicuro dovrebbe evitare che la differenza dipenda da scelte redazionali, e non dalla sostanza. Una tale valutazione dovrebbe dunque mettere a confronto, per esempio, poesie moderniste originali e poesie moderniste scritte da ChatGPT, facendole poi valutare a lettori con le necessarie competenze linguistiche e letterarie. Non dovrebbe invece mettere a confronto filastrocche e poesie moderniste, facendole valutare a un pubblico con moderate competenze.

Negli ultimi mesi, diversi miei studenti hanno provato a fare proprio questo. I risultati sono stati interessanti, e anche piuttosto sfumati… con un po’ di fortuna, spero di parlarne più avanti su questo blog.

mercoledì 20 agosto 2025

Neanche ChatGPT-5 riesce a scrivere sonetti corretti

Immagine generata da ChatGPT-5 in risposta al prompt "Puoi generare l'immagine di un poeta robot piuttosto confuso che si gratta la testa?"

La recente presentazione di ChatGPT-5 ha confermato le idee di scettici come Gary Marcus (e, nel mio piccolo, le mie): lo sviluppo delle intelligenze artificiali generative non progredisce più in modo significativo. Ai primi controlli, ChatGPT-5 non presenta differenze rilevanti rispetto al precedente 4.5. Alcune capacità sembrano migliorate, altre peggiorate… e addirittura, gruppi di utenti hanno chiesto con forza che tornasse disponibile la versione 4.5.

Nel parlare di questi argomenti mi sono trovato negli ultimi anni a dover enfatizzare sia il bicchiere mezzo pieno sia il bicchiere mezzo vuoto. Queste tecnologie sono incredibili, dal punto di vista linguistico. Tuttavia, non sono perfette e, soprattutto, non sembrano affatto tappe sulla strada della vera intelligenza. L’elemento sorpresa viene per me soprattutto dal “com’è possibile che sistemi così stupidi e del tutto privi di intelligenza possano produrre alcuni risultati di alto livello?”

Naturalmente, porre la questione in termini generali non è molto utile. Più utile è invece vedere che cosa questi sistemi sono davvero in grado di produrre. Per esempio, in passato hanno spesso avuto notevoli difficoltà a produrre sonetti: con la versione 4.5, in particolare, non sono mai riuscito a far generare loro sonetti completamente corretti dal punto di vista metrico, e solo in pochi casi ho ottenuto sonetti in cui anche solo lo schema delle rime era accettabile (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano produrre qualcosa che si avvicina molto a un vero sonetto regolare!). Cosa interessante, quando si chiede al sistema di rispettare con precisione lo schema delle rime, per far tornare i conti ChatGPT spesso inserisce parole inventate.

Un esempio tipico può essere una conversazione che ho tenuto stamattina, e che, per chi ha accesso al servizio, è disponibile qui. Il prompt iniziale proposto a ChatGPT-5 è stato semplicemente: “Puoi scrivermi un sonetto sulla pioggia d’agosto?”.

Il sonetto generato in risposta al prompt era sbagliato fin dal primo verso, che ovviamente non è riconducibile in nessun modo a un endecasillabo:

Scende leggera, eppur densa, la pioggia estiva,
spegne la polvere, placa l’afa accesa,
tra i campi bruni la terra ancor s’attiva,
e beve l’acqua come fonte intesa.

Il cielo, a un tratto, rompe la sua riva,
scioglie il silenzio in musica distesa,
mentre la brezza, tiepida e furtiva,
porta profumi d’erba ancor sorpresa.

Gli alberi danzano al ritmo improvviso,
foglie che brillan sotto i lampi d’oro,
e il giorno svela un volto più deciso.

Così d’agosto il pianto ha dolce decoro:
nel pianto breve s’apre un nuovo sorriso,
rinato il mondo in un celeste coro.

In effetti, per quanto si possa essere generosi con la sinalefe, le sillabe metriche del verso iniziale non possono essere meno di 13, con un accento sulla dodicesima (estìva). Tuttavia, al tempo stesso, lo schema delle rime del sonetto proposto era accettabile (ABAB ABAB CDC DCD; le rime alternate nelle quartine sono tipiche della poesia duecentesca, più che di quella classica, ma al sistema non era stato dato nessun vincolo specifico).

ChatGPT-5 poi è partito, nel modo caratteristico di questa particolare versione del sistema, facendo proposte autonome. Mi ha infatti chiesto se volevo un sonetto più “moderno” e, ottenuta conferma, me ne ha proposto uno privo di rime. A richiesta di un sonetto che seguisse lo schema ABBA ABBA CDE CDE è poi riuscito a portare a termine il compito, ma solo facendo coincidere la E con la C (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano rispondere a richieste specifiche sugli schemi delle rime!). Inoltre, come nelle versioni 4 e 4.5, per far tornare i conti ha dovuto inserire parole inventate ed espressioni ben poco sensate. Lo mostra per esempio la terzina finale:

Così la pioggia il tempo riconduova, (C)
e in stilla pura l’anima comprende (D)
che ogni calore al fresco si ritrova. (E)

Ho già parlato del “problema del 99,5%”: per lavori di un minimo di estensione, anche nei casi migliori il prodotto di questi sistemi non solo non è perfetto, ma non può essere corretto dai sistemi stessi in autonomia o con l’uso di prompt, per quanto sofisticati (bicchiere mezzo pieno: è incredibile che sistemi così stupidi possano produrre qualcosa che per il 99,5% è corretto!).

Dove ci troviamo, quindi? Dal mio punto di vista, credo che possiamo tirare il fiato. Le tecnologie hanno raggiunto in sostanza il loro limite: possiamo metterci a vedere bene se e come usarle, senza tenere il fiato in attesa di grandi novità. Anche così, comunque, il bicchiere mezzo pieno garantisce allo studioso tempi interessanti!

giovedì 22 maggio 2025

Fiorentino e Tavosanis, Chiaro, sintetico e brillante

Sull’ultimo numero della rivista Lingua italiana d’oggi – LId’O è uscito un contributo firmato da Giuliana Fiorentino e da me. Il contributo si intitola Chiaro, sintetico, e brillante: l’italiano dei testi redatti con l’IA funziona? e si inserisce in una sezione dedicata esplicitamente a “Lingua italiana e intelligenza artificiale”, che include altri interventi di chi lavora nel settore.

La presenza della sezione mostra quanto siano ormai maturi i tempi per una riflessione ampia sul rapporto tra l’italiano e l’intelligenza artificiale. Tuttavia, il contributo di Giuliana Fiorentino e mio vuole essere già una sintesi riguardo una questione importante: in mezzo a tutte le esagerazioni, quali sono le capacità effettive delle intelligenze artificiali generative, e in particolare di ChatGPT?

Il titolo sintetizza il modo in cui abbiamo cercato di procedere. In pratica, abbiamo valutato ChatGPT su tre tipi di compito: il miglioramento della chiarezza dei testi amministrativi, la sintesi di articoli scientifici e la stesura di articoli di giornale di taglio brillante. I risultati sono stati interessanti.

Il primo compito affrontato è quello su cui è possibile tirare conclusioni più approfondite, grazie a una preesistente tradizione di studi sul linguaggio amministrativo e a una serie di progetti di ricerca in corso adesso. Ad alcune di queste attività ho già dedicato spazio. Per quanto riguarda il contributo, però, è senz’altro utile riportare la conclusione, che mette in evidenza punti di forza e punti di debolezza: “l’efficacia che si registra a livello morfosintattico nella semplificazione realizzata utilizzando modelli di IA non è ugualmente raggiunta sul piano lessicale, per il quale occorrerà ipotizzare un diverso sistema di intervento per aumentare la chiarezza” (p. 53).

A monte, però, è anche utile riportare i modi sofisticati con cui ChatGPT interviene:

la riduzione della lunghezza delle frasi per cui a parità di testo il numero di frasi complessive aumenta; l’introduzione del soggetto esplicito; l’eliminazione di circonlocuzioni; l’evitamento di frasi parentetiche o incidentali; la riduzione del numero di verbi di forma passiva e infine la sostituzione di parole rare con parole semplici e di uso più comune (p. 52).

Per altri tipi di compito, i lavori presentati hanno una base meno ampia su cui fondarsi: Anche il campione preso in esame in dettaglio qui è molto limitato, in quanto si tratta di un unico articolo (il mio L’italiano in Asia nella testimonianza di Pietro Della Valle), il cui riassunto è stato esaminato per:

coerenza
scorrevolezza
correttezza
pertinenza

I risultati sono stati decisamente positivi. Per esempio, per la scorrevolezza sono presenti un’etichetta molto ricalcata sull’inglese e un errore sintattico: non molto, per un testo lungo una pagina.

Ancora più interessanti sono forse i risultati dell’analisi della “brillantezza”. Anche qui, il campione non è ampio: si è trattato solo di un unico articolo di opinione, sottoposto a un gruppo di valutatori assieme a un articolo sullo stesso argomento scritto da una giornalista umana. La richiesta fornita ai valutatori era semplice: dire per ogni testo se era stato scritto da un’IA o da un essere umano. Va notato che i valutatori erano poi competenti, trattandosi di studenti impegnati in un corso dedicato proprio alla scrittura delle IA generative! Ciononostante, non è stato possibile individuare in modo affidabile l’origine dei due testi.

Certo, con questo tipo di valutazione siamo solo agli inizi. Ma mi sembra importante intanto confermare che sistemi come ChatGPT sono in grado di fare un lavoro paragonabile a quello degli esseri umani per alcuni tipi di compito – mentre per altri tipi falliscono miseramente (e di questa variabilità viene dato conto nelle prime pagine del contributo). Il che, com’è ovvio, richiede qualche riflessione tanto ai ricercatori quanto ai docenti di materie umanistiche in generale.

Giuliana Fiorentino e Mirko Tavosanis, Chiaro, sintetico, e brillante: l’italiano dei testi redatti con l’IA funziona?, Lingua Italiana d’Oggi, 21, 2024, pp. 37-65.

giovedì 5 dicembre 2024

Pascucci e Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana

Ieri è iniziato il convegno CLiC-it 2024. Una delle buone abitudini di molti convegni scientifici è la pubblicazione degli atti prima che il convegno si tenga. Per questo, già da qualche giorno i contributi sono disponibili sul sito CLiC-it.

Tra questi contributi si trova anche un articolo scritto da Mariachiara Pascucci, dottoranda del dottorato in Studi italianistici dell’Università di Pisa, e da me: Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana. Anche in questo caso, in un convegno che ammette come lingue di lavoro sia l’inglese sia l’italiano, il nostro è in effetti l’unico contributo scritto in italiano su oltre 100 testi pubblicati negli atti… quando posso, continuo anche questa battaglia!

Veniamo però alla sostanza. Il contributo è collegato a una serie di lavori recenti sul miglioramento della chiarezza dei testi e si occupa di un aspetto che può sembrare marginale ma che a me sembra centrale: chi riesce a valutare meglio la chiarezza di un testo in lingua italiana?

La risposta a questa domanda non è banale. Esistono da decenni alcuni indicatori di chiarezza, come il GULPEASE o la percentuale di parole che appartengono al Vocabolario di Base dell’italiano. Tuttavia, questi indicatori hanno diversi limiti – e non possono valutare, per esempio, se un testo è stato reso più “chiaro” sacrificando informazioni importanti o introducendo veri e propri errori. Per una valutazione di questo tipo occorre appoggiarsi a esseri umani.

La domanda diventa quindi: quali esseri umani? Per alcuni tipi di valutazione, la risposta è semplice e può essere fornita con elevatissimo livello di precisione da persone con una competenza linguistica generica, da madrelingua o addirittura da non madrelingua, senza che sia necessaria una particolare formazione. Non occorre un curriculum da redattore o una laurea in linguistica italiana per dire per esempio che la frase “il gatti mangiassero camminare” non è grammaticale.

Per altri tipi di valutazione, la situazione però cambia. Valutare la qualità dei testi generati mi sembra essenziale; tuttavia, alcune deviazioni rispetto allo standard professionale di scrittura possono essere notate sistematicamente solo da professionisti o da persone molto attente. Lo stesso vale, verosimilmente, per giudizi sulla chiarezza di diversi tipi di testo. E le intelligenze artificiali generative su cui sto lavorando in questo periodo si avvicinano ormai talmente tanto al modello umano professionale che viene il sospetto che la valutazione di ciò che producono possa ormai essere compiuta in modo convincente solo da professionisti. Di qui le mie perplessità sul tipo di valutazione oggi senz’altro prevalente in questo genere di studi, cioè quella fatta da non esperti. In particolare, ho da tempo molte perplessità sull’affidabilità delle valutazioni compiute attraverso la pratica del “crowdsourcing”: reclutare valutatori non esperti attraverso piattaforme online.

Un conto è però sospettare che la situazione sia questa, un conto documentarla e quantificarla. Per questo ci siamo messi al lavoro… e i risultati sono stati interessanti. Come punto di partenza abbiamo usato dei testi resi più chiari (auspicabilmente) attraverso l’intervento di esseri umani e di ChatGPT. Abbiamo poi valutato noi stessi questi testi, considerandoci “esperti” di riferimento. Dopodiché, abbiamo sottoposto i testi a valutatori esperti (= studenti magistrali che hanno seguito un mio corso sulla valutazione), a valutatori reclutati attraverso il sistema del crowdsourcing e, per finire, a ChatGPT stesso. Abbiamo poi visto quanto i diversi valutatori si sono avvicinati alla valutazione di riferimento.

I risultati sono stati in parte sorprendenti. Come era lecito attendersi, i valutatori esperti si sono avvicinati più di ogni altro gruppo al risultato di riferimento. Tuttavia, il secondo posto è stato ottenuto non dai valutatori reclutati attraverso il crowdsourcing ma da ChatGPT: il crowdsourcing è finito al terzo posto. Personalmente, diffido da tempo dell’attendibilità del crowdsourcing per questo genere di valutazioni, ma non immaginavo che potesse prodursi una classifica del genere.

Naturalmente, molto dipende dal modo in cui è stato costruito l’esperimento! E nulla dimostra che i risultati saranno gli stessi, per esempio, con altri tipi di incarico. Ma fornire indicazioni quantitative che mostrano quanto i risultati della valutazione dipendano dai valutatori mi sembra fondamentale!

Mariachiara Pascucci e Mirko Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana, in Proceedings of the Tenth Italian Conference on Computational Linguistics (CLiC-it 2024), Pisa, 4-6 dicembre 2024, a cura di Felice Dell’Orletta, Alessandro Lenci, Simonetta Montemagni e Rachele Sprugnoli, Aachen, CEUR-WS, 2024 ISSN 1613-0073.

venerdì 11 ottobre 2024

Tavosanis, Valutare la qualità dei testi generati in lingua italiana

L’ho scritto a inizio settimana parlando di Co-Intelligence di Ethan Mollick: capire che cosa sanno fare o meno le cosiddette “intelligenze artificiali generative” non è affatto intuitivo. Di qui la centralità della valutazione dei loro prodotti.

Un mio contributo sull’argomento è stato pubblicato questa estate dalla rivista “AI-Linguistica” e ha come titolo, appunto, Valutare la qualità dei testi generati in lingua italiana. È anche un contributo piuttosto lungo, perché per arrivare alla valutazione di questi testi occorre fare un buon numero di premesse.

Uno dei motivi per cui le premesse sono necessarie è che non esiste un metodo collaudato per valutare i testi prodotti in questo modo. Esistono, certamente, diverse tradizioni di valutazione dei testi, praticate da gruppi diversi di persone: quella scolastica, quella del mondo della traduzione umana, quella della comunità della traduzione automatica, quella del testing linguistico… Ognuna di esse fornisce contributi interessanti. Nessuna di esse però, a mio giudizio, può essere adottata pari pari per la valutazione dei testi generati dalle intelligenze artificiali generative (ChatGPT e simili, insomma).

Di una cosa però sono sicuro: in questa fase, la valutazione dei testi delle intelligenze artificiali generative deve essere necessariamente una valutazione fatta da esseri umani competenti. Non esistono scorciatoie: non ci sono sistemi automatici o crowdsourcing che possano sostituire il lavoro di chi può dire se un’espressione è accettabile o meno nell’uso professionale. Le competenze linguistiche e filologiche sono indispensabili per riuscire a comprendere e valutare correttamente questi testi.

Aggiungo che non si tratta di un’idea a priori: è la conclusione cui sono arrivato dopo aver provato in modo sistematico le alternative e aver visto che, semplicemente, forniscono risultati molto meno validi rispetto alla valutazione di esseri umani competenti. I dettagli sugli esperimenti che mi portano a questa conclusione saranno presentati nei prossimi mesi in alcuni contributi in uscita, ma il quadro d’assieme è ben chiaro – e in linea con tutto ciò che sappiamo (ma spesso dimentichiamo) sulla valutazione.

Mirko Tavosanis, Valutare la qualità dei testi generati in lingua italiana, “AI-Linguistica” 1, 1, 2024, pp. 1-24. https://doi.org/10.62408/ai-ling.v1i1.14

mercoledì 16 dicembre 2020

Papa e Tavosanis, Valutazione umana di DeepL a livello di frase per le traduzioni di testi specialistici dall'inglese verso l'italiano

Vale davvero la pena tenere d’occhio gli sviluppi della traduzione automatica… è uno dei rarissimi casi in cui la tecnologia è più avanti di quel che sembra!

Adesso è appena uscito un contributo scritto da un bravo studente, Sirio Papa, e da me: Valutazione umana di DeepL a livello di frase per le traduzioni di testi specialistici dall’inglese verso l’italiano. Il contributo appare negli atti del convegno CLiC-it 2020, che avrebbe dovuto tenersi quest’anno ma che è stato spostato al marzo 2021: speriamo possa tenersi in presenza.

I risultati del lavoro, per quanto incredibile ciò ancora mi sembri, confermano altri studi recenti, in cui si è parlato molto di raggiungimento della “parità” tra traduzione automatica e traduzione umana. Per quanto riguarda l’“adeguatezza”, cioè in sostanza la correttezza dei contenuti, nel mio campione la traduzione automatica è risultata al livello di quella umana. Non arriva invece al livello di quella umana per la “scorrevolezza”, definendo in questo modo il rispetto di tutte le regole grammaticali, l’uso delle collocazioni tipiche di una lingua, eccetera, ma la differenza è davvero ridottissima. Di tutto questo ho già parlato l’anno scorso, parlando della presentazione fatta a Bari e del contributo pubblicato.

In quanto ai risultati del lavoro appena uscito, che confermano e rafforzano i precedenti, sono stati ottenuti sottoponendo a un gruppo di 15 valutatori le traduzioni di 108 frasi inglesi. Di ogni frase sono state valutate due diverse versioni, una tradotta da esseri umani e l’altra tradotta da DeepL. Le frasi sono state divise in due gruppi e presentate ai valutatori in ordine casuale, senza informazioni su chi avesse tradotto ogni singola frase. I risultati complessivi, in scala da 1 a 5, sono stati questi:

Adeguatezza

Umano: 4,29
DeepL: 4,31

Scorrevolezza

Umano: 4,17
DeepL: 4,09

Insomma, la traduzione automatica ha ricevuto addirittura un punteggio più alto di quello della traduzione umana per quanto riguarda l'adeguatezza, ma la differenza è tanto ridotta da non essere statisticamente significativa: in pratica, si tratta di parità. È invece statisticamente significativo il vantaggio del traduttore umano per la scorrevolezza… ma, come si vede, il margine è comunque molto, molto ridotto.

Se al di là dei numeri interessano gli aneddoti, poi, forse è il caso di raccontarne uno. Quando ho ricevuto il documento con le frasi estratte a caso da traduzioni eseguite da DeepL, l’ho scorsa e ho contattato il mio coautore, dicendo: “ci deve essere un errore! Queste mi sembrano le frasi tradotte da traduttori umani”. La risposta, come si sarà immaginato, è stata: “no, no, sono proprio quelle di DeepL”…

Vale poi la pena di precisare due cose importanti. La prima è che la valutazione è stata condotta, a differenza dei miei esperimenti precedenti, su testi specialistici: brevetti, manuali, schede di sicurezza. I settori di provenienza erano “biomedicina e discipline del farmaco” e “ambiente ed energia”. E prima di fare la valutazione, confesso che non avevo idea di che cosa sarebbe venuto fuori: questi testi si prestano bene alla traduzione automatica, perché per esempio la sintassi è più rigida di quella di altri tipi di testo? O si prestano male, perché per esempio le difficoltà nella traduzione della terminologia sono insormontabili? Direi che i risultati, come minimo, garantiscono che le difficoltà non sono insormontabili.

La seconda cosa, connessa, è che la valutazione è stata condotta grazie al contributo volontario degli studenti e dei docenti (in particolare, delle professoresse Isabella Blum e Silvia Barra) del Master on line in Traduzione specialistica inglese > italiano erogato dal Consorzio ICoN: li ringrazio tutti sentitamente! Il loro coinvolgimento è stato essenziale perché, com’è ovvio, non si può valutare la qualità della traduzione se non si sa che cosa significa il testo originale, o anche solo se determinate parole esistono o no nell’uso italiano.

Prossimi sviluppi? Probabilmente passare a valutare testi interi, non più singole frasi. La cosa è difficile e pone anche problemi metodologici (come si fa a nascondere al valutatore l’origine anche solo di un articolo di giornale? Per rendere evidente la provenienza basta che sia presente all’interno anche un solo errore che un essere umano non commetterebbe mai); ma un paio di idee le ho, e forse potrò provare ad applicarle nel 2021.

Aggiungo poi che anche in questo caso sono lieto di aver pubblicato l’articolo in italiano, in un contesto in cui la conferenza accetta sia italiano che inglese, ma, se vedo bene, su 69 articoli accettati quelli in italiano sono solo 4. Meglio dei 2 su 75 dell’anno scorso, peraltro! E chissà che la traduzione automatica non permetta comunque la lettura anche a chi non conosce l’italiano...

Sirio Papa e Mirko Tavosanis, Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano, pp. 1-7, in CLiC-it 2020 – Proceedings of the Seventh Italian Conference on Computational Linguistics Bologna, Italy, March 1-3, 2021, a cura di Johanna Monti, Felice Dell’Orletta e Fabio Tamburini, CEUR Workshop Proceedings, Aachen University, ISSN 1613-0073.

sabato 2 maggio 2020

Peyronie, Le mouvement Freinet

Da molto tempo mi interessa il movimento Freinet, sia in sé sia in rapporto alle esperienze italiane che a esso hanno fatto in vario modo riferimento, da Mario Lodi a Bruno Ciari. Le ragioni per questo interesse sono semplici da motivare. Infatti, non solo mi trovo in accordo con molte delle idee alla base del movimento, ma, come i lettori di questo blog forse immaginano, mi piace molto un punto chiave: usare le tecnologie della comunicazione scritta per lavorare e fare didattica. Nel caso del movimento Freinet, la tecnologia chiave è – o era alle origini – la stampa tipografica; oggi però abbiamo molte possibilità in più. Ci si può quindi chiedere quale sia stata l’evoluzione. In fin dei conti, la società è molto cambiata, dai tempi dei primi esperimenti di Célestin ed Elise Freinet negli anni Venti, ma il movimento Freinet è ancora molto attivo.

Una buona risposta per me è arrivata dall’interessante libro di Henri Peyronie Le mouvement Freinet: du fondateur charismatique à l’intellectuel collectif. Il testo è una raccolta di contributi che Peyronie, autore anche di diversi altri lavori in materia, aveva pubblicato nel corso di più di vent’anni. Il suo contenuto non è quindi una sintesi sistematica della pedagogia Freinet, ma qualcosa di altrettanto interessante: i risultati di una serie di ricerche sull’evoluzione del movimento Freinet, che a differenza di molti altri movimenti simili è riuscito a sopravvivere alla scomparsa dei fondatori.

Gli argomenti indagati sono molto diversi fra loro. Per esempio, una sezione riferisce i risultati di un’indagine sull’origine sociale e biografica delle persone che entrano a far parte del movimento; un’altra descrive il modo in cui sono andati i rapporti tra i maestri del movimento Freinet e intellettuali di altra provenienza nel periodo di pubblicazione della rivista Techniques de vie negli anni Sessanta; un’altra ancora si interroga sull’evoluzione da “educazione popolare” a pedagogia per i figli delle “nouvelles classes moyennes”. All’evoluzione degli strumenti tecnologici vanno soltanto pochi cenni; ciò, nella mia prospettiva, è un peccato, ma spero ci siano occasioni future di approfondimento. Nel frattempo, il libro fornisce molte informazioni importantissime sul contesto.

Il modo in cui vengono presentati i risultati è molto discorsivo. A me piace vedere numeri, ma in questo caso è chiaro che le sfaccettature sono tante e tali da rendere priva di senso una quantificazione, e la scelta è del tutto ragionevole. Mi è piaciuta particolarmente, in quest’ottica, la sezione intitolata Quelles traces de leur scolarité ches des adultes, anciens élèves de classes Freinet? Come nota giustamente l’autore, la domanda posta nel titolo è fondamentale per una valutazione del metodo e del movimento Freinet. In fin dei conti, l’idea è che il metodo pedagogico aiuti a formare quelli che nella prospettiva delle origini potevano essere definiti i figli del popolo e gli intellettuali organici, e nella prospettiva di oggi possono forse essere definiti i cittadini attivi e consapevoli. Vedere se questo è successo davvero è quindi fondamentale.

La risposta data da Peyronie è del tutto ragionevole. Le vicende della vita e della scolarizzazione, infatti, sono tanto diversificate da rendere molto difficile misurare le conseguenze di un intervento pedagogico o didattico, qui e in infiniti altri contesti. In che misura chi ha seguito un percorso Freinet è stato plasmato da quello, invece che dalle circostanze successive e dall’evoluzione successiva della società? Impossibile dare certezze. Peyronie riporta soprattutto i risultati di interviste fatte agli ex allievi Freinet da adulti, e giustamente nota che è difficile trarne conclusioni precise. Quelle che si leggono sono però considerazioni fatte da persone che, qualunque fosse il loro ruolo sociale al momento dell’intervista, sembrano molto consapevoli e capaci di esprimersi in modo molto articolato. Non è una dimostrazione di nulla, ma è qualcosa che lascia un gradevole ricordo e, soprattutto, speranze per il futuro.

Henry Peyronie, Le mouvement Freinet: du fondateur charismatique à l’intellectuel collectif: Regards socio-historiques sur une alternative éducative et pédagogique, Caen, Presses universitaires de Caen, 2016, edizione Kindle, € 8,99, ASIN B01N3SDIHT.

martedì 5 novembre 2019

Tavosanis, Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano

Schermata della pubblicazione online degli atti CLiC-it 2019

Ho un po’ di osservazioni da fare sulla traduzione automatica e, più in generale, sul modo in cui le tecniche di intelligenza artificiale permettono oggi l’elaborazione del linguaggio. Parto segnalando un mio contributo: Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano. Il contributo appare negli atti del prossimo convegno CLiC-it 2019 (sì, nel settore si pubblicano spesso gli atti prima del convegno… cosa utilissima), su cui spero di riferire in diretta.

Per inquadrare il lavoro occorre fornire qualche spiegazione, collegata a quanto scrivevo nel mio libro su Lingue e intelligenza artificiale, ma tenendo conto del fatto che nel frattempo ci sono stati sviluppi notevoli. Dal 2017 a oggi la qualità delle traduzioni automatiche è molto migliorata, grazie all’adozione di tecniche di intelligenza artificiale… e fin qui nel libro c’ero arrivato. Poi però sono successe due cose importanti, entrambe nel corso del 2018:

la qualità delle traduzioni sembra essere ulteriormente migliorata, almeno per alcuni sistemi commerciali
la comunità della valutazione si è accorta del fatto che il sistema usato in precedenza sottovalutava in modo clamoroso i prodotti della traduzione a reti neurali

Di qui la necessità di rivalutare tutto il quadro, e l’unico metodo efficace è stato il ripartire da zero: fornire i prodotti della traduzione automatica a esseri umani e chiedere a loro di valutarli. I risultati sono clamorosi, perché finalmente mostrano i miglioramenti recenti in tutta la loro portata.

Il mio contributo presenta quindi una valutazione delle prestazioni dei due sistemi migliori, Google Traduttore e DeepL, usati attraverso le interfacce web disponibili al pubblico. Per la valutazione ho usato un campione di 100 frasi tratte da testi giornalistici in lingua inglese tradotti in italiano, valutate da studenti del mio corso di Linguistica italiana II (2018-2019) che avevano ricevuto istruzioni e fatto pratica con l’assegnazione di punteggi. Le scale usate sono state:

Adeguatezza

Il contenuto informativo dell’originale è stato completamente alterato
È stata trasmessa una parte del contenuto informativo, ma non la più importante
Circa metà del contenuto informativo è stata trasmessa
La parte più importante del contenuto informativo originale è stata trasmessa
Il contenuto informativo è stato tradotto completamente

Fluenza

Impossibile da ricondurre alla norma
Con più di due errori morfosintattici
Con non più di due errori morfosintattici e/o molti usi insoliti di collocazioni
Con non più di un errore morfosintattico e/o un uso insolito di collocazioni
Del tutto corretta

I risultati sono stati, appunto, sorprendenti.

Google : adeguatezza 4,15, fluenza 3,90
DeepL: adeguatezza 4,30, fluenza 3,94
Umano : adeguatezza 4,60, fluenza 4,46

In sostanza, la differenza è molto più ridotta di quello che si poteva pensare in base alle metriche usate finora per le traduzioni: una delle più usate, BLEU, assegnava alle traduzioni automatiche punteggi attorno alla metà di quelli ricevuti dai traduttori umani. La situazione è invece molto diversa e, anche se i sistemi automatici continuano a fare un sacco di errori, la distanza è ridotta. Inoltre, in diversi casi le frasi che producono sono indistinguibili per qualità da quelle dei traduttori umani reali – o addirittura migliori. Su questo ci sarà da riflettere molto.

Aggiungo poi che di questo lavoro mi fanno particolare piacere tre cose: aver pubblicato in un contesto di linguistica computazionale, sempre un po’ fuori settore per me; aver fatto il lavoro in modo interattivo, assieme agli studenti del mio corso; e infine, aver pubblicato l’articolo in italiano, in un contesto in cui la conferenza accetta sia italiano che inglese, ma, se vedo bene, su 75 articoli accettati quelli in italiano sono solo due.

Mirko Tavosanis, Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano, pp. 1-7, in CLiC-it 2019 – Proceedings of the Sixth Italian Conference on Computational Linguistics, Bari, Italy, November 13-15, 2019, a cura di Raffaella Bernardi, Roberto Navigli e Giovanni Semeraro, CEUR Workshop Proceedings, Aachen University, ISSN 1613-0073.

mercoledì 23 novembre 2011

Italiano che vale un terzo

Le ultime “riforme” universitarie dovrebbero cambiare il modo in cui l’università italiana assumerà i nuovi docenti. Non si faranno più ricercatori a tempo indeterminato (come me), e per diventare professori associati oppure ordinari sarà necessario avere prima un’abilitazione nazionale e poi vincere un concorso locale.

In questo, a livello generale, non c’è nulla di particolarmente nuovo: i fattori principali che determinano la carriera dei docenti saranno, come in passato, la quantità di soldi di cui l’università dispone e il tipo di lavoro offerto alle persone che potrebbero essere interessate a insegnare lì. Il resto sono dettagli... ma è anche vero che a volte il diavolo è nei dettagli, e che alcune caratteristiche del prossimo concorso nazionale sono come minimo sorprendenti.

Chi scriverà le regole per il concorso di abilitazione dei futuri docenti? La legge fornisce solo indicazioni generiche, da determinare con un regolamento successivo. In questi giorni circola in effetti una bozza di Decreto del Ministro dell’istruzione, dell’università e della ricerca che presenta appunto un “Regolamento recante criteri e parametri per la valutazione dei candidati ai fini dell’attribuzione dell’abilitazione scientifica nazionale per l’accesso alla prima e alla seconda fascia dei professori universitari, ai sensi dell’articolo 16, comma 3, lettere a), b) e c) della legge 30 dicembre 2010, n. 240”. La bozza di decreto non sembra pubblicata ufficialmente, ma diversi organismi l’hanno discussa e presentata in tutto o in parte; io l’ho letta in una versione presentata sul sito della Rete 29 aprile.

Ora, come rileva esplicitamente il Consiglio Universitario Nazionale nel suo parere del 19 ottobre (parte prima, punto 3), per quanto riguarda la valutazione scientifica delle pubblicazioni la bozza corrente attribuisce in sostanza il potere di fissare i parametri di valutazione all’Agenzia Nazionale di Valutazione del Sistema Universitario e della Ricerca (ANVUR). La base di partenza della valutazione sarà quindi verosimilmente costituita dai parametri che l’ANVUR ha presentato come proposta di lavoro nel suo documento 1/2011, modificati con le osservazioni contenute nel documento 2/2011 (pubblicato il 25 luglio).

L’assieme dei due documenti ANVUR fornisce indicazioni in parte condivisibili, in parte sorprendenti. L’ANVUR divide la ricerca universitaria in due grandi aree, a seconda che siano disponibili o meno indicatori bibliometrici consolidati (quelli che stabiliscono il “valore” di una pubblicazione su determinate riviste, l’importanza del numero di citazioni che ha avuto un articolo, eccetera). Si può discutere sui parametri esatti, e alcune scelte dell’ANVUR sono state criticate appunto in quest’ottica, oltre che in alcune scelte di fondo, ma come minimo si può dire che criteri del genere si fondano su prassi condivise dalla comunità dei ricercatori.

In molte aree di ricerca, però, gli indicatori bibliometrici non esistono: è il caso, in sostanza, di tutta la ricerca umanistica. Gli addetti ai lavori sanno bene quali sono le sedi di pubblicazione più selettive e prestigiose, e quali no, ma non c’è una gerarchia rigida e pubblica paragonabile a quella presente, per esempio, nella biologia molecolare. Di conseguenza, o si mette in piedi un sistema di valutazione internazionale anche per questi settori – cosa decisamente fuori portata – oppure bisogna rassegnarsi... o no? L’ANVUR, davanti al problema, ha fatto una scelta sbagliata: ha proposto per tutta quest’area di usare indicatori inventati e approssimativi, sia pure sottolineandone i limiti e auspicandone l’uso nella sola “prima tornata di abilitazioni”. Vedere per credere. Nel documento 1/2011 si propone di valutare le pubblicazioni dell’area innanzitutto secondo il loro numero (punto 5, parametro 2):

il parametro è il numero di pubblicazioni (esclusi gli atti dei congressi) negli ultimi 10 anni, ponderato per tenere conto del diverso impegno nella produzione di monografie e articoli e delle differenze di diffusione tra lavori pubblicati all’estero o in Italia.

Per la ponderazione viene poi proposto questo schema:

- monografia pubblicata da editore internazionale (autore o coautore) : peso 3
- articolo pubblicato su rivista internazionale (ISI o Scopus) : peso 1,5
- curatela di volumi pubblicati da editori internazionali : peso 1,2
- monografia pubblicata da editore nazionale: peso 1
- articoli pubblicati su riviste nazionali: peso 0,5
- articoli pubblicati su riviste internazionali non ISI o Scopus: peso 0,5
- articoli o capitoli pubblicati su volumi nazionali: peso 0,5.

In sostanza, per incredibile che possa sembrare, un’agenzia di valutazione propone di misurare metà delle ricerca universitaria italiana mettendo tutte le pubblicazioni di uno stesso tipo allo stesso livello, senza badare al fatto che un libro può essere un’opera geniale e un altro una farneticazione pubblicata a spese dell’autore. Inoltre, cosa altrettanto incredibile, dice che se un lavoro è stato pubblicato da un editore italiano vale tre volte di meno rispetto a un qualunque lavoro dello stesso tipo pubblicato da un qualunque editore straniero!

Le cose peggiorano ulteriormente nel documento 2/2011 che, intervenendo al punto 3 sull’appena citato punto 5 del primo documento, propone che a essere penalizzati non siano più i lavori pubblicati da “editori nazionali”, ma quelli presentati “in italiano”, contrapposti a quelli “in lingua diversa dall’italiano”. Letteralmente: in questo schema, qualunque lavoro in italiano vale perciò stesso tre volte di meno di un qualunque lavoro equivalente pubblicato in qualunque altra lingua (inglese, ungherese, cantonese...).

Dire, come fa l’ANVUR, che questo modo di procedere ha dei “limiti” è un eufemismo non da poco. A occhio, la cancellazione totale della ponderazione produrrebbe probabilmente meno assurdità e distorsioni rispetto a una scelta del genere.

Com’è possibile che un’agenzia di valutazione proponga una scelta così bislacca? Le motivazioni esplicite addotte sono queste quattro:

(a) un volume pubblicato all’estero, in lingua diversa dalla lingua madre (italiano) comporta di norma uno sforzo maggiore per l’autore rispetto ad un volume in italiano;
(b) esso è stato sottoposto ad una selezione che inevitabilmente si è basata su una competizione più ampia e più severa, in quanto per definizione più numerosi sono i concorrenti
(c) esso raggiunge grazie alla distribuzione nei canali internazionali una platea più vasta di lettori ed utilizzatori, realizzando in questo modo un ampliamento della comunicazione scientifica (che è un valore in sé), una maggiore visibilità della ricerca italiana nel mondo, ma anche un impatto più incisivo della spesa pubblica in ricerca
(d) qualora si tratti della traduzione in lingua estera di un precedente lavoro in lingua italiana, essa testimonia del riconoscimento internazionale del lavoro dell’autore (in questo caso andrebbe conteggiato solo il lavoro originale o la traduzione, non entrambi).

Alcune di queste motivazioni rasentano la follia. Per esempio, che senso ha (punto a) valutare lo “sforzo” compiuto da un autore? La ricerca scientifica non è un compitino di scuola elementare, in cui l’insegnante può dire “d’accordo, non ce l’ha fatta, ma si è impegnato molto...”. Nella ricerca contano solo i risultati, non il fatto che arrivarci sia stato faticoso – e, ancor peggio, artificiosamente faticoso. Il punto (b) e il punto (c) si basano invece su una valutazione del pubblico che per molti settori è tutta da dimostrare. Io mi occupo di linguistica italiana: chi si interessa a questo argomento sa quasi inevitabilmente leggere l’italiano, ed è molto probabile che una pubblicazione in inglese tagli fuori, in Italia, un numero di potenziali interessati pari o superiore rispetto a quello che si guadagna all’estero. E di sicuro, dal punto di vista della produzione, gli studiosi di linguistica italiana capaci di scrivere con agio in inglese sono meno numerosi di quelli capaci di scrivere in italiano...

Va sottolineato poi che l’ANVUR parla pudicamente di “lingua diversa dall’italiano”, ma pensa in realtà al solo inglese. Che senso avrebbero i criteri di “ampiezza del pubblico” per una pubblicazione scritta, per esempio, in svedese?

Insomma: nella comunicazione scientifica fare una graduatoria a priori delle lingue ha ben poco senso. Ogni ricercatore desidera che il proprio lavoro sia conosciuto dalle persone interessate, e si regola di conseguenza, sulla base delle proprie capacità. In alcuni settori, se si vuole diffondere il proprio lavoro, bisogna scrivere in inglese. In altri, semplicemente, no. Stabilire a priori che certe lingue sono inferiori rispetto alle altre... anzi, che una lingua è inferiore rispetto alle altre... non ha alcun senso scientifico. Potrebbe essere un atto di politica della ricerca, ma è difficile immaginarsi che se per esempio la linguistica italiana si mettesse a pubblicare solo in inglese, i suoi risultati migliorerebbero o sarebbero più noti all’estero (verosimilmente, avremmo articoli in inglese scritti peggio rispetto agli equivalenti italiani, grazie al famoso “sforzo”).

Dopodomani ci sarà l’assemblea dell’Associazione per la Storia della lingua italiana, cui appartengo anch’io, e spero ci sia occasione di presentare come minimo una forte mozione contro una proposta tanto assurda.

Linguaggio e scrittura

martedì 3 marzo 2026

Tavosanis, Grammatica generata

martedì 10 febbraio 2026

Che cosa ChatGPT riesce a far bene, nel febbraio 2026?

giovedì 22 gennaio 2026

Studi sul miglioramento della chiarezza con IA

venerdì 2 gennaio 2026

Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative

venerdì 10 ottobre 2025

ChatGPT è ancora scarso, come poeta... ma dipende!

venerdì 5 settembre 2025

Di nuovo a Dresda per AI-ROM

venerdì 22 agosto 2025

Come non valutare la poesia di ChatGPT

mercoledì 20 agosto 2025

Neanche ChatGPT-5 riesce a scrivere sonetti corretti

giovedì 22 maggio 2025

Fiorentino e Tavosanis, Chiaro, sintetico e brillante

giovedì 5 dicembre 2024

Pascucci e Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana

venerdì 11 ottobre 2024

Tavosanis, Valutare la qualità dei testi generati in lingua italiana

mercoledì 16 dicembre 2020

Papa e Tavosanis, Valutazione umana di DeepL a livello di frase per le traduzioni di testi specialistici dall'inglese verso l'italiano

sabato 2 maggio 2020

Peyronie, Le mouvement Freinet

martedì 5 novembre 2019

Tavosanis, Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano

mercoledì 23 novembre 2011

Italiano che vale un terzo

Translate

Transmongolica

Archivio blog

Elenco blog personale

Informazioni personali

LinkedIn

Lettori fissi

Categorie

Post più popolari

martedì 3 marzo 2026

martedì 10 febbraio 2026

giovedì 22 gennaio 2026

venerdì 2 gennaio 2026

venerdì 10 ottobre 2025

venerdì 5 settembre 2025

venerdì 22 agosto 2025

mercoledì 20 agosto 2025

giovedì 22 maggio 2025

giovedì 5 dicembre 2024

venerdì 11 ottobre 2024

mercoledì 16 dicembre 2020

sabato 2 maggio 2020

martedì 5 novembre 2019

mercoledì 23 novembre 2011

Translate

Transmongolica

Archivio blog

Elenco blog personale

Informazioni personali

LinkedIn

Iscriviti a

Lettori fissi

Categorie

Post più popolari