martedì 3 marzo 2026

Tavosanis, Grammatica generata

 
Logo AI-Ling

Il 2025 è stato per me un anno decisamente impegnativo. In primo luogo, e di gran lunga, per gli eventi della vita; ma un po’ anche per i lavori da portare a termine. Questo secondo aspetto se non altro è più controllabile e, incrociando le dita, si sta normalizzando. Tuttavia, la quantità di cose da fare è stata tale da rendere difficile anche solo dar conto di quel che è stato pubblicato.
 
Segnalo quindi qui un mio contributo uscito già da qualche mese sulla rivista “AI-Linguistica”: Grammatica generata: analisi di alcune strutture presenti nei testi di ChatGPT in lingua italiana. Lì ho cercato di vedere quanti e quali sono gli errori grammaticali che ChatGPT, Minerva LLM e DeepSeek commettono nei testi generati in lingua italiana. Spoiler! Gli errori sono pochi ma non assenti (se ne trova uno ogni una-due pagine), e sono anche molto simili tra un modello e l’altro, sia per frequenza sia per qualità.
 
Tuttavia, una valutazione più precisa è resa difficile da una vaghezza nell’oggetto. Infatti, nell’italiano contemporaneo non è sempre chiaro che cosa sia errore o no. L’incertezza è viva soprattutto per la sintassi, e molto meno per la morfologia o l’ortografia, ma coinvolge comunque strutture comunissime. A scanso di equivoci, è bene precisare che ciò avviene anche (o specialmente?) nell’uso colto. In pratica, quindi, si vede che persone istruite, inclusi i docenti di materie letterarie nella scuola secondaria o i linguisti, hanno opinioni molto diverse tra di loro (e spesso vivacemente diverse tra di loro) riguardo l’accettabilità o meno di frasi come queste, che possono essere accettate senza problemi o violentemente critcate:
 
  • A Piero piace Maria e cerca di farsi bello ai suoi occhi. 
  • In questi casi, una scrittura volutamente non chiara può servire a proteggere individui da potenziali danni, sia a livello personale che professionale.
 
Naturalmente, non sono io il primo ad accorgersi dello stato delle cose: da un quarto di secolo a questa parte, diversi ricercatori, incluso Gaetano Berruto, hanno fatto occasionale riferimento a questa “disomogeneità di giudizi”, evidente a chiunque si metta a leggere sistematicamente i tre monumentali tomi della Grande grammatica italiana di consultazione. Tuttavia, non si sono mai avute, per esempio, campagne di valutazione estese che rendessero conto della variabilità dei giudizi dei parlanti. E in generale, com’è ovvio, la produzione professionale spesso si tiene lontana dai casi incerti; che però emergono senza problemi quando a scrivere sono persone di alto livello culturale ma che non praticano professionalmente la scrittura in lingua italiana.
 
La questione sarebbe soprattutto scolastica, ma è impossibile evitarla quando si cerca di valutare la produzione delle intelligenze artificiali. Se un’intelligenza artificiale generativa produce strutture come “sia a livello personale che professionale”, che vanno in diretta violazione di alcuni principi enunciati da Luca Serianni, si tratta di un errore o no?
 
Anche in questo caso mi sembra insomma che l’intelligenza artificiale, oltre a essere un oggetto di studio interessante di per sé, permetta di tornare a riflettere su qualcosa che sia nella discussione scientifica sia nella pratica didattica è rimosso o negato. Anche dopo decenni di studi, l’italiano delle grammatiche non sempre dà conto dell’italiano reale… e vale senz’altro la pena approfondire la questione.
 
Mirko Tavosanis, Grammatica generata: analisi di alcune strutture presenti nei testi di ChatGPT in lingua italiana , “AI-Linguistica” 2, 2, 2025, pp. 1-32. https://doi.org/10.62408/ai-ling.v1i1.14
 

lunedì 2 marzo 2026

Interventi e presentazioni tra febbraio e marzo


Logo RIND
Come scrivevo ieri, negli ultimi mesi dal punto di vista lavorativo sono stato in grado solo di occuparmi dell’essenziale. Non sono quindi riuscito nemmeno ad annunciare qui tutto ciò che facevo o pubblicavo: il riallineamento sta iniziando adesso!
 
All’interno di questo riallineamento, segnalo ora, tutti assieme, alcuni interventi che ho tenuto a febbraio e le iniziative in programma per marzo:
  • l’11 febbraio, su gentile invito di Giuliana Fiorentino, ho tenuto una lezione online sul Valutare le capacità delle intelligenze artificiali generative per il Polo Lincei del Molise
  • il 26 febbraio, a Trieste, all’interno del convegno Visti da lontano inserito nel progetto PRIN RIND, su gentile invito di Stefano Ondelli, ho tenuto una presentazione sul tema Dalla statistica linguistica alla valutazione
  • il 10 marzo, alle 14:30, parteciperò al laboratorio Oltre alla lezione frontale, altre forme di didattica presso il Liceo Buonarroti a Pisa
  • l’11 marzo, alle 14:30, nell’Aula Magna del Dipartimento di Filologia, letteratura e linguistica dell’Università di Pisa si terrà un incontro di presentazione del mio libro L’italiano sulla via dell’India; parteciperanno Daniele Baglioni e Alessandro Orengo
 
Seguiranno naturalmente aggiornamenti per le iniziative successive!
 

domenica 1 marzo 2026

Una recensione di Alfabit di Giuseppe Antonelli sul Magazine Treccani

 
Copertina di Alfabit di Giuseppe Antonelli
Sul Magazine Treccani è uscito il 25 febbraio uno Speciale dedicato a L’IA-taliano, ovvero la lingua italiana sotto la luce Artificiale dell’Intelligenza. All’interno c’è anche una mia recensione dell’ultimo libro di Giuseppe Antonelli, Alfabit, appena pubblicato dal Mulino.
 
Il libro raccoglie contributi che Antonelli ha dedicato in diversi periodi alla comunicazione elettronica. Vale la pena notare il forte stacco tra gli argomenti che attiravano l’attenzione negli anni Zero, negli anni Dieci e adesso: mentre nei primi due decenni si trattava di fenomeni legati alla comunicazione umana, adesso al centro dell’attenzione c’è la scrittura dell’Intelligenza Artificiale.
 
Non aggiungo qui altro: la recensione è in linea assieme ad altri contributi interessanti che ruotano appunto, ormai, soprattutto sul tema dell’Intelligenza Artificiale. Sul quale, grazie al cielo, qualche forma di consenso sta oggi emergendo!
 

martedì 10 febbraio 2026

Che cosa ChatGPT riesce a far bene, nel febbraio 2026?

 
Ieri, lunedì 9 febbraio, si è tenuto l’ultimo appello invernale per i miei insegnamenti di Linguistica italiana tenuti negli ultimi anni per le lauree magistrali in Italianistica e Linguistica e traduzione dell’Università di Pisa. Al solito, si è trattata di un’occasione molto utile per vedere, attraverso le relazioni che gli studenti presentano all’esame, qual è lo stato delle capacità di ChatGPT e sistemi simili. Sì, perché non solo ho fatto diverse valutazioni nel corso degli anni, ma le valutazioni vanno ripetute spesso per vedere se le nuove versioni dei sistemi cambiano prestazioni o no.
 
Il quadro che ne esce è una conferma: i sistemi non stanno migliorando molto. Anzi, per alcuni compiti in italiano ho l’impressione che, per esempio, ChatGPT-5.2 lavori peggio di ChatGPT-4o. In generale, alcuni compiti restano al di fuori della loro portata mentre altri vengono svolti sorprendentemente bene. Tuttavia, è difficile esserne sicuri senza fare verifiche sistematiche. Per fortuna, diverse relazioni di alto livello si sono occupate proprio di questo!
 
Per esempio, uno dei lavori presentati all’esame descriveva il tentativo di far analizzare a ChatGPT i verbi presenti nel I canto dell’Inferno. Oltre tre anni dopo l’uscita di ChatGPT, un compito del genere si rivela ancora impossibile: il sistema individua i primi verbi e poi incomincia a elencare verbi che non esistono, a considerare verbi sostantivi come sonno, e così via. Né si riesce a superare il limite per esempio scomponendo il lavoro in fasi (“per prima cosa, fai un semplice elenco dei verbi presenti”). Insomma, inaffidabilità totale.
 
Le cose vanno un po’ meglio, ma non troppo meglio, per quanto riguarda l’analisi e la parafrasi di testi poetici della tradizione italiana: le verifiche sono state compiute su poesie di Dante, Bronzino, Leopardi, Carducci, Gozzano e Montale. Qui occorre distinguere tra i diversi aspetti del lavoro. ChatGPT inventa liberamente quando si tratta di metrica: non riesce a classificare i versi in modo affidabile, anche se a volte si avvicina al risultato lavorando di prompt. Al momento di classificare le figure retoriche, commette molti sbagli e, soprattutto, considera figure retoriche espressioni che non lo sono. Un po’ meglio vanno le cose quando si tratta di analizzare e spiegare il testo: in fin dei conti, un compito del genere consiste spesso nel presentare luoghi comuni e fare osservazioni di buon senso. Vale però la pena notare che a volte il sistema si lascia prendere la mano dai luoghi comuni e per esempio, analizzando Alla stazione in una mattina d’autunno, si mette a parlare del tema dell’“alienazione” nella poesia di Carducci…
 
Le cose vanno molto meglio quando si tratta di parafrasare. Qui il lavoro viene compiuto in modo abbastanza soddisfacente. Restano alcuni errori, ma è possibile riformulare testi in italiano contemporaneo a un livello molto vicino a quello di una buona parafrasi umana (e, cosa interessante, in alcuni punti si evitano errori presenti invece in alcune parafrasi). Questo vale anche per poesie di cui (come nel caso di un sonetto di Bronzino) non sembra esista una parafrasi completa in italiano recuperabile da qualche fonte.
 
E poi, arriviamo alla traduzione. Dove innanzitutto mi sembra che venga confermato un sospetto: per la traduzione letteraria, ChatGPT se la cava assai meglio di sistemi di traduzione specializzati come DeepL.
 
Dopo un piccolo lavoro sui prompt, la traduzione di un report giornalistico in inglese relativo a una gara di Formula 1 è stata giudicata di livello praticamente umano (terminologia specialistica inclusa). Va notato che, se oggi lavorare sui prompt non sembra troppo utile per la maggior parte dei compiti, è ancora necessario chiedere esplicitamente al sistema di mantenere il registro del testo di partenza e di conservare tutte le informazioni. E ammetto che io, pur essendo un premiato traduttore, avrei avuto molte difficoltà a rendere per esempio “dive up the inside” con “tuffarsi all’interno” o, soprattutto, “sat in his wheel tracks” con “rimasto negli scarichi”!
 
In un altro caso, cioè la traduzione di espressioni idiomatiche dal russo all’italiano nei testi narrativi, ChatGPT se l’è cavata non solo meglio di DeepL ma addirittura meglio di alcune classiche traduzioni umane pubblicate. Certo, una volta non esistevano dizionari adeguati, ma è comunque sorprendente notare quanti errori siano saltati fuori in un campione tutto sommato limitato.
 
Abbastanza bene, ma meno bene, sono andati i tentativi di usare ChatGPT per intervenire sull’espressione di genere, incluso l’impiego dello schwa. Anche qui si vedono i limiti dei sistemi per quanto riguarda la sistematicità del lavoro.
 
In conclusione (per usare un’espressione tipica di ChatGPT): l’ultimo anno non ha visto grandi cambiamenti nelle capacità dei sistemi. Alcuni compiti, anche molto banali, vengono ancora eseguiti a un livello inaccettabile in qualunque contesto realistico. Altri, come l’analisi di poesie, si trovano più o meno sul confine tra accettabilità e inaccettabilità. Altri ancora, come la parafrasi e, soprattutto, la traduzione, si collocano invece a un livello solo di poco inferiore a quello dei professionisti umani, e talvolta perfino lo superano. Si tratta senz’altro di una situazione stabile; ma di una situazione stabile che, credo, non ha ancora finito di dispiegare i propri effetti in diversi ambiti.
 

giovedì 22 gennaio 2026

Studi sul miglioramento della chiarezza con IA

 
Il volume di cui ho parlato a inizio mese, Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, contiene molti contributi rilevanti dal mio punto di vista. Come dicevo, circa un terzo del libro è occupato da lavori che affrontano il miglioramento della chiarezza condotto attraverso intelligenze artificiali generative. Anche gli altri due terzi sono interessanti, naturalmente! Ma è comprensibile che io mi concentri su ciò che è collegato più direttamente al mio lavoro.
 
Giuliana Fiorentino e Marco Russodivito presentano un lavoro intitolato Umano vs. AI: alcune considerazioni sulla semplificazione manuale a automatica del corpus ItaIst (pp. 53-78). Il lavoro presentato è in un certo senso preliminare alla realizzazione del sistema sempl.it realizzato dallo stesso gruppo di ricerca e pensato per la semplificazione dei testi amministrativi. Con questa finalità è stato innanzitutto realizzato il corpus ItaIst, una cui versione ridotta (8 documenti, per circa 33.000 token) è pubblicamente disponibile. Due esperti umani hanno semplificato i contenuti del corpus, impiegandoci rispettivamente 15 e 23 ore. La stessa operazione è stata poi ripetuta (in pochi minuti) con ChatGPT-4 sulla base di un breve prompt basato sul ruolo (p. 58). Il confronto mostra che, rispetto agli esperti umani, ChatGPT ha seguito criteri piuttosto simili, ma ha rielaborato il testo più in profondità e ha usato frasi in media più brevi (p. 60), applicando in modo creativo molti degli attuali criteri per il miglioramento della chiarezza anche in mancanza di indicazioni specifiche da parte dei ricercatori. Per valutare appieno i risultati occorre però una verifica sulla correttezza dei contenuti generati: gli autori promettono di presentare l’esito di questa verifica in un lavoro ora in stampa (p. 76).
 
Il contributo successivo, SEMPL-IT: un modello di intelligenza per la semplificazione dell’italiano, firmato da Vittorio Ganfi e Marco Russodivito (pp. 79-101), presenta appunto il sistema SEMPL-IT realizzato nel progetto citato nel contributo precedente. In dettaglio, il sistema è basato sul fine-tuning di tre LLM pre-addestrati: mt5-small, umt5-small e GPT2-small-italian (p. 89). Il fine-tuning dei tre modelli è stato condotto sul corpus ItaIst, usando la libreria Transformers su Google Colab (pp. 89-91). Un confronto con alcuni sistemi commerciali ha poi mostrato che i testi semplificati dai tre modelli ottengono risultati grosso modo simili per quanto riguarda alcune metriche automatiche; tuttavia, non sono stati ancora fatti confronti sulla qualità e correttezza dei testi. Questa mancanza di verifica, assieme alla presenza di “riscritture problematiche” in alcuni esempi discussi, rende un po’ ottimistiche le valutazioni degli autori sull’utilizzabilità pratica del prodotto nella forma descritta (p. 96). In ogni caso, il prodotto finito è ora disponibile all’indirizzo https://sempl-it.unimol.it/ats.
 
È dedicato a un argomento piuttosto diverso il contributo su Valutazione di tecniche di prompt engineering per la semplificazione dell’italiano burocratico e professionale firmato da Claudia Gigliotti, Walter Paci, Giovanni Acerboni, Alessandro Panunzi e Maria Roberta Perugini (pp. 119-138). In questo caso, l’analisi è stata svolta secondo modalità un po’ curiose: frasi di testi burocratici e professionali sono state riformulate con diversi prompt (Chain-of-Thought, few-shot, eccetera) e la verifica della comprensione dei testi da parte di utenti reclutati con il crowdsourcing è stata usata come metro per valutare l’efficacia dei prompt. Il risultato è stato che “non emergono differenze statisticamente significative né in termini di accuratezza nelle risposte né nel numero di riletture effettuate” (p. 134). Questo nonostante studi preliminari abbiano suggerito la maggior efficacia di prompt complessi.
 
Preciso per quanto riguarda quest’ultimo punto che le modalità mi sembrano curiose perché la valutazione ricollega direttamente il punteggio finale e il prompt, senza prendere assolutamente in esame il prodotto intermedio: il testo valutato. Può infatti darsi che i prompt ottengano tutti lo stesso esito perché, banalmente, i testi semplificati si assomigliano tutti, indipendentemente dalla modalità con cui sono stati ricavati. Un controllo del genere sembra assai utile e molto semplice da eseguire.
 
In ogni caso, l’irrilevanza delle rielaborazioni sul risultato finale potrebbe avere anche una causa diversa e più strutturale. Per valutatori con un titolo di studio avanzato (qui era richiesto come minimo il diploma: p. 123), testi come quelli che presumibilmente sono stati presi in esame qui sono infatti di regola comprensibili senza troppi problemi. In alcune valutazioni che ho condotto l’anno scorso ho visto non solo che gli studenti universitari a livello di laurea magistrale sembrano comprendere senza problemi sia i testi burocratici originali sia quelli semplificati (il che dovrebbe essere intuitivo), ma sembrano impiegare lo stesso tempo nella lettura, nonostante l’evidente differenza di complessità dei testi (e questo è già più sorprendente). Insomma, occorre ricordare l’italiano burocratico rappresenta un oggetto difficile da gestire per chi ha un livello non alto di conoscenza dell’italiano, ma assai meno per chi è arrivato per esempio alla formazione terziaria dopo studi in lingua italiana!
 
Il contributo successivo, di Anna-Maria De Cesare, è intitolato Per un’amministrazione impegnata e aggiornata: come formulare annunci di lavoro rispettosi della parità di genere con l’intelligenza artificiale generativa? (pp. 139-). Si tratta dunque della descrizione degli esiti di un compito pratico, già toccato in un precedente lavoro della stessa autrice. Qui viene approfondito il caso particolare della generazione degli sdoppiamenti contratti (“esperto/a”). Alla base di questa scelta si trova il fatto che la Cancelleria Federale svizzera ha individuato lo sdoppiamento contratto come “adeguato ad attuare il pari trattamento linguistico tra donna e uomo negli annunci di lavoro” (p. 140), il che già di per sé mostra quanto la consapevolezza su simili questioni sia maggiore in Svizzera rispetto all’Italia. Qui peraltro non vengono forniti i risultati completi del lavoro (l’autrice rimanda a un altro contributo), ma solo l’analisi di alcune riscritture proposte daisistemi. Vale la pena di notare che anche in questo caso un prompt relativamente semplice ha dato risultati migliori rispetto a un prompt più complesso (p. 150).
 
Ritorna sull’intelligenza artificiale un contributo di Teresa Monaco a fine volume: Semplificazione e intelligenza artificiale, quando la macchina “apre” alla fiducia (pp. 355-370). In questo caso, però, le considerazioni sono di tipo generale (e lasciano alcuni dubbi i collegamenti con le questioni linguistiche). 

Testi provenienti da Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, ISBN 979-12-5496-268-8.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.