lunedì 8 giugno 2026

Benevolo, La laurea dell'obbligo

 
Copertina di La laurea dell'obbligo di Leonardo Benevolo
In diverse occasioni (e anche di recente) mi è capitato di esprimere i miei dubbi sul cosiddetto “declino” delle competenze degli studenti italiani, o meglio, sulla vulgata giornalistica in proposito. Aggiungo ora che una delle ragioni per cui mi è difficile accettare il senso comune è che di questo terribile “declino” si parla da quando ho memoria... e da quando ho iniziato a interessarmi della questione, da studente, ormai quarant’anni fa.
 
Per esempio, nel 1979 uscì un libro divenuto celebre ma oggi dimenticato: La laurea dell’obbligo, di Leonardo Benevolo. La quarta di copertina presentava l’opera come “Un quadro oggettivo dell’università italiana d’oggi, offerto come sfida ai responsabili e al pubblico”; e il quadro era devastante.
 
Il nome di Leonardo Benèvolo (1923-2017) era un tempo ben noto ed è ancora familiare alla mia generazione, ma a beneficio dei lettori più giovani è forse utile presentarlo. Di professione, Benevolo non era un linguista: era un architetto, uno storico dell’architettura e un urbanista, e in generale uno degli intellettuali italiani più importanti della seconda metà del Novecento. Vicino al cattolicesimo sociale, avvicinabile nella prospettiva di oggi a una sinistra liberale molto indipendente, sostenitore della pianificazione urbanistica, ha contribuito alla ricerca e al dibattito pubblico con una produzione tanto importante quanto influente.
 
Mi sembra poi utile dire anche due parole sulla sede in cui apparve La laurea dell’obbligo: il libro comparve come n. 4 della collana “i Giornalibri” Laterza (presentata anche come iG). Come la parola macedonia suggerisce, si trattava di libri che si avvicinavano alle caratteristiche di un giornale, o meglio, di un settimanale dell’epoca: molte fotografie all’interno, caratteri grandi, una grafica sofisticata permessa dalla fotocomposizione. Il taglio della collana era divulgativo, ma le opere non erano certo affidate a professionisti anonimi: i titoli precedenti erano stati il Cinema italiano di Mario Monicelli, i Rapporti segreti della polizia fascista di Piero Melograni, la Vita di giornalista di Giorgio Bocca a cura di Walter Tobagi. Si trattava insomma di prodotti di alto profilo, mirati a suscitare ampio dibattito pubblico.
 
Di sicuro, La laurea dell’obbligo ebbe un discreto successo sia tra il pubblico generico sia tra gli specialisti. Per esempio, il libro è ampiamente citato nel valido e fortunato manuale L’italiano del recentemente scomparso Francesco Bruni, pubblicato da UTET nel 1984: quello è stato anche il manuale che ho usato per sostenere l’esame del corso di Storia della lingua italiana tenuto da Mirko Tavoni nel 1987!

Le code degli studenti a Roma in una doppia pagina del libro La laurea dell'obbligo

 
Andando nel dettaglio, vale la pena ripercorrere i dettagli dell’argomentazione di Benevolo, vedendo prima il contesto e poi, più in dettaglio, la valutazione linguistica.
 

Il contesto: lo stato lamentevole della formazione universitaria italiana

 
Benevolo dichiara innanzitutto che la società italiana del momento in cui scrive non ha una conoscenza precisa dello stato della scuola e dell’università, istituzioni che a suo parere funzionano in modo chiuso e autoreferenziale (pp. 6-10). Tale valutazione viene inserita in un discorso generale sulla “crisi” dell’istruzione di massa in cui Benevolo si riallaccia alle numerose voci che lamentavano i problemi dell’istruzione obbligatoria. In particolare, Benevolo insiste sul fatto che i numeri complessivi del sistema scolastico nascondono differenze fortissime nelle capacità e nei percorsi individuali (pp. 17-19); e lamenta il fatto che la scuola, invece di correggere le disuguaglianze di partenza degli allievi, in realtà “le conferma e le rende irreversibili”.
 
Su alcuni aspetti di questa ricostruzione si può discutere; più condivisibile è l’elencazione dei difetti strutturali del sistema della scuola dell’obbligo (pp. 23-27), da una parte scollegato e in conflitto con il naturale sviluppo biologico e sociale degli individui, dall’altra antidemocratico – anche se funzionale alla gestione dei conflitti sociali nel capitalismo avanzato. L’elencazione si ricollega anche, nelle pagine finali del libro, alla critica della gerarchizzazione tra lavori “intellettuali” e lavori “manuali”, in cui Benevolo nota che, piuttosto che cercare di far fare a tutti un lavoro “intellettuale”, sarebbe meglio promuovere “la parità sociale di tutti i lavori” (p. 139; e quest’ultimo è un obiettivo su cui concordo anch’io). Non c’è ovviamente dubbio sulla realtà dei difetti presentati! Tuttavia, il dubbio è lecito sulla effettiva funzionalità delle alternative suggerite, come la radicale descolarizzazione proposta da Ivan Illich, cui Benevolo si richiama (p. 34). Io condivido molti dei presupposti critici sia di Illich sia di Benevolo, ma non sono altrettanto ottimista sull’efficacia delle soluzioni proposte…
 

Un'altra immagine del "giornalibro"

Un interessante capitolo del libro è dedicato alla “Crisi dell’istruzione pubblica centralizzata”, che copre, più che la scuola, l’Università. A monte c’è la situazione postunitaria, in cui “si forma il complesso accademico-burocratico, saldamente collegato alla dirigenza politica, che caratterizza ancora attualmente l’università italiana” (p. 39). Benevolo, evidentemente in rapporto all’esperienza diretta, lamenta i molti problemi delle Facoltà di Architettura notando anche come nel dopoguerra queste ultime, grazie all’opera del preside della facoltà di Roma, Arnaldo Foschini, sono riuscite a conservare senza problemi un corpo docente strettamente legato al fascismo e ai modi tradizionali di gestione: “incarichi pubblici distribuiti agli studi professionali privati” da una parte, “rinuncia a ogni tentativo di pianificazione” dall’altra (p. 47). Il tutto al servizio degli interessi tradizionali, sintetizzati in questo modo:
 
la speculazione fondiaria, la bassa produttività edilizia, la rigida limitazione del campo di intervento pubblico, la prevalenza della “libera professione” e la copertura culturale garantita dalla continuità del training universitario. Queste le premesse che hanno reso possibile il boom edilizio successivo, i 35 milioni di stanze e la valanga di “opere pubbliche” che hanno sfigurato l’Italia negli anni ’50, ’60 e ’70 (p. 48).
 
Qui si inserisce il ’68, che Benevolo, non irragionevolmente, definisce come una finta rivoluzione, rapidamente incanalata in modo da neutralizzare le spinte reali manifestatesi ndegli anni precedenti. Secondo la ricostruzione dell’autore,
 
L’istituzione non gestisce alla provocazione studentesca, accetta le contraddizioni e i guasti provocati dalla rivolta, e scopre che questa accettazione funziona già da rimedio, cioè stabilizza a un nuovo livello la vita scolastica e scoraggia nuove minaccie [sic] meglio di qualsiasi reazione positiva. Nel complesso, questa risposta (…) è il risultato di una pluralità di comportamenti separati (dei funzionari, dei corpi docenti, delle autorità amministrative, di una parte delle stesse avanguardie studentesche) che restano in surplace, e scoprono poco a poco che questa situazione può essere prolungata indefinitamente, con una serie di vantaggi reciproci (p. 75).
 
In tale contesto, le università perdono collegamento con i contenuti reali dell’insegnamento e si trasformano in luoghi in cui semplicemente viene assegnato il voto con un esame spesso non particolarmente approfondito.
 

La (mancata) valutazione delle competenze linguistiche

 
La ricostruzione storica di Benevolo mi sembra ragionevole e in buona parte condivisibile – ma il mio è un parere esterno, che non si basa su competenze particolari sul soggetto. Di mia competenza più diretta è invece la sezione in cui Benevolo riferisce i risultati di un’esperienza linguistica. Nell’anno accademico 1975-1976, infatti, subito prima di abbandonare l’Università, Benevolo ha tenuto un insegnamento di Storia dell’architettura II nella facoltà di architettura di Roma. Nell’anno precedente l’insegnamento aveva avuto poche decine di frequentanti ma diverse centinaia di candidati all’esame. Per questo motivo, apparentemente nell’estate del 1976, cioè giusto cinquant’anni fa, Benevolo ha deciso di far svolgere per l’esame “un compito in classe, con le formalità usate nei concorsi: consegna di un foglio, dettatura di un tema, svolgimento in un tempo stabilito, in una serie di aule sorvegliate” (p. 96). Una tale scelta per la valutazione linguistica è ragionevole perché, come nota l’autore, con altre prassi la realtà è mascherata dalla “massa ancora ingente di materiali di seconda mano che circolano nelle facoltà”: testi copiati, appunti ripetuti a memoria… I 2793 temi ricavati in modo controllato, secondo Benevolo, formano invece
 
un campione attendibile degli studenti iscritti e fuori corso (5-6 volte di più), e dimostrano che la gran maggioranza non solo non ha nessuna idea dell’architettura, ma è regredita – dopo 15-18 anni di scuola – a un livello semi-analfabetico, che sarebbe giudicato insufficiente alla licenza elementare (p. 96).
 
Qui inizierei con i distinguo. Anche accettando la retorica, su quale base Benevolo può dire che quegli studenti erano “regrediti”? Ancora oggi sappiamo poco su questi processi, ma è chiaro che è difficile perdere nel giro di pochi anni competenze comunicative di cui si è acquisto un possesso saldo. Prendendo per buoni i “15-18 anni” di scolarizzazione citati dall’autore, si parla quindi (come ha notato anche Michele Cortelazzo) di studenti che avevano conseguito la licenza elementare nel 1962-1965 o giù di lì, assai prima del Sessantotto, e che dopo quella data erano rimasti ininterrottamente nel percorso scolastico. Difficile immaginare che, uscendo da splendide scuole elementari, avessero perso nel decennio successivo le competenze maturate: assai più verosimile è pensare che le competenze mostrate all’Università fossero semplicemente quelle sviluppate negli anni precedenti, partendo da un livello medio delle scuole elementari assai più basso di quello ipotizzato. Mancano ahimè i dati per dirimere la questione, ma senz’altro, come conosco la bibliografia non vedo su quale base si potesse (o si possa) parlare con sicurezza di una “regressione”.
 
Vale la pena di riportare un’altra dichiarazione come minimo sorprendente fatta da Benevolo:
 
quel che colpisce è la sostanziale uniformità culturale di tutti i testi. Qualunque informazione sul luogo d’origine, sugli studi fatti, sull’età e sulla condizione non sembra correlata a significative diversità del prodotto (pp. 96-97).
 
Questo va in contraddizione non solo con l’esperienza comune, ma anche con la citata insistenza di Benevolo stesso sulla riproduzione delle disuguaglianze sociali e formative (che, pur se malauguratamente verso il basso, in questa ricostruzione verrebbero invece cancellate). I dati statistici sugli studenti sono condensati a p. 126: l’età più comune è quella di ventitré anni, il 30% circa proviene dal liceo classico o dallo scientifico, il 31% dal liceo artistico e il 36% dall’istituto professionale (come nota Benevolo, “una delle maturità scientifiche risulta conseguita in una delle scuole più prestigiose di Roma, il Massimo”). Davvero questi studenti mostravano capacità uniformi?
 
Dichiarazioni tanto straordinarie richiederebbero una documentazione altrettanto straordinaria. Incredibilmente, però, Benevolo non fornisce nessun tipo di analisi quantitativa. Dichiara invece che “l’unico espediente praticabile per dare un’idea concreta dei temi raccolti è sembrata una elaborazione letteraria” (p. 97)! Il prodotto proposto alla riflessione del lettore è quindi una semplice sequenza di frasi o brevi spezzoni di testo (pp. 98-125), rimontate per costituire “come un discorso unico, per far scomparire le caratteristiche individuali e riconoscibili” (p. 97).
 
Non c’è quindi nessuna valutazione quantitativa né per il contenuto (“chi ha risposto in modo soddisfacente?”) né per la forma (“quanti errori sono stati commessi in media a livello ortografico o morfosintattico?”). Si hanno invece spezzoni come questi, senza commento e verosimilmente molto rielaborati nella trascrizione (un toccante tema è riportato in modo più fedele a p. 132):
 
1477 – L’Architettura moderna si è venuta a definirsi attraverso delle lotte politiche inquadrate in conflitti ideologici di forze progressive e forze reazionarie.
749 – Il problema dell’abitazione, come problema storico è irrisolto per il semplice motivo di un’interpretazione unilaterale. Tutte le leggi per una edilizia economina popolare, 167, 865, non fanno che rispecchiare una nostra simpatia per qualcosa di legificato che ha la caratteristica di far finta di risolvere. In base a questo dadaismo sociale si sono persi entrambi i significati: quello di possibilità di miglioramento analitico marxista, quello di soluzione che ogni classe borghese ci ha propinato come superamento del marxismo stesso. Nel frattempo una legislazione sull’abusivismo soprattutto falsata ha dato un ulteriore incentivo alla speculazione pseudo-proletaria.
 
La mancanza di informazioni rende difficile capire su che cosa Benevolo basasse in dettaglio il giudizio. A p. 127 si nota che sono “relativamente meno frequenti” (?) gli errori definiti “primari”, cioè ortografici (“privileggio”, e così via) e morfosintattici. Sono considerati invece “di gran lunga preponderanti” gli errori nell’uso di parole più tecniche e specialistiche, come “fulcro” o “politeismo”. Nell’interpretazione dell’autore, questi sono “indotti dalle scuole post-elementari come conseguenza della ‘libertà di espressione’ e della rinuncia a un controllo rigoroso”… cioè, i normali errori di chi segue un percorso di apprendimento non selettivo partendo da livelli di competenza non alti nell’italiano scritto. Ci si chiede di quale livello formativo sia la colpa se “una buona parte degli studenti scrivono [sic] ‘Le Courbusier’ per analogia col cognac Courvoisier” (p. 129)…
 
Certo, nessuno pretendeva o pretende che gli storici dell’architettura facciano sofisticate analisi linguistiche. Tuttavia, sembra quasi inconcepibile che un tale livello di ingenuità nella gestione dei dati venga da uno dei più importanti intellettuali italiani del secondo dopoguerra; così come sembrerebbe giustamente inconcepibile che un linguista dicesse cose tipo “non credo che si facciano dei calcoli quando si costruisce un edificio in cemento armato, ma secondo me sarebbe utile che si facessero”.
 
In ogni caso, il sospetto a monte è che semplicemente questi testi mostrassero le normali competenze di scrittura degli italiani “istruiti”, dopo la liberalizzazione degli accessi e quindi dopo l’accesso all’Università di studenti in numero dieci volte superiore rispetto a quello garantito dalle vecchie élite. Competenze che, sospetto, forse non erano così diverse nemmeno ai tempi appunto delle élite, ma venivano nascoste dall’assenza di prove scritte e dalla disponibilità di revisori a pagamento (che, secondo numerose testimonianze, incluse quelle di Benevolo riportate più sopra, all’epoca erano normalmente usati per risistemare lo zoppicante italiano delle tesi di laurea “scritte” della crema della società italiana).
 
Per fortuna, comunque, Benevolo arriva a notare (pp. 130-131) che i testi degli studenti sono in effetti pensati sul modello dei testi didattici e che “l’esempio del modo di scrivere dei docenti” in realtà “somiglia per molti aspetti al modo di scrivere degli studenti” (p. 131). Ma da questa constatazione non viene tratta la conseguenza che sembra più ragionevole e intuitiva: che le competenze degli studenti sono semplicemente la manifestazione dello stato reale di un’istruzione che in un momento di enorme allargamento degli accessi non ha garantito (né poteva verosimilmente mantenere) la qualità delle istituzioni selettive per le élite. La visione è invece quella di un’epidemia catastrofica che ha distrutto il mondo precedente e che sta distruggendo la società italiana…. Particolarmente significativa è la p. 134, in cui Benevolo presenta tra gli esempi di sfacelo culturale lo scambio tra Assuan e Amman nella cartina geografica mostrata in un telegiornale e “la scarsità di persone capaci di copiare a macchina fedelmente”! Non c’era più la servitù di una volta, in effetti…
 
Ovviamente, in realtà, le analisi fatte oggi mostrano che nell’assieme della società italiana le competenze formali non hanno fatto che aumentare di generazione in generazione – finché non si sono bloccate le crescite economiche e dei livelli di istruzione durante gli anni Novanta. La scuola di massa ha quindi lavorato nella direzione giusta; avrebbe potuto lavorare assai meglio, com’è ovvio! Ma questo è di nuovo un altro discorso.
 
Leonardo Benevolo, La laurea dell’obbligo, Bari, Laterza, 1979, pp. 149, lire 3500. Letto nella copia della Biblioteca di Scienze Politiche dell’Università di Pisa.
 

mercoledì 3 giugno 2026

Le rilevazioni INVALSI e il Covid

 
Le competenze in Italiano in un grafico INVALSI
Parlavo due giorni fa dei test PISA riguardo le competenze dei quindicenni: indagini ben fatte, confrontabili a livello internazionale… ma basate su rilevazioni a campione. Sarebbe assai meglio sapere come stanno le cose per tutti, attraverso quella che viene chiamata un’indagine censuaria.
 
Per fortuna, oggi in Italia abbiamo anche questo! Ci sono infatti le rilevazioni INVALSI, che coinvolgono tutti gli studenti di 5 anni scolastici (II e V anno della scuola primaria, III anno della scuola secondaria di primo grado, II e ultimo anno della scuola secondaria di secondo grado) e riguardano, in sostanza, italiano, matematica e inglese. La lettura dei rapporti INVALSI, e in particolare quella del Rapporto INVALSI 2025, disponibile sul sito dell’Istituto, è quindi di estremo interesse.
 
Tuttavia, va detto subito che, per ragionamenti come quello sul “declino” di lungo periodo delle competenze degli studenti, i dati INVALSI non possono dirci nulla. Anche se l’INVALSI ha una storia piuttosto lunga, le rilevazioni attuali sono il frutto di un iter lungo e tortuoso, con diversi passi falsi. La qualità del processo oggi mi sembra buona… ma il lungo percorso alle spalle fa sì che molti dati siano confrontabili, come dichiarato anche nell'ultimo rapporto, solo a partire dal 2019 (mentre per i test PISA la confrontabilità parte già dal 2000).
 
Inoltre, il 2019 è, ovviamente, l’anno che precede il 2020, in cui anche le rilevazioni INVALSI sono state sospese a causa delle chiusure per Covid e della più devastante alterazione della didattica che si sia vista in Italia dopo la Seconda guerra mondiale. Il periodo è stato terribile: io l’ho attraversato da presidente di due Corsi di Laurea, cercando di gestire al meglio la situazione a livello universitario, ma nel caso della scuola molti effetti sono stati senz’altro più forti di quelli con cui mi sono confrontato di persona e hanno portato allo sconvolgimento di ben tre anni scolastici.
 
Era legittimo attendersi che le chiusure delle scuole producessero un calo sensibile delle competenze e delle conoscenze degli studenti... e così è stato. Nelle classi prese in esame dai test INVALSI si riscontra infatti, in modo quasi uniforme, un forte calo nei punteggi dal 2019 al 2021. Non solo: a quel che sembra, il basso livello del 2021 non viene recuperato negli anni successivi ma si mantiene. Viene quindi spontaneo interpretare la differenza rispetto al 2019 come il differenziale che tutti gli studenti coinvolti nel periodo Covid si porteranno dietro per tutto il loro percorso di studi. Gli estensori del rapporto interpretano in questo modo i risultati parlando di Italiano nella classe II della scuola primaria (ma considerazioni simili vengono inserite anche in relazione alle altre classi): “Questo andamento sembra confermare l’ipotesi di un effetto pandemico a medio-lungo termine sugli apprendimenti che appare tuttora ancora difficile da riassorbire” (INVALSI, p. 13). Mi sembrano però condivisibili anche le altre preoccupazioni espresse dagli estensori:
 
… sembra anche opportuno interrogarsi sulla possibile presenza di fattori strutturali che, al di là dell’evento pandemico, stanno contribuendo a favorire gli scenari messi in luce dalle prove INVALSI. Tra questi potrebbero rientrare elementi legati alla crescente complessità sociale, ai mutamenti nel ruolo e nelle aspettative attribuite alla scuola nonché all’impatto pervasivo delle tecnologie. In questo scenario, la pandemia potrebbe aver agito da acceleratore e rivelatore precoce di fragilità già presenti nel sistema, contribuendo a renderle più visibili e urgenti (INVALSI, pp. 13-14).
 
Dal punto di vista pratico: occorre senz'altro evitare che, in mancanza di correttivi, il calo pandemico diventi “il nuovo standard”. Per fortuna, il quadro non è uniforme e presenta diversi aspetti incoraggianti. Per esempio, in Italiano il livello della II elementare presenta solo un calo leggero rispetto al periodo pre-Covid (mentre la differenza è assai più significativa in Matematica); il calo è in generale meno marcato nei primi anni di scuola e più marcato negli ultimi; le competenze in Inglese sono in netto miglioramento rispetto al periodo pre-Covid; e così via.
 
Va poi aggiunto che c’è molta differenza tra un calo e un collasso. Per quanto riguarda l’area che mi coinvolge più direttamente dal punto di vista professionale, cioè l’Italiano nell’ultimo anno della scuola secondaria di secondo grado, il passaggio da 200 punti a 184,7 rappresenta un sensibile peggioramento, ma non certo un azzeramento delle competenze (la media italiana del 2025 si avvicina a quella che pre-Covid era stata la media della regione “Sud”, isole escluse). Qui il grafico pertinente, dalla p. 115 del Rapporto:

L'evoluzione delle competenze in Italiano degli studenti italiani in un grafico INVALSI
 
 
Tutto questo non può (e non deve) indurre a eccessi di ottimismo. Resta però evidente che il calo è stato causato da un evento specifico, con un inizio e una fine. Non stiamo insomma combattendo contro mistiche forze irresistibili che trascinano verso il basso: occorre evitare assolutamente la ripetizione di un disastro come quello del Covid, ma le valutazioni quantitative, combinate con il confronto con i test PISA, mostrano bene la differenza tra ciò che è avvenuto e un ipotetico “declino” protratto nel tempo. Chi opera nel sistema formativo non si trova dunque di fronte un destino ineluttabile, ma ha il compito di migliorare i livelli attuali, analizzando con lucidità i punti di forza e quelli di debolezza. Il che però richiede senz’altro una discussione più sofisticata, e in generale più lavoro, rispetto alle retoriche oggi dominanti.
 

lunedì 1 giugno 2026

I test PISA e le competenze degli studenti italiani

 
I risultati dei test PISA per la comprensione del testo
Nelle ultime settimane, a Pisa e a Cracovia, ho avuto modo di discutere spesso con insegnanti, colleghi e amici a proposito delle competenze degli studenti italiani. Ne abbiamo parlato soprattutto in rapporto a lettura e scrittura, dato il settore in cui lavoro; ma alcuni aspetti del discorso sono di portata più generale e il tutto è comunque di estremo interesse. Provo quindi a sintetizzare le mie opinioni attuali in modo più articolato di quello possibile nelle discussioni a voce!
 
Su questo argomento io ho posizioni, diciamo, “ottimistiche”. Nella mia esperienza, a parità di situazione socioculturale, dalla fine del Novecento a oggi le competenze degli studenti sono rimaste in sostanza invariate (a parte la crisi Covid, naturalmente, che richiede un discorso a parte). La maggioranza delle persone con cui parlo ha tuttavia opinioni assai diverse. Anzi, la retorica sul calo di competenze è tale che ogni tanto, parlando con i docenti, ho l’impressione che la rassegnazione e il senso di sconfitta siano i mali peggiori con cui la scuola oggi deve fare i conti. Si tratta solo di un’impressione momentanea, certo: le questioni importanti sono più strutturali e riguardano in particolare l’aspetto economico e l’assetto sociale. Ma anche questa retorica del declino gioca senz’altro un ruolo. E la cosa interessante è che lo fa senza avere nessuna base oggettiva.
 
Ma come? Non esistono accorati appelli sul terribile peggioramento dei nostri studenti? La nota Lettera dei seicento del 2017 non parlava esplicitamente di un “declino” nelle competenze? E non è vero che le competenze degli studenti non sono quelle che vorremmo che fossero?
 
Per l’ultimo punto: certo, è ovvio che non siamo al livello desiderato! Del resto, ben pochi sistemi di formazione (o sistemi sociali in generale) ottengono tutto quello che si vorrebbe ottenessero. Al sistema formativo si potrà sempre chiedere di più; anzi, è giusto chiederlo. Questo però è un problema assai diverso rispetto al considerare la situazione frutto di un “declino”.
 
Se si prova a cercare di capire come stanno in realtà le cose, tuttavia, si incontra subito un problema di base: le rilevazioni affidabili sulle competenze e conoscenze degli studenti o della popolazione sono rarissime. Ciò può sembrare sorprendente ai non addetti ai lavori, ma le cause di questo stato di cose sono strutturali. Valutare in modo oggettivo qualcosa di tanto complesso come la capacità di scrittura è un’attività difficile: ogni valutazione è parziale, e le valutazioni fatte con un minimo di scientificità sono molto complicate. In pratica, con le eccezioni che citerò tra poco, non esiste nessuna rilevazione che ci permetta per esempio di dire in modo documentato se negli ultimi decenni le competenze di scrittura degli studenti all’ingresso all’università sono aumentate o diminuite.
 
Un punto di riferimento in questo settore sono però, da un quarto di secolo, i test PISA dell’OCSE (test che, nonostante il nome, non hanno alcun rapporto privilegiato con la città di Pisa). Questi test, triennali, a partire dal 2000 sono somministrati a campioni rappresentativi dei quindicenni di tutti i paesi dell’OCSE e anche ad alcuni paesi esterni all’organizzazione e spiccano per la loro solidità, nonché per la possibilità che offrono di fare confronti nel tempo e nello spazio. Certo, non sono perfetti (anche qui: quale sistema lo è?): ma per l’Italia sono in pratica l’unica fonte seria. Io su questo blog li cito e li discuto da più di 15 anni e continuo ad apprezzarli. Gli ultimi risultati pubblicati sono quelli relativi al 2022 e io attendo adesso, con molta curiosità, gli esiti dell’edizione 2025.
 
I test PISA non coprono tutte le competenze. Ne coprono però una che mi interessa particolarmente: quella della “lettura”, che potremmo definire come “comprensione del testo”. Tale competenza viene misurata chiedendo ai quindicenni di leggere testi di vario tipo (espositivo, narrativo, ecc.) e di rispondere a domande: il complesso lavoro necessario per preparare attività confrontabili a livello internazionale è descritto in dettaglio sul sito dedicato.
 
Che cosa dicono, quindi, i test PISA per quanto riguarda la “comprensione del testo” dei quindicenni italiani dal 2000 a oggi? Questo grafico, tratto da p. 431 del rapporto completo relativo al 2022, presenta gli aspetti essenziali:
 
I risultati dei test PISA per la comprensione del testo
 
Per interpretare il grafico, occorre tener presente che i test PISA sono stati tarati sulla base della media dei punteggi OCSE nel 2000, facendo corrispondere al punteggio medio il valore di 500. Nel 2000 i quindicenni italiani ottenevano un valore inferiore rispetto alla media, ma non di molto: 487 punti. Sono poi calati fino s 469 punti nel 2006, sono risaliti fino a superare tutti i risultati precedenti nel 2012 con 490 punti per poi tornare a scendere… con un inaspettato recupero nel 2022, quando il 482 ottenuto in periodo pandemico è risultato addirittura superiore alla media OCSE, molto calata proprio in quella rilevazione.
 
In sostanza, quello che emerge dai test PISA è un quadro dominato dalla stabilità, con oscillazioni significative ma contenute in un senso e nell’altro. Certo, i dati non vanno letti in modo acritico: valutare le capacità di comprensione del testo non ci dice per esempio nulla di diretto sulle capacità di scrittura, anche se è legittimo aspettarsi che ci sia una buona correlazione. Né vanno sottovalutati i punti critici del quadro italiano, a cominciare dalle fortissime disparità per quanto riguarda la situazione nelle diverse aree geografiche e nei diversi percorsi scolastici. Però, per tornare al punto chiave, nulla in questi numeri fa pensare a un drastico o inevitabile “declino” delle competenze. E un po’ mi consola il fatto che le mie impressioni istintive siano in linea con i migliori dati disponibili.
 
A molti lettori di questo post verrà poi spontanea una domanda: ma i test INVALSI? Anche quelli sono di estremo interesse… ma conto di parlarne in altra occasione.
 

martedì 26 maggio 2026

Traduzione automatica a Cracovia

 
Lenticchie e birra sullo sfondo della valle dell'Adige
Sono in viaggio per il convegno SILFI 2026 a Cracovia: domani, 27 maggio, parlerò su un tema che ben conosco: la Valutazione dell’italiano delle traduzioni eseguite da LLM. In questo momento, a bordo del RailJet 84 delle ferrovie austriache, sto risalendo la valle dell’Adige... spettacolare quando uno può guardarla per bene senza dover tener gli occhi fissi sulla strada!
 
Per quanto riguarda il mio lavoro, a inizio intervento conto di presentare quattro punti che sono un po’ premesse e un po’ conclusioni:
  1. Verso l’italiano, i sistemi attuali producono per alcuni tipi di testo e per alcune lingue di partenza traduzioni di livello paragonabile a quello di una buona traduzione umana non sottoposta a un’ultima revisione
  2. Di fronte a traduzioni di questo tipo, prive di indicazione d’origine, spesso anche dei valutatori esperti non riescono a distinguere tra traduzione umana e traduzione automatica
  3. Almeno in alcuni ambiti, gli LLM generalisti come ChatGPT forniscono traduzioni di qualità superiore a quella di sistemi specializzati come DeepL
  4. Come per i traduttori umani, gli LLM producono regolarmente esempi di traduttese
Dico “un po’ premesse e un po’ conclusioni” perché lo stato di cose che descrivo mi sembra ormai accettato, nelle linee generali, ma poco documentato (soprattutto per l’italiano). Io spero di contribuire a documentarlo mostrando in particolare i risultati di una valutazione compiuta con gli studenti della laurea magistrale in Linguistica e traduzione dell’Università di Pisa. Abbiamo condotto le prove su brevi sezioni iniziali di tre romanzi, tra cui l’ultimo di McEwan e il sempre caro Nova di Samuel R. Delany, confrontando il lavoro di ChatGPT e DeepL con la venerabile traduzione di Renato Prinzhofer pubblicata a suo tempo dalla Nord.
 
E a parte questo… a Cracovia ci vado in treno! Purtroppo non ho fondi sufficienti a permettermi di fare in treno anche il viaggio di ritorno, per il quale dovrò ripiegare sull’economico volo Ryanair diretto da Cracovia a Pisa. Ma almeno all’andata si va in modo più sostenibile, da Ripafratta e cambi a Pisa Centrale, Firenze Santa Maria Novella, Verona Porta Nuova e Rosenheim, con arrivo auspicato domattina alle 7 a Cracovia Centrale (Kraków Główny)!
 

martedì 19 maggio 2026

Insegnanti e centauri


Centauri capovolti: collage di Cory Doctorow da https://pluralistic.net/2021/02/17/reverse-centaur/ licenza CC 4.0 By
Vogliamo insegnanti che usano strumenti, o strumenti che usano insegnanti?
 
Nelle ultime settimane ho avuto occasione di incontrare molti docenti e, soprattutto, futuri docenti delle scuole secondarie italiane. Ci sarebbero innumerevoli cose positive da dire in rapporto a queste persone competenti e motivate! Vorrei però fare qualche considerazione partendo da ciò che mi ha colpito di più negli scambi: l’ideologia di rassegnazione e sconfitta con cui queste persone sembrano costrette a confrontarsi ogni giorno. Sembra quasi che su di loro, per creare stordimento, vengano riversate alcune idee tanto assurde quanto paralizzanti e ossessive:
  • che gli studenti abbiano competenze sempre minori 
  • che l’IA sia inevitabile 
  • che tutto vada in una sola direzione 
  •  che l’unica scelta possibile sia rassegnarsi
 
Io non credo a nessuno di questi luoghi comuni, che spesso sono smentiti da dati precisi e rilevazioni scientifiche. Per esempio, le competenze degli studenti, in Italia, sembrano stabili da un quarto di secolo (dovremmo rafforzarle, certo, ma questo è un discorso ben diverso rispetto al credere che siano in drammatico e irreversibile declino). E per quanto riguarda l’IA, non c’è niente di inevitabile! Certo, le decisioni in questo settore devono fare i conti con potenti interessi economici e politici, ma l’esito di queste battaglie è tutt’altro che scontato – anche se sta vincendo una retorica che dice che il futuro è già deciso.
 
Nello specifico, sul rapporto con l’IA mi sembra utile riprendere una distinzione emersa nei dibattiti recenti. Ethan Mollick ha parlato infatti del modello del “centauro”: l’essere umano e la macchina collaborano, ma resta abbastanza chiaro che cosa fa l’uno e che cosa fa l’altra. Prendendo spunto da qui, Cory Doctorow ha però fatto notare che il rapporto tra le componenti del centauro può concretizzarsi in due situazioni ben diverse.
 
Da un lato, infatti, possiamo immaginarci il centauro in modo ottimistico: un essere umano che usa la macchina per svolgere i compiti che gli interessano. E dall’altro, possiamo immaginarci quello che Doctorow definisce il “reverse centaur” e che io chiamerei il “centauro capovolto”: una macchina che controlla un essere umano per svolgere i compiti che la macchina non è in grado di eseguire. Sembra una situazione da fantascienza? In realtà, è esattamente ciò che avviene quando le organizzazioni mettono sotto controllo gli esseri umani attraverso tecnologie digitali per svolgere attività che le macchine non sono in grado di eseguire: dalle consegne a domicilio alla correzione di compiti.
 
Ora, in rapporto al mondo dell’educazione, non c’è dubbio che oggi siano in molti a sognare la trasformazione degli insegnanti in centauri capovolti: da alcune forze politiche alle organizzazioni che puntano a introdursi nel mercato della didattica. Ma io voglio vivere in un altro mondo: quello in cui gli insegnanti possono decidere, nella loro autonomia se servirsi o meno degli strumenti tecnologici! E in cui, se decidono di farlo, possono farlo come piace a loro. Da centauri giusti.
 

martedì 3 marzo 2026

Tavosanis, Grammatica generata

 
Logo AI-Ling

Il 2025 è stato per me un anno decisamente impegnativo. In primo luogo, e di gran lunga, per gli eventi della vita; ma un po’ anche per i lavori da portare a termine. Questo secondo aspetto se non altro è più controllabile e, incrociando le dita, si sta normalizzando. Tuttavia, la quantità di cose da fare è stata tale da rendere difficile anche solo dar conto di quel che è stato pubblicato.
 
Segnalo quindi qui un mio contributo uscito già da qualche mese sulla rivista “AI-Linguistica”: Grammatica generata: analisi di alcune strutture presenti nei testi di ChatGPT in lingua italiana. Lì ho cercato di vedere quanti e quali sono gli errori grammaticali che ChatGPT, Minerva LLM e DeepSeek commettono nei testi generati in lingua italiana. Spoiler! Gli errori sono pochi ma non assenti (se ne trova uno ogni una-due pagine), e sono anche molto simili tra un modello e l’altro, sia per frequenza sia per qualità.
 
Tuttavia, una valutazione più precisa è resa difficile da una vaghezza nell’oggetto. Infatti, nell’italiano contemporaneo non è sempre chiaro che cosa sia errore o no. L’incertezza è viva soprattutto per la sintassi, e molto meno per la morfologia o l’ortografia, ma coinvolge comunque strutture comunissime. A scanso di equivoci, è bene precisare che ciò avviene anche (o specialmente?) nell’uso colto. In pratica, quindi, si vede che persone istruite, inclusi i docenti di materie letterarie nella scuola secondaria o i linguisti, hanno opinioni molto diverse tra di loro (e spesso vivacemente diverse tra di loro) riguardo l’accettabilità o meno di frasi come queste, che possono essere accettate senza problemi o violentemente critcate:
 
  • A Piero piace Maria e cerca di farsi bello ai suoi occhi. 
  • In questi casi, una scrittura volutamente non chiara può servire a proteggere individui da potenziali danni, sia a livello personale che professionale.
 
Naturalmente, non sono io il primo ad accorgersi dello stato delle cose: da un quarto di secolo a questa parte, diversi ricercatori, incluso Gaetano Berruto, hanno fatto occasionale riferimento a questa “disomogeneità di giudizi”, evidente a chiunque si metta a leggere sistematicamente i tre monumentali tomi della Grande grammatica italiana di consultazione. Tuttavia, non si sono mai avute, per esempio, campagne di valutazione estese che rendessero conto della variabilità dei giudizi dei parlanti. E in generale, com’è ovvio, la produzione professionale spesso si tiene lontana dai casi incerti; che però emergono senza problemi quando a scrivere sono persone di alto livello culturale ma che non praticano professionalmente la scrittura in lingua italiana.
 
La questione sarebbe soprattutto scolastica, ma è impossibile evitarla quando si cerca di valutare la produzione delle intelligenze artificiali. Se un’intelligenza artificiale generativa produce strutture come “sia a livello personale che professionale”, che vanno in diretta violazione di alcuni principi enunciati da Luca Serianni, si tratta di un errore o no?
 
Anche in questo caso mi sembra insomma che l’intelligenza artificiale, oltre a essere un oggetto di studio interessante di per sé, permetta di tornare a riflettere su qualcosa che sia nella discussione scientifica sia nella pratica didattica è rimosso o negato. Anche dopo decenni di studi, l’italiano delle grammatiche non sempre dà conto dell’italiano reale… e vale senz’altro la pena approfondire la questione.
 
Mirko Tavosanis, Grammatica generata: analisi di alcune strutture presenti nei testi di ChatGPT in lingua italiana , “AI-Linguistica” 2, 2, 2025, pp. 1-32. https://doi.org/10.62408/ai-ling.v1i1.14
 

lunedì 2 marzo 2026

Interventi e presentazioni tra febbraio e marzo


Logo RIND
Come scrivevo ieri, negli ultimi mesi dal punto di vista lavorativo sono stato in grado solo di occuparmi dell’essenziale. Non sono quindi riuscito nemmeno ad annunciare qui tutto ciò che facevo o pubblicavo: il riallineamento sta iniziando adesso!
 
All’interno di questo riallineamento, segnalo ora, tutti assieme, alcuni interventi che ho tenuto a febbraio e le iniziative in programma per marzo:
  • l’11 febbraio, su gentile invito di Giuliana Fiorentino, ho tenuto una lezione online sul Valutare le capacità delle intelligenze artificiali generative per il Polo Lincei del Molise
  • il 26 febbraio, a Trieste, all’interno del convegno Visti da lontano inserito nel progetto PRIN RIND, su gentile invito di Stefano Ondelli, ho tenuto una presentazione sul tema Dalla statistica linguistica alla valutazione
  • il 10 marzo, alle 14:30, parteciperò al laboratorio Oltre alla lezione frontale, altre forme di didattica presso il Liceo Buonarroti a Pisa
  • l’11 marzo, alle 14:30, nell’Aula Magna del Dipartimento di Filologia, letteratura e linguistica dell’Università di Pisa si terrà un incontro di presentazione del mio libro L’italiano sulla via dell’India; parteciperanno Daniele Baglioni e Alessandro Orengo
 
Seguiranno naturalmente aggiornamenti per le iniziative successive!
 

domenica 1 marzo 2026

Una recensione di Alfabit di Giuseppe Antonelli sul Magazine Treccani

 
Copertina di Alfabit di Giuseppe Antonelli
Sul Magazine Treccani è uscito il 25 febbraio uno Speciale dedicato a L’IA-taliano, ovvero la lingua italiana sotto la luce Artificiale dell’Intelligenza. All’interno c’è anche una mia recensione dell’ultimo libro di Giuseppe Antonelli, Alfabit, appena pubblicato dal Mulino.
 
Il libro raccoglie contributi che Antonelli ha dedicato in diversi periodi alla comunicazione elettronica. Vale la pena notare il forte stacco tra gli argomenti che attiravano l’attenzione negli anni Zero, negli anni Dieci e adesso: mentre nei primi due decenni si trattava di fenomeni legati alla comunicazione umana, adesso al centro dell’attenzione c’è la scrittura dell’Intelligenza Artificiale.
 
Non aggiungo qui altro: la recensione è in linea assieme ad altri contributi interessanti che ruotano appunto, ormai, soprattutto sul tema dell’Intelligenza Artificiale. Sul quale, grazie al cielo, qualche forma di consenso sta oggi emergendo!
 

martedì 10 febbraio 2026

Che cosa ChatGPT riesce a far bene, nel febbraio 2026?

 
Ieri, lunedì 9 febbraio, si è tenuto l’ultimo appello invernale per i miei insegnamenti di Linguistica italiana tenuti negli ultimi anni per le lauree magistrali in Italianistica e Linguistica e traduzione dell’Università di Pisa. Al solito, si è trattata di un’occasione molto utile per vedere, attraverso le relazioni che gli studenti presentano all’esame, qual è lo stato delle capacità di ChatGPT e sistemi simili. Sì, perché non solo ho fatto diverse valutazioni nel corso degli anni, ma le valutazioni vanno ripetute spesso per vedere se le nuove versioni dei sistemi cambiano prestazioni o no.
 
Il quadro che ne esce è una conferma: i sistemi non stanno migliorando molto. Anzi, per alcuni compiti in italiano ho l’impressione che, per esempio, ChatGPT-5.2 lavori peggio di ChatGPT-4o. In generale, alcuni compiti restano al di fuori della loro portata mentre altri vengono svolti sorprendentemente bene. Tuttavia, è difficile esserne sicuri senza fare verifiche sistematiche. Per fortuna, diverse relazioni di alto livello si sono occupate proprio di questo!
 
Per esempio, uno dei lavori presentati all’esame descriveva il tentativo di far analizzare a ChatGPT i verbi presenti nel I canto dell’Inferno. Oltre tre anni dopo l’uscita di ChatGPT, un compito del genere si rivela ancora impossibile: il sistema individua i primi verbi e poi incomincia a elencare verbi che non esistono, a considerare verbi sostantivi come sonno, e così via. Né si riesce a superare il limite per esempio scomponendo il lavoro in fasi (“per prima cosa, fai un semplice elenco dei verbi presenti”). Insomma, inaffidabilità totale.
 
Le cose vanno un po’ meglio, ma non troppo meglio, per quanto riguarda l’analisi e la parafrasi di testi poetici della tradizione italiana: le verifiche sono state compiute su poesie di Dante, Bronzino, Leopardi, Carducci, Gozzano e Montale. Qui occorre distinguere tra i diversi aspetti del lavoro. ChatGPT inventa liberamente quando si tratta di metrica: non riesce a classificare i versi in modo affidabile, anche se a volte si avvicina al risultato lavorando di prompt. Al momento di classificare le figure retoriche, commette molti sbagli e, soprattutto, considera figure retoriche espressioni che non lo sono. Un po’ meglio vanno le cose quando si tratta di analizzare e spiegare il testo: in fin dei conti, un compito del genere consiste spesso nel presentare luoghi comuni e fare osservazioni di buon senso. Vale però la pena notare che a volte il sistema si lascia prendere la mano dai luoghi comuni e per esempio, analizzando Alla stazione in una mattina d’autunno, si mette a parlare del tema dell’“alienazione” nella poesia di Carducci…
 
Le cose vanno molto meglio quando si tratta di parafrasare. Qui il lavoro viene compiuto in modo abbastanza soddisfacente. Restano alcuni errori, ma è possibile riformulare testi in italiano contemporaneo a un livello molto vicino a quello di una buona parafrasi umana (e, cosa interessante, in alcuni punti si evitano errori presenti invece in alcune parafrasi). Questo vale anche per poesie di cui (come nel caso di un sonetto di Bronzino) non sembra esista una parafrasi completa in italiano recuperabile da qualche fonte.
 
E poi, arriviamo alla traduzione. Dove innanzitutto mi sembra che venga confermato un sospetto: per la traduzione letteraria, ChatGPT se la cava assai meglio di sistemi di traduzione specializzati come DeepL.
 
Dopo un piccolo lavoro sui prompt, la traduzione di un report giornalistico in inglese relativo a una gara di Formula 1 è stata giudicata di livello praticamente umano (terminologia specialistica inclusa). Va notato che, se oggi lavorare sui prompt non sembra troppo utile per la maggior parte dei compiti, è ancora necessario chiedere esplicitamente al sistema di mantenere il registro del testo di partenza e di conservare tutte le informazioni. E ammetto che io, pur essendo un premiato traduttore, avrei avuto molte difficoltà a rendere per esempio “dive up the inside” con “tuffarsi all’interno” o, soprattutto, “sat in his wheel tracks” con “rimasto negli scarichi”!
 
In un altro caso, cioè la traduzione di espressioni idiomatiche dal russo all’italiano nei testi narrativi, ChatGPT se l’è cavata non solo meglio di DeepL ma addirittura meglio di alcune classiche traduzioni umane pubblicate. Certo, una volta non esistevano dizionari adeguati, ma è comunque sorprendente notare quanti errori siano saltati fuori in un campione tutto sommato limitato.
 
Abbastanza bene, ma meno bene, sono andati i tentativi di usare ChatGPT per intervenire sull’espressione di genere, incluso l’impiego dello schwa. Anche qui si vedono i limiti dei sistemi per quanto riguarda la sistematicità del lavoro.
 
In conclusione (per usare un’espressione tipica di ChatGPT): l’ultimo anno non ha visto grandi cambiamenti nelle capacità dei sistemi. Alcuni compiti, anche molto banali, vengono ancora eseguiti a un livello inaccettabile in qualunque contesto realistico. Altri, come l’analisi di poesie, si trovano più o meno sul confine tra accettabilità e inaccettabilità. Altri ancora, come la parafrasi e, soprattutto, la traduzione, si collocano invece a un livello solo di poco inferiore a quello dei professionisti umani, e talvolta perfino lo superano. Si tratta senz’altro di una situazione stabile; ma di una situazione stabile che, credo, non ha ancora finito di dispiegare i propri effetti in diversi ambiti.
 

giovedì 22 gennaio 2026

Studi sul miglioramento della chiarezza con IA

 
Il volume di cui ho parlato a inizio mese, Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, contiene molti contributi rilevanti dal mio punto di vista. Come dicevo, circa un terzo del libro è occupato da lavori che affrontano il miglioramento della chiarezza condotto attraverso intelligenze artificiali generative. Anche gli altri due terzi sono interessanti, naturalmente! Ma è comprensibile che io mi concentri su ciò che è collegato più direttamente al mio lavoro.
 
Giuliana Fiorentino e Marco Russodivito presentano un lavoro intitolato Umano vs. AI: alcune considerazioni sulla semplificazione manuale a automatica del corpus ItaIst (pp. 53-78). Il lavoro presentato è in un certo senso preliminare alla realizzazione del sistema sempl.it realizzato dallo stesso gruppo di ricerca e pensato per la semplificazione dei testi amministrativi. Con questa finalità è stato innanzitutto realizzato il corpus ItaIst, una cui versione ridotta (8 documenti, per circa 33.000 token) è pubblicamente disponibile. Due esperti umani hanno semplificato i contenuti del corpus, impiegandoci rispettivamente 15 e 23 ore. La stessa operazione è stata poi ripetuta (in pochi minuti) con ChatGPT-4 sulla base di un breve prompt basato sul ruolo (p. 58). Il confronto mostra che, rispetto agli esperti umani, ChatGPT ha seguito criteri piuttosto simili, ma ha rielaborato il testo più in profondità e ha usato frasi in media più brevi (p. 60), applicando in modo creativo molti degli attuali criteri per il miglioramento della chiarezza anche in mancanza di indicazioni specifiche da parte dei ricercatori. Per valutare appieno i risultati occorre però una verifica sulla correttezza dei contenuti generati: gli autori promettono di presentare l’esito di questa verifica in un lavoro ora in stampa (p. 76).
 
Il contributo successivo, SEMPL-IT: un modello di intelligenza per la semplificazione dell’italiano, firmato da Vittorio Ganfi e Marco Russodivito (pp. 79-101), presenta appunto il sistema SEMPL-IT realizzato nel progetto citato nel contributo precedente. In dettaglio, il sistema è basato sul fine-tuning di tre LLM pre-addestrati: mt5-small, umt5-small e GPT2-small-italian (p. 89). Il fine-tuning dei tre modelli è stato condotto sul corpus ItaIst, usando la libreria Transformers su Google Colab (pp. 89-91). Un confronto con alcuni sistemi commerciali ha poi mostrato che i testi semplificati dai tre modelli ottengono risultati grosso modo simili per quanto riguarda alcune metriche automatiche; tuttavia, non sono stati ancora fatti confronti sulla qualità e correttezza dei testi. Questa mancanza di verifica, assieme alla presenza di “riscritture problematiche” in alcuni esempi discussi, rende un po’ ottimistiche le valutazioni degli autori sull’utilizzabilità pratica del prodotto nella forma descritta (p. 96). In ogni caso, il prodotto finito è ora disponibile all’indirizzo https://sempl-it.unimol.it/ats.
 
È dedicato a un argomento piuttosto diverso il contributo su Valutazione di tecniche di prompt engineering per la semplificazione dell’italiano burocratico e professionale firmato da Claudia Gigliotti, Walter Paci, Giovanni Acerboni, Alessandro Panunzi e Maria Roberta Perugini (pp. 119-138). In questo caso, l’analisi è stata svolta secondo modalità un po’ curiose: frasi di testi burocratici e professionali sono state riformulate con diversi prompt (Chain-of-Thought, few-shot, eccetera) e la verifica della comprensione dei testi da parte di utenti reclutati con il crowdsourcing è stata usata come metro per valutare l’efficacia dei prompt. Il risultato è stato che “non emergono differenze statisticamente significative né in termini di accuratezza nelle risposte né nel numero di riletture effettuate” (p. 134). Questo nonostante studi preliminari abbiano suggerito la maggior efficacia di prompt complessi.
 
Preciso per quanto riguarda quest’ultimo punto che le modalità mi sembrano curiose perché la valutazione ricollega direttamente il punteggio finale e il prompt, senza prendere assolutamente in esame il prodotto intermedio: il testo valutato. Può infatti darsi che i prompt ottengano tutti lo stesso esito perché, banalmente, i testi semplificati si assomigliano tutti, indipendentemente dalla modalità con cui sono stati ricavati. Un controllo del genere sembra assai utile e molto semplice da eseguire.
 
In ogni caso, l’irrilevanza delle rielaborazioni sul risultato finale potrebbe avere anche una causa diversa e più strutturale. Per valutatori con un titolo di studio avanzato (qui era richiesto come minimo il diploma: p. 123), testi come quelli che presumibilmente sono stati presi in esame qui sono infatti di regola comprensibili senza troppi problemi. In alcune valutazioni che ho condotto l’anno scorso ho visto non solo che gli studenti universitari a livello di laurea magistrale sembrano comprendere senza problemi sia i testi burocratici originali sia quelli semplificati (il che dovrebbe essere intuitivo), ma sembrano impiegare lo stesso tempo nella lettura, nonostante l’evidente differenza di complessità dei testi (e questo è già più sorprendente). Insomma, occorre ricordare l’italiano burocratico rappresenta un oggetto difficile da gestire per chi ha un livello non alto di conoscenza dell’italiano, ma assai meno per chi è arrivato per esempio alla formazione terziaria dopo studi in lingua italiana!
 
Il contributo successivo, di Anna-Maria De Cesare, è intitolato Per un’amministrazione impegnata e aggiornata: come formulare annunci di lavoro rispettosi della parità di genere con l’intelligenza artificiale generativa? (pp. 139-). Si tratta dunque della descrizione degli esiti di un compito pratico, già toccato in un precedente lavoro della stessa autrice. Qui viene approfondito il caso particolare della generazione degli sdoppiamenti contratti (“esperto/a”). Alla base di questa scelta si trova il fatto che la Cancelleria Federale svizzera ha individuato lo sdoppiamento contratto come “adeguato ad attuare il pari trattamento linguistico tra donna e uomo negli annunci di lavoro” (p. 140), il che già di per sé mostra quanto la consapevolezza su simili questioni sia maggiore in Svizzera rispetto all’Italia. Qui peraltro non vengono forniti i risultati completi del lavoro (l’autrice rimanda a un altro contributo), ma solo l’analisi di alcune riscritture proposte daisistemi. Vale la pena di notare che anche in questo caso un prompt relativamente semplice ha dato risultati migliori rispetto a un prompt più complesso (p. 150).
 
Ritorna sull’intelligenza artificiale un contributo di Teresa Monaco a fine volume: Semplificazione e intelligenza artificiale, quando la macchina “apre” alla fiducia (pp. 355-370). In questo caso, però, le considerazioni sono di tipo generale (e lasciano alcuni dubbi i collegamenti con le questioni linguistiche). 

Testi provenienti da Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, ISBN 979-12-5496-268-8.
 

venerdì 2 gennaio 2026

Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative

 
Copertina del libro Amministrazione attiva
Nel maggio del 2024 sono stato a Campobasso per un convegno sull’Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa. Il convegno è stato molto interessante e ha mostrato anche in modo tangibile quanto le intelligenze artificiali generative siano oggi al centro dell’interesse di chi lavora sulla scrittura amministrativa. Un volume che include molti contributi dei partecipanti al convegno è uscito qualche mese fa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, e permette di quantificare: su circa 350 pagine di testo, esclusi indici e introduzione, circa 120 sono dedicate a esperienze che coinvolgono le intelligenze artificiali generative.
 
Rientra nel gruppo anche il mio contributo dedicato a Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative. Le esperienze presentate sono state illustrate da altre angolazioni in una sintesi scritta da Giuliana Fiorentino e da me e in un confronto tra metodi di valutazione scritto da Mariachiara Pascucci e da me. Tuttavia, in questa ultima pubblicazione si forniscono molti approfondimenti relativi alla domanda di base: le intelligenze artificiali generative riescono a migliorare la chiarezza dei testi? La risposta è sostanzialmente positiva, con alcune precisazioni.
 
Dal punto di vista metodologico, ho scelto di adottare la valutazione cosiddetta intrinseca eseguita da valutatori umani. In pratica, si forniscono i testi a valutatori umani che dicono quanto il lavoro è stato fatto bene (ed è importante che i valutatori abbiano le competenze necessarie a svolgere questa attività). Nessun sistema automatico di valutazione oggi è in grado di fare meglio di così!
 
I testi di partenza sono stati otto documenti di carattere informativo-amministrativo (in particolare, linee guida ministeriali), selezionati perché privi di valore giuridico vincolante ma rappresentativi delle difficoltà tipiche della comunicazione istituzionale. Ogni testo è stato riformulato sia da ChatGPT, utilizzando due prompt diversi mirati a migliorare la chiarezza senza perdere informazioni, sia da un intervento umano condotto secondo criteri consolidati nella letteratura sulla scrittura chiara.
 
Per rendere la valutazione più specifica, ho poi scomposto il giudizio in cinque ambiti distinti: correttezza delle informazioni, correttezza linguistica, chiarezza complessiva, livello di miglioramento rispetto all’originale e conservazione delle informazioni. I valutatori, studenti universitari con una buona formazione linguistica e specificamente preparati al compito, hanno assegnato per ogni ambito punteggi su una scala da 1 a 5, lavorando in modo indipendente e senza sapere se i testi valutati fossero stati prodotti da un essere umano o da un sistema automatico.
 
I risultati mostrano che le riformulazioni prodotte da ChatGPT raggiungono nel complesso un livello paragonabile a quello umano. Su 40 confronti diretti tra riformulazioni umane e automatiche (cioè, i punteggi ottenuti dagli 8 testi per 5 ambiti), ChatGPT ottiene un punteggio superiore rispetto alle riformulazioni umane in 14 casi e identico in altri 2. Tenuto conto dei due confronti in cui il punteggio è identico, la parità si sarebbe prodotta a 19: il livello attuale non è lontano dal traguardo!
 
In particolare, le prestazioni di ChatGPT sono risultate molto buone per quanto riguarda la chiarezza complessiva e la conservazione delle informazioni, ambiti nei quali le riformulazioni automatiche sono state valutate allo stesso livello di quelle umane. ChatGPT ha ricevuto invece punteggi peggiori nella correttezza linguistica e nel livello di miglioramento. È però importante notare che, nella maggior parte dei casi, gli scarti di punteggio sono contenuti.
 
Un limite significativo dell’indagine riguarda il basso accordo statistico tra i valutatori, misurato tramite l’α di Krippendorff, che non raggiunge la soglia di sufficienza. Questo risultato conferma quanto la valutazione del miglioramento della chiarezza sia un compito intrinsecamente complesso e spinge a perfezionare le procedure di valutazione.
 
I dati ottenuti giustificano senz’altro un cauto ottimismo sul piano applicativo. Sistemi come ChatGPT sembrano già oggi utilizzabili come strumenti di supporto nei processi redazionali orientati alla chiarezza, a condizione che siano inseriti in flussi di lavoro ben controllati da revisori umani competenti.
 
Al tempo stesso, però, ribadirei un punto forse ancora più importante: lavorare su questi temi è un’occasione preziosa per riflettere più in generale sui criteri con cui valutiamo i processi di miglioramento della chiarezza, indipendentemente dal fatto che il testo sia prodotto da esseri umani o da sistemi artificiali.

Mirko Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative, in Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, pp. 103-118.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.