Nel maggio del 2024 sono stato a Campobasso per un convegno sull’Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa. Il convegno è stato molto interessante e ha mostrato anche in modo tangibile quanto le intelligenze artificiali generative siano oggi al centro dell’interesse di chi lavora sulla scrittura amministrativa. Un volume che include molti contributi dei partecipanti al convegno è uscito qualche mese fa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, e permette di quantificare: su circa 350 pagine di testo, esclusi indici e introduzione, circa 120 sono dedicate a esperienze che coinvolgono le intelligenze artificiali generative.
Rientra nel gruppo anche il mio contributo dedicato a Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative. Le esperienze presentate sono state illustrate da altre angolazioni in una sintesi scritta da Giuliana Fiorentino e da me e in un confronto tra metodi di valutazione scritto da Mariachiara Pascucci e da me. Tuttavia, in questa ultima pubblicazione si forniscono molti approfondimenti relativi alla domanda di base: le intelligenze artificiali generative riescono a migliorare la chiarezza dei testi? La risposta è sostanzialmente positiva, con alcune precisazioni.
Dal punto di vista metodologico, ho scelto di adottare la valutazione cosiddetta intrinseca eseguita da valutatori umani. In pratica, si forniscono i testi a valutatori umani che dicono quanto il lavoro è stato fatto bene (ed è importante che i valutatori abbiano le competenze necessarie a svolgere questa attività). Nessun sistema automatico di valutazione oggi è in grado di fare meglio di così!
I testi di partenza sono stati otto documenti di carattere informativo-amministrativo (in particolare, linee guida ministeriali), selezionati perché privi di valore giuridico vincolante ma rappresentativi delle difficoltà tipiche della comunicazione istituzionale. Ogni testo è stato riformulato sia da ChatGPT, utilizzando due prompt diversi mirati a migliorare la chiarezza senza perdere informazioni, sia da un intervento umano condotto secondo criteri consolidati nella letteratura sulla scrittura chiara.
Per rendere la valutazione più specifica, ho poi scomposto il giudizio in cinque ambiti distinti: correttezza delle informazioni, correttezza linguistica, chiarezza complessiva, livello di miglioramento rispetto all’originale e conservazione delle informazioni. I valutatori, studenti universitari con una buona formazione linguistica e specificamente preparati al compito, hanno assegnato per ogni ambito punteggi su una scala da 1 a 5, lavorando in modo indipendente e senza sapere se i testi valutati fossero stati prodotti da un essere umano o da un sistema automatico.
I risultati mostrano che le riformulazioni prodotte da ChatGPT raggiungono nel complesso un livello paragonabile a quello umano. Su 40 confronti diretti tra riformulazioni umane e automatiche (cioè, i punteggi ottenuti dagli 8 testi per 5 ambiti), ChatGPT ottiene un punteggio superiore rispetto alle riformulazioni umane in 14 casi e identico in altri 2. Tenuto conto dei due confronti in cui il punteggio è identico, la parità si sarebbe prodotta a 19: il livello attuale non è lontano dal traguardo!
In particolare, le prestazioni di ChatGPT sono risultate molto buone per quanto riguarda la chiarezza complessiva e la conservazione delle informazioni, ambiti nei quali le riformulazioni automatiche sono state valutate allo stesso livello di quelle umane. ChatGPT ha ricevuto invece punteggi peggiori nella correttezza linguistica e nel livello di miglioramento. È però importante notare che, nella maggior parte dei casi, gli scarti di punteggio sono contenuti.
Un limite significativo dell’indagine riguarda il basso accordo statistico tra i valutatori, misurato tramite l’α di Krippendorff, che non raggiunge la soglia di sufficienza. Questo risultato conferma quanto la valutazione del miglioramento della chiarezza sia un compito intrinsecamente complesso e spinge a perfezionare le procedure di valutazione.
I dati ottenuti giustificano senz’altro un cauto ottimismo sul piano applicativo. Sistemi come ChatGPT sembrano già oggi utilizzabili come strumenti di supporto nei processi redazionali orientati alla chiarezza, a condizione che siano inseriti in flussi di lavoro ben controllati da revisori umani competenti.
Al tempo stesso, però, ribadirei un punto forse ancora più importante: lavorare su questi temi è un’occasione preziosa per riflettere più in generale sui criteri con cui valutiamo i processi di miglioramento della chiarezza, indipendentemente dal fatto che il testo sia prodotto da esseri umani o da sistemi artificiali.
Mirko Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative, in Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, pp. 103-118.





