giovedì 5 dicembre 2024

Pascucci e Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana

 
Ieri è iniziato il convegno CLiC-it 2024. Una delle buone abitudini di molti convegni scientifici è la pubblicazione degli atti prima che il convegno si tenga. Per questo, già da qualche giorno i contributi sono disponibili sul sito CLiC-it
 
Tra questi contributi si trova anche un articolo scritto da Mariachiara Pascucci, dottoranda del dottorato in Studi italianistici dell’Università di Pisa, e da me: Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana. Anche in questo caso, in un convegno che ammette come lingue di lavoro sia l’inglese sia l’italiano, il nostro è in effetti l’unico contributo scritto in italiano su oltre 100 testi pubblicati negli atti… quando posso, continuo anche questa battaglia!
 
Veniamo però alla sostanza. Il contributo è collegato a una serie di lavori recenti sul miglioramento della chiarezza dei testi e si occupa di un aspetto che può sembrare marginale ma che a me sembra centrale: chi riesce a valutare meglio la chiarezza di un testo in lingua italiana?
 
La risposta a questa domanda non è banale. Esistono da decenni alcuni indicatori di chiarezza, come il GULPEASE o la percentuale di parole che appartengono al Vocabolario di Base dell’italiano. Tuttavia, questi indicatori hanno diversi limiti – e non possono valutare, per esempio, se un testo è stato reso più “chiaro” sacrificando informazioni importanti o introducendo veri e propri errori. Per una valutazione di questo tipo occorre appoggiarsi a esseri umani.
 
La domanda diventa quindi: quali esseri umani? Per alcuni tipi di valutazione, la risposta è semplice e può essere fornita con elevatissimo livello di precisione da persone con una competenza linguistica generica, da madrelingua o addirittura da non madrelingua, senza che sia necessaria una particolare formazione. Non occorre un curriculum da redattore o una laurea in linguistica italiana per dire per esempio che la frase “il gatti mangiassero camminare” non è grammaticale.
 
Per altri tipi di valutazione, la situazione però cambia. Valutare la qualità dei testi generati mi sembra essenziale; tuttavia, alcune deviazioni rispetto allo standard professionale di scrittura possono essere notate sistematicamente solo da professionisti o da persone molto attente. Lo stesso vale, verosimilmente, per giudizi sulla chiarezza di diversi tipi di testo. E le intelligenze artificiali generative su cui sto lavorando in questo periodo si avvicinano ormai talmente tanto al modello umano professionale che viene il sospetto che la valutazione di ciò che producono possa ormai essere compiuta in modo convincente solo da professionisti. Di qui le mie perplessità sul tipo di valutazione oggi senz’altro prevalente in questo genere di studi, cioè quella fatta da non esperti. In particolare, ho da tempo molte perplessità sull’affidabilità delle valutazioni compiute attraverso la pratica del “crowdsourcing”: reclutare valutatori non esperti attraverso piattaforme online.
 
Un conto è però sospettare che la situazione sia questa, un conto documentarla e quantificarla. Per questo ci siamo messi al lavoro… e i risultati sono stati interessanti. Come punto di partenza abbiamo usato dei testi resi più chiari (auspicabilmente) attraverso l’intervento di esseri umani e di ChatGPT. Abbiamo poi valutato noi stessi questi testi, considerandoci “esperti” di riferimento. Dopodiché, abbiamo sottoposto i testi a valutatori esperti (= studenti magistrali che hanno seguito un mio corso sulla valutazione), a valutatori reclutati attraverso il sistema del crowdsourcing e, per finire, a ChatGPT stesso. Abbiamo poi visto quanto i diversi valutatori si sono avvicinati alla valutazione di riferimento.
 
I risultati sono stati in parte sorprendenti. Come era lecito attendersi, i valutatori esperti si sono avvicinati più di ogni altro gruppo al risultato di riferimento. Tuttavia, il secondo posto è stato ottenuto non dai valutatori reclutati attraverso il crowdsourcing ma da ChatGPT: il crowdsourcing è finito al terzo posto. Personalmente, diffido da tempo dell’attendibilità del crowdsourcing per questo genere di valutazioni, ma non immaginavo che potesse prodursi una classifica del genere.
 
Naturalmente, molto dipende dal modo in cui è stato costruito l’esperimento! E nulla dimostra che i risultati saranno gli stessi, per esempio, con altri tipi di incarico. Ma fornire indicazioni quantitative che mostrano quanto i risultati della valutazione dipendano dai valutatori mi sembra fondamentale!
 
Mariachiara Pascucci e Mirko Tavosanis, Confronto tra diversi tipi di valutazione del miglioramento della chiarezza di testi amministrativi in lingua italiana, in Proceedings of the Tenth Italian Conference on Computational Linguistics (CLiC-it 2024), Pisa, 4-6 dicembre 2024, a cura di Felice Dell’Orletta, Alessandro Lenci, Simonetta Montemagni e Rachele Sprugnoli, Aachen, CEUR-WS, 2024 ISSN 1613-0073.
 

Nessun commento:

Posta un commento