Linguaggio e scrittura: Tavosanis, Valutare la qualità dei testi generati in lingua italiana

venerdì 11 ottobre 2024

Tavosanis, Valutare la qualità dei testi generati in lingua italiana

L’ho scritto a inizio settimana parlando di Co-Intelligence di Ethan Mollick: capire che cosa sanno fare o meno le cosiddette “intelligenze artificiali generative” non è affatto intuitivo. Di qui la centralità della valutazione dei loro prodotti.

Un mio contributo sull’argomento è stato pubblicato questa estate dalla rivista “AI-Linguistica” e ha come titolo, appunto, Valutare la qualità dei testi generati in lingua italiana. È anche un contributo piuttosto lungo, perché per arrivare alla valutazione di questi testi occorre fare un buon numero di premesse.

Uno dei motivi per cui le premesse sono necessarie è che non esiste un metodo collaudato per valutare i testi prodotti in questo modo. Esistono, certamente, diverse tradizioni di valutazione dei testi, praticate da gruppi diversi di persone: quella scolastica, quella del mondo della traduzione umana, quella della comunità della traduzione automatica, quella del testing linguistico… Ognuna di esse fornisce contributi interessanti. Nessuna di esse però, a mio giudizio, può essere adottata pari pari per la valutazione dei testi generati dalle intelligenze artificiali generative (ChatGPT e simili, insomma).

Di una cosa però sono sicuro: in questa fase, la valutazione dei testi delle intelligenze artificiali generative deve essere necessariamente una valutazione fatta da esseri umani competenti. Non esistono scorciatoie: non ci sono sistemi automatici o crowdsourcing che possano sostituire il lavoro di chi può dire se un’espressione è accettabile o meno nell’uso professionale. Le competenze linguistiche e filologiche sono indispensabili per riuscire a comprendere e valutare correttamente questi testi.

Aggiungo che non si tratta di un’idea a priori: è la conclusione cui sono arrivato dopo aver provato in modo sistematico le alternative e aver visto che, semplicemente, forniscono risultati molto meno validi rispetto alla valutazione di esseri umani competenti. I dettagli sugli esperimenti che mi portano a questa conclusione saranno presentati nei prossimi mesi in alcuni contributi in uscita, ma il quadro d’assieme è ben chiaro – e in linea con tutto ciò che sappiamo (ma spesso dimentichiamo) sulla valutazione.

Mirko Tavosanis, Valutare la qualità dei testi generati in lingua italiana, “AI-Linguistica” 1, 1, 2024, pp. 1-24. https://doi.org/10.62408/ai-ling.v1i1.14