Linguaggio e scrittura: Tavosanis, Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano

martedì 5 novembre 2019

Tavosanis, Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano

Schermata della pubblicazione online degli atti CLiC-it 2019

Ho un po’ di osservazioni da fare sulla traduzione automatica e, più in generale, sul modo in cui le tecniche di intelligenza artificiale permettono oggi l’elaborazione del linguaggio. Parto segnalando un mio contributo: Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano. Il contributo appare negli atti del prossimo convegno CLiC-it 2019 (sì, nel settore si pubblicano spesso gli atti prima del convegno… cosa utilissima), su cui spero di riferire in diretta.

Per inquadrare il lavoro occorre fornire qualche spiegazione, collegata a quanto scrivevo nel mio libro su Lingue e intelligenza artificiale, ma tenendo conto del fatto che nel frattempo ci sono stati sviluppi notevoli. Dal 2017 a oggi la qualità delle traduzioni automatiche è molto migliorata, grazie all’adozione di tecniche di intelligenza artificiale… e fin qui nel libro c’ero arrivato. Poi però sono successe due cose importanti, entrambe nel corso del 2018:

la qualità delle traduzioni sembra essere ulteriormente migliorata, almeno per alcuni sistemi commerciali
la comunità della valutazione si è accorta del fatto che il sistema usato in precedenza sottovalutava in modo clamoroso i prodotti della traduzione a reti neurali

Di qui la necessità di rivalutare tutto il quadro, e l’unico metodo efficace è stato il ripartire da zero: fornire i prodotti della traduzione automatica a esseri umani e chiedere a loro di valutarli. I risultati sono clamorosi, perché finalmente mostrano i miglioramenti recenti in tutta la loro portata.

Il mio contributo presenta quindi una valutazione delle prestazioni dei due sistemi migliori, Google Traduttore e DeepL, usati attraverso le interfacce web disponibili al pubblico. Per la valutazione ho usato un campione di 100 frasi tratte da testi giornalistici in lingua inglese tradotti in italiano, valutate da studenti del mio corso di Linguistica italiana II (2018-2019) che avevano ricevuto istruzioni e fatto pratica con l’assegnazione di punteggi. Le scale usate sono state:

Adeguatezza

Il contenuto informativo dell’originale è stato completamente alterato
È stata trasmessa una parte del contenuto informativo, ma non la più importante
Circa metà del contenuto informativo è stata trasmessa
La parte più importante del contenuto informativo originale è stata trasmessa
Il contenuto informativo è stato tradotto completamente

Fluenza

Impossibile da ricondurre alla norma
Con più di due errori morfosintattici
Con non più di due errori morfosintattici e/o molti usi insoliti di collocazioni
Con non più di un errore morfosintattico e/o un uso insolito di collocazioni
Del tutto corretta

I risultati sono stati, appunto, sorprendenti.

Google : adeguatezza 4,15, fluenza 3,90
DeepL: adeguatezza 4,30, fluenza 3,94
Umano : adeguatezza 4,60, fluenza 4,46

In sostanza, la differenza è molto più ridotta di quello che si poteva pensare in base alle metriche usate finora per le traduzioni: una delle più usate, BLEU, assegnava alle traduzioni automatiche punteggi attorno alla metà di quelli ricevuti dai traduttori umani. La situazione è invece molto diversa e, anche se i sistemi automatici continuano a fare un sacco di errori, la distanza è ridotta. Inoltre, in diversi casi le frasi che producono sono indistinguibili per qualità da quelle dei traduttori umani reali – o addirittura migliori. Su questo ci sarà da riflettere molto.

Aggiungo poi che di questo lavoro mi fanno particolare piacere tre cose: aver pubblicato in un contesto di linguistica computazionale, sempre un po’ fuori settore per me; aver fatto il lavoro in modo interattivo, assieme agli studenti del mio corso; e infine, aver pubblicato l’articolo in italiano, in un contesto in cui la conferenza accetta sia italiano che inglese, ma, se vedo bene, su 75 articoli accettati quelli in italiano sono solo due.

Mirko Tavosanis, Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano, pp. 1-7, in CLiC-it 2019 – Proceedings of the Sixth Italian Conference on Computational Linguistics, Bari, Italy, November 13-15, 2019, a cura di Raffaella Bernardi, Roberto Navigli e Giovanni Semeraro, CEUR Workshop Proceedings, Aachen University, ISSN 1613-0073.