mercoledì 16 dicembre 2020

Papa e Tavosanis, Valutazione umana di DeepL a livello di frase per le traduzioni di testi specialistici dall'inglese verso l'italiano


 
Logo di CLiC-it 2020
Vale davvero la pena tenere d’occhio gli sviluppi della traduzione automatica… è uno dei rarissimi casi in cui la tecnologia è più avanti di quel che sembra!
 
Adesso è appena uscito un contributo scritto da un bravo studente, Sirio Papa, e da me: Valutazione umana di DeepL a livello di frase per le traduzioni di testi specialistici dall’inglese verso l’italiano. Il contributo appare negli atti del convegno CLiC-it 2020, che avrebbe dovuto tenersi quest’anno ma che è stato spostato al marzo 2021: speriamo possa tenersi in presenza.
 
I risultati del lavoro, per quanto incredibile ciò ancora mi sembri, confermano altri studi recenti, in cui si è parlato molto di raggiungimento della “parità” tra traduzione automatica e traduzione umana. Per quanto riguarda l’“adeguatezza”, cioè in sostanza la correttezza dei contenuti, nel mio campione la traduzione automatica è risultata al livello di quella umana. Non arriva invece al livello di quella umana per la “scorrevolezza”, definendo in questo modo il rispetto di tutte le regole grammaticali, l’uso delle collocazioni tipiche di una lingua, eccetera, ma la differenza è davvero ridottissima. Di tutto questo ho già parlato l’anno scorso, parlando della presentazione fatta a Bari e del contributo pubblicato

In quanto ai risultati del lavoro appena uscito, che confermano e rafforzano i precedenti, sono stati ottenuti sottoponendo a un gruppo di 15 valutatori le traduzioni di 108 frasi inglesi. Di ogni frase sono state valutate due diverse versioni, una tradotta da esseri umani e l’altra tradotta da DeepL. Le frasi sono state divise in due gruppi e presentate ai valutatori in ordine casuale, senza informazioni su chi avesse tradotto ogni singola frase. I risultati complessivi, in scala da 1 a 5, sono stati questi:
 
Adeguatezza 
  • Umano: 4,29 
  • DeepL: 4,31
Scorrevolezza 
  • Umano: 4,17 
  • DeepL: 4,09
Insomma, la traduzione automatica ha ricevuto addirittura un punteggio più alto di quello della traduzione umana per quanto riguarda l'adeguatezza, ma la differenza è tanto ridotta da non essere statisticamente significativa: in pratica, si tratta di parità. È invece statisticamente significativo il vantaggio del traduttore umano per la scorrevolezza… ma, come si vede, il margine è comunque molto, molto ridotto.
 
Se al di là dei numeri interessano gli aneddoti, poi, forse è il caso di raccontarne uno. Quando ho ricevuto il documento con le frasi estratte a caso da traduzioni eseguite da DeepL, l’ho scorsa e ho contattato il mio coautore, dicendo: “ci deve essere un errore! Queste mi sembrano le frasi tradotte da traduttori umani”. La risposta, come si sarà immaginato, è stata: “no, no, sono proprio quelle di DeepL”…
 
Vale poi la pena di precisare due cose importanti. La prima è che la valutazione è stata condotta, a differenza dei miei esperimenti precedenti, su testi specialistici: brevetti, manuali, schede di sicurezza. I settori di provenienza erano “biomedicina e discipline del farmaco” e “ambiente ed energia”. E prima di fare la valutazione, confesso che non avevo idea di che cosa sarebbe venuto fuori: questi testi si prestano bene alla traduzione automatica, perché per esempio la sintassi è più rigida di quella di altri tipi di testo? O si prestano male, perché per esempio le difficoltà nella traduzione della terminologia sono insormontabili? Direi che i risultati, come minimo, garantiscono che le difficoltà non sono insormontabili.
 
La seconda cosa, connessa, è che la valutazione è stata condotta grazie al contributo volontario degli studenti e dei docenti (in particolare, delle professoresse Isabella Blum e Silvia Barra) del Master on line in Traduzione specialistica inglese > italiano erogato dal Consorzio ICoN: li ringrazio tutti sentitamente! Il loro coinvolgimento è stato essenziale perché, com’è ovvio, non si può valutare la qualità della traduzione se non si sa che cosa significa il testo originale, o anche solo se determinate parole esistono o no nell’uso italiano.
 
Prossimi sviluppi? Probabilmente passare a valutare testi interi, non più singole frasi. La cosa è difficile e pone anche problemi metodologici (come si fa a nascondere al valutatore l’origine anche solo di un articolo di giornale? Per rendere evidente la provenienza basta che sia presente all’interno anche un solo errore che un essere umano non commetterebbe mai); ma un paio di idee le ho, e forse potrò provare ad applicarle nel 2021.
 
Aggiungo poi che anche in questo caso sono lieto di aver pubblicato l’articolo in italiano, in un contesto in cui la conferenza accetta sia italiano che inglese, ma, se vedo bene, su 69 articoli accettati quelli in italiano sono solo 4. Meglio dei 2 su 75 dell’anno scorso, peraltro! E chissà che la traduzione automatica non permetta comunque la lettura anche a chi non conosce l’italiano...
 
Sirio Papa e Mirko Tavosanis, Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano, pp. 1-7, in CLiC-it 2020 – Proceedings of the Seventh Italian Conference on Computational Linguistics Bologna, Italy, March 1-3, 2021, a cura di Johanna Monti, Felice Dell’Orletta e Fabio Tamburini, CEUR Workshop Proceedings, Aachen University, ISSN 1613-0073.