martedì 19 novembre 2019

La traduzione automatica funziona

  
 
Foto: Mirko Tavosanis nel mezzo delle spiegazioni a CLiC-it 2019
La settimana scorsa, il mio viaggio al convegno CLiC-it a Bari è stato molto soddisfacente. Alla soddisfazione hanno contribuito anche due incontri aggiuntivi: uno a Lecce sull’italiano del web, grazie ad Annarita Miglietta, e uno all’Università di Bari sulla valutazione della traduzione, grazie a Maristella Gatto. Aggiungerei poi anche altre cose piacevoli: il viaggio di andata in vagone letto, il cibo (ottimo anche per un vegetariano), i paesaggi, la passeggiata nel centro di Bari…
 
Però vale la pena insistere sul motivo principale per cui ero lì, cioè presentare un mio lavoro di valutazione sulla qualità delle traduzioni automatiche. Non era uno dei centri tematici del convegno, anzi, il mio era proprio un contributo isolato. Però ho scoperto attività di valutazione molto importanti e, soprattutto, ho potuto riscontrare un fortissimo interesse per l’argomento in tanti addetti ai lavori. Al momento di presentare il poster sono stato sommerso di domande: nella foto mi si vede appunto in piena attività!
 
Credo quindi che valga la pena dire una cosa chiaramente: dopo più di mezzo secolo di false partenze, adesso la traduzione automatica funziona. E un miglioramento tanto visibile quanto rapido è dovuto all’introduzione dei sistemi a reti neurali, avvenuta per l’italiano a partire dal 2017, che ha fatto invecchiare molto in fretta il capitolo sulla traduzione automatica contenuto nel mio libro su Lingue e intelligenza artificiale. Ci sarebbe bisogno di un aggiornamento, in effetti… ma intanto è importante notare questa svolta storica.
 
Certo, le attività di traduzione si collocano lungo un continuum, per cui qualche applicazione pratica si è sempre trovata, e qualche azienda come SYSTRAN è riuscita a sopravvivere per decenni – ma erano cose molto di nicchia. Adesso però è possibile prendere un articolo di quotidiano o periodico in inglese e ottenere una traduzione in italiano ancora piena di errori ma che in sostanza riporta correttamente le informazioni del testo di partenza e non è poi molto lontana dal livello di un traduttore umano (qualche dettaglio in più sulla mia verifica è in questo post, e il resto è nel testo pubblicato).
 
Questa non è una cosa scontata. Per decenni, chiunque abbia lavorato nel settore si è sentito dire che la traduzione automatica “funzionava” quando in realtà dietro a questi discorsi non c’era molto: solo rivendicazioni esagerate e a volte ai limiti della truffa, a cominciare dalla celebre dimostrazione “Georgetown-IBM” del 1954. Ricordo bene, per esempio, di aver parlato nel 1990 con un bravissimo editore italiano – oggi scomparso – che raccontava di aver provato un sistema che funzionava bene e che gli avrebbe permesso di fare a meno di traduttori per i suoi libri. Sono ormai passati trent’anni, e nessuno dei libri della sua casa editrice è stato tradotto da un sistema automatico. Non solo: non credo che nessuno dei suoi libri sia stato tradotto con l’aiuto parziale di un sistema automatico.
 
Adesso però la svolta è molto interessante, e le reti neurali cambiano molte regole del gioco. Di regola, sintetizzare una materia complessa in una frase non è sufficiente. Anche nel caso della traduzione automatica occorrerebbe quindi fare un sacco di precisazioni, e di valutazioni. Però, in prima battuta, si può provare anche a condensare la novità in uno slogan: finalmente, la traduzione automatica funziona.
 

giovedì 7 novembre 2019

Da Torino a Lecce

  
 
Immagine dal sito del Festival della tecnologia di Torino
I prossimi giorni saranno per me fitti di impegni fuori sede!
 
Si inizia domenica 10, quando, dalle 15 alle 16:30, parteciperò a un dibattito all’interno del Festival della Tecnologia al Politecnico di Torino. Il titolo è: Storia di un e-taliano. Media e linguaggi nel mondo digitale; modera Gino Roncaglia e partecipano Vera Gheno ed Elena Pistolesi.
 
Mercoledì 13, alle 9, su graditissimo invito di Annarita Miglietta, terrò una lezione sull’Italiano del web a Lecce, all’Università del Salento, all’interno dei seminari di Sociolinguistica per gli studenti dell'area umanistica.
 
Nel pomeriggio dello stesso giorno sarò poi a Bari, dove inizia il convegno CLiC-it 2019. Alle 15:30 parteciperò alla sessione Poster Madness I con il mio lavoro sulla valutazione dei traduttori a reti neurali per i testi giornalistici tradotti dall’inglese in italiano.
 
Insomma, andrò da un capo all’altro dell’Italia... e in diagonale! Incrocio le dita e mi affido alla capacità di Trenitalia di portarmi in orario alle varie destinazioni.
 

martedì 5 novembre 2019

Tavosanis, Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano

  
 
Schermata della pubblicazione online degli atti CLiC-it 2019
Ho un po’ di osservazioni da fare sulla traduzione automatica e, più in generale, sul modo in cui le tecniche di intelligenza artificiale permettono oggi l’elaborazione del linguaggio. Parto segnalando un mio contributo: Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano. Il contributo appare negli atti del prossimo convegno CLiC-it 2019 (sì, nel settore si pubblicano spesso gli atti prima del convegno… cosa utilissima), su cui spero di riferire in diretta.
 
Per inquadrare il lavoro occorre fornire qualche spiegazione, collegata a quanto scrivevo nel mio libro su Lingue e intelligenza artificiale, ma tenendo conto del fatto che nel frattempo ci sono stati sviluppi notevoli. Dal 2017 a oggi la qualità delle traduzioni automatiche è molto migliorata, grazie all’adozione di tecniche di intelligenza artificiale… e fin qui nel libro c’ero arrivato. Poi però sono successe due cose importanti, entrambe nel corso del 2018:
 
  • la qualità delle traduzioni sembra essere ulteriormente migliorata, almeno per alcuni sistemi commerciali
  • la comunità della valutazione si è accorta del fatto che il sistema usato in precedenza sottovalutava in modo clamoroso i prodotti della traduzione a reti neurali
 
Di qui la necessità di rivalutare tutto il quadro, e l’unico metodo efficace è stato il ripartire da zero: fornire i prodotti della traduzione automatica a esseri umani e chiedere a loro di valutarli. I risultati sono clamorosi, perché finalmente mostrano i miglioramenti recenti in tutta la loro portata.
 
Il mio contributo presenta quindi una valutazione delle prestazioni dei due sistemi migliori, Google Traduttore e DeepL, usati attraverso le interfacce web disponibili al pubblico. Per la valutazione ho usato un campione di 100 frasi tratte da testi giornalistici in lingua inglese tradotti in italiano, valutate da studenti del mio corso di Linguistica italiana II (2018-2019) che avevano ricevuto istruzioni e fatto pratica con l’assegnazione di punteggi. Le scale usate sono state:
 
Adeguatezza
  1. Il contenuto informativo dell’originale è stato completamente alterato 
  2. È stata trasmessa una parte del contenuto informativo, ma non la più importante 
  3. Circa metà del contenuto informativo è stata trasmessa 
  4. La parte più importante del contenuto informativo originale è stata trasmessa 
  5. Il contenuto informativo è stato tradotto completamente
Fluenza
  1. Impossibile da ricondurre alla norma 
  2. Con più di due errori morfosintattici 
  3. Con non più di due errori morfosintattici e/o molti usi insoliti di collocazioni 
  4. Con non più di un errore morfosintattico e/o un uso insolito di collocazioni
  5.  Del tutto corretta

I risultati sono stati, appunto, sorprendenti.
  • Google : adeguatezza 4,15, fluenza 3,90 
  • DeepL: adeguatezza 4,30, fluenza 3,94 
  • Umano : adeguatezza 4,60, fluenza 4,46 
In sostanza, la differenza è molto più ridotta di quello che si poteva pensare in base alle metriche usate finora per le traduzioni: una delle più usate, BLEU, assegnava alle traduzioni automatiche punteggi attorno alla metà di quelli ricevuti dai traduttori umani. La situazione è invece molto diversa e, anche se i sistemi automatici continuano a fare un sacco di errori, la distanza è ridotta. Inoltre, in diversi casi le frasi che producono sono indistinguibili per qualità da quelle dei traduttori umani reali – o addirittura migliori. Su questo ci sarà da riflettere molto.
 
Aggiungo poi che di questo lavoro mi fanno particolare piacere tre cose: aver pubblicato in un contesto di linguistica computazionale, sempre un po’ fuori settore per me; aver fatto il lavoro in modo interattivo, assieme agli studenti del mio corso; e infine, aver pubblicato l’articolo in italiano, in un contesto in cui la conferenza accetta sia italiano che inglese, ma, se vedo bene, su 75 articoli accettati quelli in italiano sono solo due.
 
Mirko Tavosanis, Valutazione umana di Google Traduttore e DeepL per le traduzioni di testi giornalistici dall’inglese verso l’italiano, pp. 1-7, in CLiC-it 2019 – Proceedings of the Sixth Italian Conference on Computational Linguistics, Bari, Italy, November 13-15, 2019, a cura di Raffaella Bernardi, Roberto Navigli e Giovanni Semeraro, CEUR Workshop Proceedings, Aachen University, ISSN 1613-0073.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.