giovedì 24 maggio 2018

Presentazione Lingue e intelligenza artificiale

  
 
Mirko Tavosanis, Lingue e intelligenza artificiale
Domani, venerdì 25 maggio 2018, presenterò il mio libro Lingue e intelligenza artificiale all’interno della serie di “Incontri con l’autore” organizzati dalla Nuova Limonaia a Pisa.
 
La presentazione si terrà alle 17:30 presso la libreria Blu Book, in via Toselli 23 (accanto a Palazzo Blu, vicino al Comune di Pisa), e sarà introdotta da Francesco Romani, del Dipartimento di Informatica. Tutti gli interessati sono calorosamente invitati a partecipare!
 
Segnalo anche che nel frattempo di Lingue e intelligenza artificiale hanno parlato Lorenzo Tomasin (con un certo scetticismo) in un articolo uscito sul Domenicale del Sole-24 ore e Claudio Marazzini nel suo recentissimo libro L’italiano è meraviglioso (Milano Rizzoli, 2018).
 

martedì 22 maggio 2018

Cominetti e Tavosanis, The ICoN Corpus of Academic Written Italian (L1 and L2)

  
 
LREC 2018 a Miyazaki
Per LREC 2018 a Miyazaki ho presentato (con poster) la versione completa del Corpus ICoN, realizzato assieme a Federica Cominetti. Il contributo si intitola The ICoN Corpus of Academic Written Italian (L1 and L2) ed è adesso disponibile negli Atti del Convegno LREC 2018, scaricabili integralmente – anche se il file è davvero ingombrante: 362Mb nella versione zippata!
 
Il contributo è appunto una descrizione completa, in inglese, del modo con cui è stato realizzato il corpus ICoN: al momento il più ampio corpus comparabile di produzioni scritte da italiani madrelingua e da apprendenti di italiano (con 41 diverse lingue madri). Il sottocorpus di testi di stranieri è infatti formato da 2.115.000 token, quello di testi di italiani da 1.769.000 token. Caratteristiche e statistiche del corpus sono presentate in dettaglio, e dal mio punto di vista questa presentazione è quella definitiva e di riferimento.
 
Una sezione dimostrativa del contributo presenta inoltre un saggio di analisi sull’uso delle collocazioni. L’analisi ha mostrato che “the most frequent multiword expressions included in the L1 and L2 sub-corpora tend to be the same”. Cioè che in sostanza, quando usano collocazioni, polirematiche e frasi idiomatiche, gli studenti stranieri lo fanno in modo molto simile a quello degli studenti italiani. Per esempio, le cinque espressioni nominali (“multiword nouns”) con il punteggio LMI più alto nelle produzioni di stranieri sono queste:
 

  1. Punto di vista 
  2. Punto di riferimento 
  3. Essere umano 
  4. Stato d’animo 
  5. Mezzo di comunicazione 
 Le cinque corrispondenti nelle produzioni di italiani sono:
 

  1. Punto di vista 
  2. Essere umano 
  3. Mezzo di comunicazione 
  4. Stato d’animo 
  5. Messa in scena
 
La cosa non era ovvia... e al tempo stesso, va notato i punteggi LMI sono più alti nei testi di stranieri: per esempio, “stato d’animo” ha LMI di 445 nei testi di stranieri, di 316 in quelli di italiani. A Miyazaki ho visto molto interesse nei confronti di questo tipo di analisi, e la cosa è particolarmente interessante perché gli studi italiani in materia mi sembrano molto più avanzati di quelli condotti per altre lingue, a cominciare dall’inglese.
 
Federica Cominetti e Mirko Tavosanis, The ICoN Corpus of Academic Written Italian (L1 and L2), Parigi, ELRA, 2018, ISBN 979-10-95546-00-9, pp. 4077-4083.
 

mercoledì 16 maggio 2018

Giappone!

  
 
Japan Rail Pass
Erano giusto quarant’anni che avevo voglia di andare in Giappone… dal 4 aprile 1978, per essere precisi. Bene, adesso sono qui. Sono venuto per un convegno (di cui parlerò nel prossimo post) ma ne ho approfittato anche per farmi un giro con il Japan Rail Pass: sette giorni per salire su quasi tutti i treni giapponesi, compresi quelli ad alta velocità.
 
Ora, il convegno cui ho partecipato si svolgeva a Miyazaki. Cioè, nel sud del Giappone, sull’isola di Kyushu, a poche ore di distanza da Shin-Kagoshima, che è la stazione più meridionale degli shinkansen, i treni ad alta velocità. Quale occasione migliore per vedere tutto il paese, da un estremo all’altro? E quindi, dopo quattro giorni di viaggio, sto scrivendo questo post da Hakodate nell’isola di Hokkaido, a pochi passi di distanza da Shin-Hakodate-Hokuto, la stazione più settentrionale.
 
In mezzo c’è stato un po’ di tutto, tra cui due tratti di mare: quello che separa Kyushu da Honshu e quello che separa Honshu da Hokkaido, attraversati rispettivamente su un ponte che non ho nemmeno visto e in un tunnel di 54 chilometri sott’acqua. E poi il vulcano Sakurajima, Hiroshima, Osaka, Kyoto e Nikko. Negli ultimi due giorni rientrerò su Tokyo.

Al Tempio d'oro di Kyoto

Il Giappone della realtà assomiglia molto a quello che mi ero immaginato. È stato anche un’esperienza interessante dal punto di vista delle tecnologie linguistiche, perché, visto che io non so il giapponese e pochissimi giapponesi riescono a parlare inglese, o qualunque altra lingua europea, italiano incluso, ho fatto uso abbondante di Google Traduttore, sia per le scritte sia per le domande. È goffissimo, ma è anche insostituibile, in queste circostanze. Mi piace infinitamente anche la cultura del libro, o della scrittura in generale.
 
Ma in generale, il Giappone mi piace perché mostra che, anche in una società tecnologica, esistono altri modi per fare le cose. E non sarebbe male se alcuni di questi modi si diffondessero anche altrove; o in generale se si capisse che, molto spesso, oltre una nebbia di abitudini e stanchezza, le alternative esistono.