giovedì 24 maggio 2018

Presentazione Lingue e intelligenza artificiale

  
 
Mirko Tavosanis, Lingue e intelligenza artificiale
Domani, venerdì 25 maggio 2018, presenterò il mio libro Lingue e intelligenza artificiale all’interno della serie di “Incontri con l’autore” organizzati dalla Nuova Limonaia a Pisa.
 
La presentazione si terrà alle 17:30 presso la libreria Blu Book, in via Toselli 23 (accanto a Palazzo Blu, vicino al Comune di Pisa), e sarà introdotta da Francesco Romani, del Dipartimento di Informatica. Tutti gli interessati sono calorosamente invitati a partecipare!
 
Segnalo anche che nel frattempo di Lingue e intelligenza artificiale hanno parlato Lorenzo Tomasin (con un certo scetticismo) in un articolo uscito sul Domenicale del Sole-24 ore e Claudio Marazzini nel suo recentissimo libro L’italiano è meraviglioso (Milano Rizzoli, 2018).
 

martedì 22 maggio 2018

Cominetti e Tavosanis, The ICoN Corpus of Academic Written Italian (L1 and L2)

  
 
LREC 2018 a Miyazaki
Per LREC 2018 a Miyazaki ho presentato (con poster) la versione completa del Corpus ICoN, realizzato assieme a Federica Cominetti. Il contributo si intitola The ICoN Corpus of Academic Written Italian (L1 and L2) ed è adesso disponibile negli Atti del Convegno LREC 2018, scaricabili integralmente – anche se il file è davvero ingombrante: 362Mb nella versione zippata!
 
Il contributo è appunto una descrizione completa, in inglese, del modo con cui è stato realizzato il corpus ICoN: al momento il più ampio corpus comparabile di produzioni scritte da italiani madrelingua e da apprendenti di italiano (con 41 diverse lingue madri). Il sottocorpus di testi di stranieri è infatti formato da 2.115.000 token, quello di testi di italiani da 1.769.000 token. Caratteristiche e statistiche del corpus sono presentate in dettaglio, e dal mio punto di vista questa presentazione è quella definitiva e di riferimento.
 
Una sezione dimostrativa del contributo presenta inoltre un saggio di analisi sull’uso delle collocazioni. L’analisi ha mostrato che “the most frequent multiword expressions included in the L1 and L2 sub-corpora tend to be the same”. Cioè che in sostanza, quando usano collocazioni, polirematiche e frasi idiomatiche, gli studenti stranieri lo fanno in modo molto simile a quello degli studenti italiani. Per esempio, le cinque espressioni nominali (“multiword nouns”) con il punteggio LMI più alto nelle produzioni di stranieri sono queste:
 

  1. Punto di vista 
  2. Punto di riferimento 
  3. Essere umano 
  4. Stato d’animo 
  5. Mezzo di comunicazione 
 Le cinque corrispondenti nelle produzioni di italiani sono:
 

  1. Punto di vista 
  2. Essere umano 
  3. Mezzo di comunicazione 
  4. Stato d’animo 
  5. Messa in scena
 
La cosa non era ovvia... e al tempo stesso, va notato i punteggi LMI sono più alti nei testi di stranieri: per esempio, “stato d’animo” ha LMI di 445 nei testi di stranieri, di 316 in quelli di italiani. A Miyazaki ho visto molto interesse nei confronti di questo tipo di analisi, e la cosa è particolarmente interessante perché gli studi italiani in materia mi sembrano molto più avanzati di quelli condotti per altre lingue, a cominciare dall’inglese.
 
Federica Cominetti e Mirko Tavosanis, The ICoN Corpus of Academic Written Italian (L1 and L2), Parigi, ELRA, 2018, ISBN 979-10-95546-00-9, pp. 4077-4083.
 

mercoledì 16 maggio 2018

Giappone!

  
 
Japan Rail Pass
Erano giusto quarant’anni che avevo voglia di andare in Giappone… dal 4 aprile 1978, per essere precisi. Bene, adesso sono qui. Sono venuto per un convegno (di cui parlerò nel prossimo post) ma ne ho approfittato anche per farmi un giro con il Japan Rail Pass: sette giorni per salire su quasi tutti i treni giapponesi, compresi quelli ad alta velocità.
 
Ora, il convegno cui ho partecipato si svolgeva a Miyazaki. Cioè, nel sud del Giappone, sull’isola di Kyushu, a poche ore di distanza da Shin-Kagoshima, che è la stazione più meridionale degli shinkansen, i treni ad alta velocità. Quale occasione migliore per vedere tutto il paese, da un estremo all’altro? E quindi, dopo quattro giorni di viaggio, sto scrivendo questo post da Hakodate nell’isola di Hokkaido, a pochi passi di distanza da Shin-Hakodate-Hokuto, la stazione più settentrionale.
 
In mezzo c’è stato un po’ di tutto, tra cui due tratti di mare: quello che separa Kyushu da Honshu e quello che separa Honshu da Hokkaido, attraversati rispettivamente su un ponte che non ho nemmeno visto e in un tunnel di 54 chilometri sott’acqua. E poi il vulcano Sakurajima, Hiroshima, Osaka, Kyoto e Nikko. Negli ultimi due giorni rientrerò su Tokyo.

Al Tempio d'oro di Kyoto

Il Giappone della realtà assomiglia molto a quello che mi ero immaginato. È stato anche un’esperienza interessante dal punto di vista delle tecnologie linguistiche, perché, visto che io non so il giapponese e pochissimi giapponesi riescono a parlare inglese, o qualunque altra lingua europea, italiano incluso, ho fatto uso abbondante di Google Traduttore, sia per le scritte sia per le domande. È goffissimo, ma è anche insostituibile, in queste circostanze. Mi piace infinitamente anche la cultura del libro, o della scrittura in generale.
 
Ma in generale, il Giappone mi piace perché mostra che, anche in una società tecnologica, esistono altri modi per fare le cose. E non sarebbe male se alcuni di questi modi si diffondessero anche altrove; o in generale se si capisse che, molto spesso, oltre una nebbia di abitudini e stanchezza, le alternative esistono.
 

giovedì 26 aprile 2018

La scomparsa di Armando Petrucci


 
Il 23 aprile è scomparso Armando Petrucci, il più grande paleografo e storico della scrittura attivo in questi anni in Italia. Non ho avuto la fortuna di essere suo allievo, anche se ho sentito diversi suoi interventi in molte occasioni, ma i suoi libri sono stati per me importantissimi in tutto il mio percorso di studi.
 
Ieri ho presenziato a un breve saluto a Petrucci alle sale della Pubblica Assistenza di Pisa. Hanno parlato, con commozione, Corrado Bologna e Alfredo Stussi. Corrado Bologna ha letto anche il suo ricordo pubblicato ieri sul Manifesto. Rimando a quello, da cui riporto qui solo una citazione che è una sintesi ma anche un programma di ricerca e, per me, un auspicio:
 
Non c’è nulla, nella storia dell’uomo, che possa ricondursi solo al pensiero: conta in primo luogo la fisicità degli oggetti che mettiamo al mondo lavorando con il cervello, la materialità dei gesti che gli individui compiono per lasciare traccia durevole della propria esistenza e per trasmettere alle civiltà future le proprie conquiste, le proprie fatiche, i propri sogni.
 

martedì 24 aprile 2018

Le lingue dell’Uzbekistan


 
Il Chor Minor di Bukhara
Nelle settimane scorse, dal 10 al 21 aprile, ho fatto uno scambio Erasmus + in Uzbekistan. Sono le cosiddette azioni KA 107: ne avevo già fatta una l’anno scorso in Kazakistan, ma non sono mai riuscito a raccontarla qui. L’esperienza di quest’anno, peraltro, è stata davvero gradevole: l’Uzbekistan si è rivelato meravigliosamente interessante.
 
Il mio scambio era con l’Università di Bukhara, con il coordinamento del professor Abror Juraev. Ne ho approfittato però per fare anche una rapida visita a Samarcanda, dove all’Istituto di Lingue straniere c’è anche l’insegnamento dell’italiano… con professori e studenti bravissimi e molto simpatici.
 
L’Uzbekistan è meravigliosamente fotogenico, e spero di mettere in linea questa settimana qualche foto in più. Per me però è stata molto interessante anche la componente linguistica, con tutte le sue complicazioni. La lingua ufficiale del paese è infatti l’uzbeco, una lingua turca, però a scuola, anche se nel paese sono presenti pochissimi russi, tutti gli studenti devono imparare anche il russo… e ora, l’inglese. Più in dettaglio, le scuole sono divise in “scuole russe”, in cui l’insegnamento è in russo con corsi di uzbeco, e in “scuole uzbeche”, con insegnamento in uzbeco con corsi di russo. All’università la lingua di insegnamento è generalmente il russo, e nei negozi di Samarcanda la formula di ringraziamento a volte è l’uzbeco rakhmat e a volte il russo spaziba.
 
Inoltre: le due città di Bukhara e Samarcanda sono da secoli abitate da popolazioni di lingua tagica, cioè una lingua strettamente imparentata al persiano – e quindi indoeuropea. Dalle statistiche ufficiali non risulta, anche perché la scelta di collocare Bukhara e Samarcanda in Uzbekistan e non in Tajikistan è uno degli esempi della politica sovietica di tenere sotto controllo i popoli dell’Asia Centrale suddividendoli in repubbliche che rendessero difficile un’azione comune. Tuttavia, a quel che sento, in entrambe le città ancora oggi il tagico è una lingua che molti parlano come lingua materna e che tutti devono conoscere. Le lingue indispensabili sul posto sono quindi tre: uzbeco, russo e tagico.

La statua di Nasreddin Khoja a Bukhara

Soprattutto, per me è interessante l’ennesimo esempio di diffusione dell’alfabeto latino. L’uzbeco, che per lungo tempo era stato scritto con l’alfabeto arabo, passò all’alfabeto latino nel 1927; nel 1940 però l’Unione Sovietica imposte il passaggio al cirillico. Nel 1992 il processo è stato invertito e il sistema di scrittura ufficiale è di nuovo l’alfabeto latino… anche se a scuola vengono insegnati entrambi gli alfabeti e nelle insegne e nelle pubblicazioni a stampa mi sembra che predomini ancora il cirillico, mentre negli edifici pubblici, a cominciare dalle università, si vede solo alfabeto latino.
 
In aggiunta a deserti e monumenti, tutto questo ha reso il viaggio molto più interessante. L’accoglienza e la gentilezza di studenti e docenti hanno fatto il resto, e spero di poter scrivere qualcosa di più nei prossimi giorni.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.