Linguaggio e scrittura: Cominetti e Tavosanis, The ICoN Corpus of Academic Written Italian (L1 and L2)

martedì 22 maggio 2018

Cominetti e Tavosanis, The ICoN Corpus of Academic Written Italian (L1 and L2)

Per LREC 2018 a Miyazaki ho presentato (con poster) la versione completa del Corpus ICoN, realizzato assieme a Federica Cominetti. Il contributo si intitola The ICoN Corpus of Academic Written Italian (L1 and L2) ed è adesso disponibile negli Atti del Convegno LREC 2018, scaricabili integralmente – anche se il file è davvero ingombrante: 362Mb nella versione zippata!

Il contributo è appunto una descrizione completa, in inglese, del modo con cui è stato realizzato il corpus ICoN: al momento il più ampio corpus comparabile di produzioni scritte da italiani madrelingua e da apprendenti di italiano (con 41 diverse lingue madri). Il sottocorpus di testi di stranieri è infatti formato da 2.115.000 token, quello di testi di italiani da 1.769.000 token. Caratteristiche e statistiche del corpus sono presentate in dettaglio, e dal mio punto di vista questa presentazione è quella definitiva e di riferimento.

Una sezione dimostrativa del contributo presenta inoltre un saggio di analisi sull’uso delle collocazioni. L’analisi ha mostrato che “the most frequent multiword expressions included in the L1 and L2 sub-corpora tend to be the same”. Cioè che in sostanza, quando usano collocazioni, polirematiche e frasi idiomatiche, gli studenti stranieri lo fanno in modo molto simile a quello degli studenti italiani. Per esempio, le cinque espressioni nominali (“multiword nouns”) con il punteggio LMI più alto nelle produzioni di stranieri sono queste:

Punto di vista
Punto di riferimento
Essere umano
Stato d’animo
Mezzo di comunicazione

Le cinque corrispondenti nelle produzioni di italiani sono:

Punto di vista
Essere umano
Mezzo di comunicazione
Stato d’animo
Messa in scena

La cosa non era ovvia... e al tempo stesso, va notato i punteggi LMI sono più alti nei testi di stranieri: per esempio, “stato d’animo” ha LMI di 445 nei testi di stranieri, di 316 in quelli di italiani. A Miyazaki ho visto molto interesse nei confronti di questo tipo di analisi, e la cosa è particolarmente interessante perché gli studi italiani in materia mi sembrano molto più avanzati di quelli condotti per altre lingue, a cominciare dall’inglese.

Federica Cominetti e Mirko Tavosanis, The ICoN Corpus of Academic Written Italian (L1 and L2), Parigi, ELRA, 2018, ISBN 979-10-95546-00-9, pp. 4077-4083.