Per LREC 2018 a Miyazaki ho presentato (con poster) la versione completa del Corpus ICoN, realizzato assieme a Federica Cominetti. Il contributo si intitola The ICoN Corpus of Academic Written Italian (L1 and L2) ed è adesso disponibile negli Atti del Convegno LREC 2018, scaricabili integralmente – anche se il file è davvero ingombrante: 362Mb nella versione zippata!
Il contributo è appunto una descrizione completa, in inglese, del modo con cui è stato realizzato il corpus ICoN: al momento il più ampio corpus comparabile di produzioni scritte da italiani madrelingua e da apprendenti di italiano (con 41 diverse lingue madri). Il sottocorpus di testi di stranieri è infatti formato da 2.115.000 token, quello di testi di italiani da 1.769.000 token. Caratteristiche e statistiche del corpus sono presentate in dettaglio, e dal mio punto di vista questa presentazione è quella definitiva e di riferimento.
Una sezione dimostrativa del contributo presenta inoltre un saggio di analisi sull’uso delle collocazioni. L’analisi ha mostrato che “the most frequent multiword expressions included in the L1 and L2 sub-corpora tend to be the same”. Cioè che in sostanza, quando usano collocazioni, polirematiche e frasi idiomatiche, gli studenti stranieri lo fanno in modo molto simile a quello degli studenti italiani. Per esempio, le cinque espressioni nominali (“multiword nouns”) con il punteggio LMI più alto nelle produzioni di stranieri sono queste:
- Punto di vista
- Punto di riferimento
- Essere umano
- Stato d’animo
- Mezzo di comunicazione
- Punto di vista
- Essere umano
- Mezzo di comunicazione
- Stato d’animo
- Messa in scena
La cosa non era ovvia... e al tempo stesso, va notato i punteggi LMI sono più alti nei testi di stranieri: per esempio, “stato d’animo” ha LMI di 445 nei testi di stranieri, di 316 in quelli di italiani. A Miyazaki ho visto molto interesse nei confronti di questo tipo di analisi, e la cosa è particolarmente interessante perché gli studi italiani in materia mi sembrano molto più avanzati di quelli condotti per altre lingue, a cominciare dall’inglese.
Federica Cominetti e Mirko Tavosanis, The ICoN Corpus of Academic Written Italian (L1 and L2), Parigi, ELRA, 2018, ISBN 979-10-95546-00-9, pp. 4077-4083.
Nessun commento:
Posta un commento