Linguaggio e scrittura: Corpus

Visualizzazione post con etichetta Corpus. Mostra tutti i post

venerdì 24 dicembre 2021

Cominetti e Tavosanis, Interferenza della L1 nell’apprendimento degli articoli in italiano L2

I due volumi con gli atti del convegno SILFI 2016

Sono finalmente usciti due volumi che presentano una selezione di contributi basati sugli interventi tenuti al convegno SILFI di Madrid. Il percorso senz’altro non è stato facile, visto che il convegno si è svolto nel 2016 – ma sono molto contento che sia giunto a termine!

Di sicuro, il prodotto finale è imponente: per quanto si tratti di una selezione, si concretizza appunto a due volumi che arrivano in totale quasi a milletrecento pagine. All’interno si trova anche un contributo scritto da Federica Cominetti e da me: Interferenza della L1 nell’apprendimento degli articoli in italiano L2: una ricerca sul corpus ICoN. Spero che molte delle cose dette lì possano ancora essere utili!

Il nostro testo include una presentazione del Corpus ICoN, che però al momento della consegna del contributo era ancora in uno stato provvisorio: la presentazione definitiva è quindi quella pubblicata nel 2018 in un altro intervento di cui ho già parlato. Quella uscita ora, più che una presentazione istituzionale, è comunque soprattutto una ricerca sull’interferenza del sistema degli articoli della L1 nell’apprendimento degli articoli in italiano L2, e in quanto tale mi sembra non sia invecchiata.

L’analisi presentata, qualitativa e quantitativa, si concentra sugli errori nell’uso degli articoli in quattro sottocorpora estratti dal corpus ICoN. I quattro sottocorpora scelti comprendono testi di italiano L2 scritti da parlanti nativi di due lingue dotate di articoli (inglese e tedesco) e di due lingue prive di articoli (russo e ceco). A questi viene affiancato un sottocorpus realizzato da parlanti nativi di spagnolo.

In sintesi, l’analisi degli errori mostra che l’esistenza di un sistema di articoli in L1 è correlata nel corpus a un uso più corretto degli articoli in italiano L2, con un effetto di interferenza positiva. Tuttavia, questa considerazione è valida solo per errori legati alle regole d’uso degli articoli, e non per le regole fonomorfologiche. La frequenza degli errori fonomorfologici nei sottocorpora sembra infatti indipendente dalla presenza o assenza di articoli nella L1. In altri termini, anche se chi ha come madrelingua il russo (senza articoli) commette più errori rispetto a chi ha come madrelingua il tedesco (con articoli) nel decidere quando l’articolo va usato e quando no, le differenze scompaiono al momento di decidere se l’articolo deve essere il o lo, eccetera. Ecco alcuni esempi di errore fonomorfologico ricavati dal corpus:

L1 ceco: E lo terzo tipo dello spirito esprime la totalità infinita e racchiude la filosofia, la religione e l'arte.
L1 russo: Tra i scrittori italiani attivi nel periodo del secondo dopoguerra si ascrive l'operato di Elsa Morante.
L1 tedesco: Così nel 1612 l'Accademia della Crusca sviluppò un vocabolario delle parole dei scrittori.
L1 inglese: Clodoveo, invece, implorando il Dio degli Cristiani sul campo di battaglia vide i suoi nemici scappare.

Più in dettaglio, il contributo ipotizza che gli errori d’uso commessi da anglofoni e germanofoni si spieghino in parte con l’interferenza negativa, dovuta alla non perfetta sovrapponibilità dei sistemi di articoli delle due lingue con quello dell'italiano.

Federica Cominetti e Mirko Tavosanis, Interferenza della L1 nell’apprendimento degli articoli in italiano L2: una ricerca sul corpus ICoN, in Acquisizione e didattica dell’italiano: riflessioni linguistiche, nuovi apprendenti e uno sguardo al passato, a cura di Margarita Borreguero Zuloaga, Berlino, Peter Lang, 2021, 2 volumi, pp. 1252, ISBN 978-3-631-75782-6, pp. 97-119. Copia ricevuta come autore.

martedì 22 maggio 2018

Cominetti e Tavosanis, The ICoN Corpus of Academic Written Italian (L1 and L2)

Per LREC 2018 a Miyazaki ho presentato (con poster) la versione completa del Corpus ICoN, realizzato assieme a Federica Cominetti. Il contributo si intitola The ICoN Corpus of Academic Written Italian (L1 and L2) ed è adesso disponibile negli Atti del Convegno LREC 2018, scaricabili integralmente – anche se il file è davvero ingombrante: 362Mb nella versione zippata!

Il contributo è appunto una descrizione completa, in inglese, del modo con cui è stato realizzato il corpus ICoN: al momento il più ampio corpus comparabile di produzioni scritte da italiani madrelingua e da apprendenti di italiano (con 41 diverse lingue madri). Il sottocorpus di testi di stranieri è infatti formato da 2.115.000 token, quello di testi di italiani da 1.769.000 token. Caratteristiche e statistiche del corpus sono presentate in dettaglio, e dal mio punto di vista questa presentazione è quella definitiva e di riferimento.

Una sezione dimostrativa del contributo presenta inoltre un saggio di analisi sull’uso delle collocazioni. L’analisi ha mostrato che “the most frequent multiword expressions included in the L1 and L2 sub-corpora tend to be the same”. Cioè che in sostanza, quando usano collocazioni, polirematiche e frasi idiomatiche, gli studenti stranieri lo fanno in modo molto simile a quello degli studenti italiani. Per esempio, le cinque espressioni nominali (“multiword nouns”) con il punteggio LMI più alto nelle produzioni di stranieri sono queste:

Punto di vista
Punto di riferimento
Essere umano
Stato d’animo
Mezzo di comunicazione

Le cinque corrispondenti nelle produzioni di italiani sono:

Punto di vista
Essere umano
Mezzo di comunicazione
Stato d’animo
Messa in scena

La cosa non era ovvia... e al tempo stesso, va notato i punteggi LMI sono più alti nei testi di stranieri: per esempio, “stato d’animo” ha LMI di 445 nei testi di stranieri, di 316 in quelli di italiani. A Miyazaki ho visto molto interesse nei confronti di questo tipo di analisi, e la cosa è particolarmente interessante perché gli studi italiani in materia mi sembrano molto più avanzati di quelli condotti per altre lingue, a cominciare dall’inglese.

Federica Cominetti e Mirko Tavosanis, The ICoN Corpus of Academic Written Italian (L1 and L2), Parigi, ELRA, 2018, ISBN 979-10-95546-00-9, pp. 4077-4083.

lunedì 20 aprile 2015

Bando assegno di ricerca per PRIN in Linguistica italiana

Per il PRIN di cui gestisco un’unità locale (“Modello B”) sono alla ricerca di candidati per un assegno di ricerca annuale in Linguistica italiana. Le competenze richieste riguardano in sostanza la capacità di analizzare linguisticamente corpora di testi di apprendenti (livello B2 o superiore). Il bando è disponibile sul sito dell’Università di Pisa; la scadenza, vicinissima, è il 27 aprile.

venerdì 21 novembre 2014

Prossimi appuntamenti

Un appunto al volo, visto che sono in trasferta... Nelle prossime settimane farò due presentazioni ad altrettanti convegni.

Si comincia subito con il IX convegno dell’Associazione per la Storia della lingua italiana (ASLI), dal 20 al 22 novembre a Napoli. Il tema del convegno è “L’italiano della politica e la politica per l’italiano”: io parteciperò oggi, venerdì 21, a una tavola rotonda (14:30-15:30) dedicata alla prima metà del tema, e più specificamente al linguaggio politico dei social network. Il mio intervento dovrebbe essere l’ultimo della serie e sarà dedicato a Il linguaggio della comunicazione politica su Facebook. Luogo, l’Aula Pessina dell’Università di Napoli “Federico II”, in Corso Umberto I, 40.

Il 9 e il 10 dicembre si terrà invece a Pisa la prima Conferenza Italiana di Linguistica Computazionale: CLiC-it 2014. Qui, il pomeriggio del 9 ottobre, dalle 16:30 alle 17:30 presenterò un poster dedicato a Il Corpus ICoN: una raccolta di elaborati di italiano L2 prodotti in ambito universitario. Seguirà la sessione poster. Luogo, l’auditorium del CNR.

martedì 17 settembre 2013

Valutare la varietà lessicale di un corpus

Non so se sia una strana serie di coincidenze o meno… però, negli ultimi mesi, mi è capitato di leggere diversi lavori di linguistica italiana (elaborati di studenti, ma anche contributi scientifici prodotti da esperti) che confrontano la varietà lessicale di corpus diversi usando un indicatore piuttosto strano: la percentuale dei lemmi che fanno parte del vocabolario di base.

A prima vista, il dato sembrerebbe pertinente. Il lessico italiano è molto esteso, ma il vocabolario di base dell’italiano, secondo gli studi di Tullio De Mauro, è composto da circa settemila parole, divise in tre fasce: lessico fondamentale, di alto uso (o alta frequenza) e di alta disponibilità (quest’ultimo è formato da parole che, come risulta dalle interviste, in pratica tutti gli italiani conoscono, anche se nei corpus compaiono con una frequenza bassissima… e già questo fatto dovrebbe invitare alla prudenza). Si dice spesso che le parole del vocabolario di base, per numero di forme, costituiscono qualcosa come il 96-98% di qualunque testo in lingua italiana: calcolate in questo modo, quindi, non dicono molto sulla differenza tra i diversi tipi di testo.

Valutare il lessico in base ai lemmi, cioè facendo contare per uno tutte le occorrenze di una parola, sia ad alta sia a bassa frequenza, sembrerebbe un modo più promettente per differenziare tipi di testo diversi. E, in effetti, lo è. Con questo sistema, il numero delle forme non interferisce e l’uso di parole meno comuni, e quindi la varietà lessicale, è più facile da evidenziare. C’è però una fortissima controindicazione: la presenza di parole meno comuni dipende in modo molto stretto dalle dimensioni del corpus! Ovviamente non c’è una regola unica – language is never, ever random – e le cose possono variare molto a seconda del tipo di testo con cui si ha a che fare, però, in moltissimi casi, allargando il corpus aumenta il numero di parole diverse al suo interno. La cosa è intuitiva: mentre il o che sono sicuramente presenti anche in corpus molto piccoli, più è grande il corpus, più è facile che contenga parole come pertinentizzazione o cornacchia…. In un certo senso, si tratta di un corollario della legge di Zipf.

In questa situazione, più numerosi sono i lemmi contenuti nel campione, meno elevata tenderà a essere la percentuale di essi riconducibile al vocabolario di base. Raggiunto il suo limite, poi, il vocabolario di base non cresce più! Se ho un corpus che contiene mille lemmi, può darsi benissimo che il 95% di questi lemmi rientri nel vocabolario di base. Se ho un corpus che contiene 14.000 lemmi, quelli che rientrano nel vocabolario di base potranno essere al massimo il 50% del totale, perché il vocabolario di base contiene come si è detto, solo settemila lemmi (contro le decine di migliaia contenuti nei dizionari monovolume della lingua italiana). Se ho un corpus che contiene 70.000 lemmi, la percentuale riconducibile al vocabolario di base potrà essere al massimo del 10%. E così via.

Per questo motivo non ha senso confrontare, per esempio, un corpus di 50 milioni di parole tratte da quotidiani e periodici con un corpus di 100.000 parole tratte da poesie, dire che la percentuale di lemmi provenienti dal vocabolario di base in un caso è il 10% e nell’altro il 30%, e dedurne che quotidiani e periodici hanno una maggiore varietà lessicale rispetto alle poesie. Il confronto, per essere sensato, deve essere per forza di cose relativo a corpus o sezioni di corpus di dimensioni omogenee. Dire che in un corpus la percentuale di lemmi provenienti dal vocabolario di base è X ha senso solo se si confronta questa percentuale con quella ricavabile da un altro corpus delle stesse dimensioni. Per esempio, un corpus giornalistico può essere confrontato su questa base con un corpus poetico se entrambi sono composti da 100.000 caratteri.

giovedì 15 novembre 2012

Istruzioni per il CORIS

Qualche mese fa, uno degli strumenti di ricerca più importanti per la linguistica italiana ha avuto un potenziamento spettacolare. Lo strumento è il gruppo di corpus che per brevità chiamerò CORIS nel suo assieme, ma che in realtà corrisponde a diversi prodotti:

Non sto ora a spiegare in dettaglio l’importanza di queste raccolte di materiali: diciamo solo che sono una delle più importanti fonti di informazioni sull’italiano scritto moderno e contemporaneo. Una ricerca al loro interno permette per esempio di vedere se una determinata costruzione grammaticale è usata o non usata, in quali percentuali è usata, e infinite altre cose.

Fino a qualche mese fa l’accesso al materiale richiedeva una registrazione (gratuita). Adesso nome utente e password non sono più richiesti, e già questo fatto rende il prodotto infinitamente più accessibile, sia agli studenti sia ai ricercatori - l’accesso è concesso esclusivamente per scopi di ricerca scientifica.

Seconda novità, i testi del CORIS sono stati lemmatizzati. Il che significa, per esempio, che tutte le forme del verbo essere adesso possono essere ricercate in un colpo solo, senza dover cercare separatamente sono, sei, e così via.

Terza novità: ai preesistenti CORIS e CODIS è stato aggiunto un corpus diacronico, il DiaCORIS, che fornisce campioni a partire dal 1861.

Descrivere in pieno le caratteristiche del CORIS richiederebbe molto spazio. Lavorando però, prima della partenza, con studenti e laureandi italiani, ho notato che un ostacolo immediato all’uso dei materiali è dato dalla documentazione. Il linguaggio di ricerca usato sul sito è infatti presentato solo in inglese (il che non dovrebbe essere un problema…) e in forma molto sintetica. Inoltre, il sistema di ricerca è in parte variato rispetto a quello usato negli anni scorsi. Infine, il linguaggio di ricerca usato è CQP, e il sito rinvia correttamente al relativo tutorial per una documentazione completa, ma mi sembra che realizzi poi alcune funzioni in modo diverso dallo standard. Per esempio, CQP prevede che le stringhe da ricercare possano essere inserite sia tra apici doppi, sia tra apici singoli, ma nel caso del CORIS mi pare che funzionino solo gli apici doppi.

Io ho fatto un po’ di prove, e mi sembra utile mettere in linea qui sotto una breve guida in italiano sia al linguaggio di interrogazione sia al modo di presentazione dei risultati. Lascio fuori per il momento le parti relative alla ricerca lemmatizzata, che però, partendo da questa base e dalle istruzioni presentate sul sito, dovrebbero essere quasi intuitive.

Linguaggio di interrogazione

Punto di partenza: la parola. Nel corpus si può eseguire solo la ricerca per parole intere, o meglio, per stringhe contenute all’interno di apici doppi (mentre non vanno bene le virgolette generate da molti programmi di scrittura… quindi occhio al copia e incolla!) e prive di spazi. Di conseguenza, ricercare che non produce risultati: occorre scrivere "che".

Nota importante: questo sistema di interrogazione funziona solo per parole intere, e non permette la ricerca per sottostringhe. In sostanza, cioè, "che" non restituisce chele. E, no, l’asterisco non funziona… anche se io, inserendolo, ottengo risultati un po’ strani e non documentati: per esempio, se scrivo "ch*" vengono ritrovate non le parole che cominciano per ch- ma le parole composte unicamente dalla lettera c, come in questo esempio:

ma non <c>' era da preoccuparsi.

Non è possibile nemmeno inserire due o più parole all’interno della stessa coppia di virgolette: "che le" non restituisce nulla. Le parole devono essere inserite all’interno di diverse coppie di virgolette e accostate l’una all’altra, in questo modo:

"che" "le"

A differenza della versione precedente del linguaggio, non occorre quindi inserire operatori di concatenazione (tipo un “+”) tra le due parole: basta scriverle una dopo l’altra. Le parole però vengono trovate solo se compaiono nelle sequenza indicata (quindi "mia" "casa" restituisce “mia casa” ma non “casa mia”).

In una ricerca si possono indicare più alternative usando le parentesi tonde e la barra verticale. Per esempio, questa ricerca:

"il" ("mio" | "suo") "amico"

… ritrova sia “il mio amico” sia “il suo amico”.

Sembra invece scomparsa la possibilità di usare l’asterisco come sostituto di una parola intera, presente nella precedente versione. A dire il vero, però, scrivendo

"il" * "nome"

… si ottengono sia occorrenze di nome semplice, sia occorrenze di “il nome” (ma non di “il” semplice); non si trova invece “il suo nome” o simili. Quindi sembra che l’asterisco qui operi con la stessa funzione della barra verticale.

Risultati simili a quelli che si avevano con l’asterisco si ottengono però con l’ultima funzione descritta nelle istruzioni. Usando comandi di questo tipo:

"word1" []{0,AFT} "word2"

… le istruzioni dicono che il sistema “Retrieve all the occurrences of word2 in the context following the word word2”. In effetti, questo non è molto chiaro… Diciamo che i due valori messi tra parentesi graffe e separati da virgola indicano quante parole devono essere presenti, al minimo e al massimo, tra la parola inserita come “word1” e quella inserita come “word2”. Quindi:

"il" []{0,0} "nome" fornisce come risultati solo le sequenze “il nome"
"il" []{0,1} "nome" fornisce come risultati sia “il nome” sia “il suo nome”, “il vostro nome”, eccetera
"il" []{1,1} "nome" fornisce come risultati solo quelli del tipo “il suo nome” (ma non “il nome”)
"il" []{0,2} "nome" fornisce come risultati solo quelli del tipo “il suo vero nome” (ma non “il nome” o “il suo nome”)

… e così via, combinando i due numeri a piacimento. Non mi sembra ci sia nemmeno un limite superiore, nel senso che io ho provato a fare la ricerca indicando anche come intervallo {20,20} e ho ottenuto comunque risultati – anche se, certo, non risultati linguisticamente significativi!

Altra variazione: adesso la ricerca di default è case sensitive, ma per renderla case insensitive basta aggiungere %c alla parola ricercata, subito dopo le virgolette e senza spazi in mezzo.

Infine, le istruzioni attuali non includono un’altra informazione importante: i segni di punteggiatura e i simboli vengono trattati come parole. Quindi, per cercare “ma, in” occorre scrivere "ma" "," "in", mettendo anche la virgola tra doppi apici.

Risultati

I dati vengono restituiti sotto forma di concordanze KWIC, fino a un massimo di 1000 (o, in alternativa, un massimo di 30, default, o 100, o 300). Nel caso che le concordanze nel corpus siano più del massimo impostato, se ne vede solo un campione. Sembra scomparsa la possibilità di scegliere il modo per realizzare il campione, che nella precedente versione del corpus poteva essere determinata dall’utente scegliendo tra due criteri: “1 every n-h” o “Random”. Non è indicato quale dei due criteri venga utilizzato adesso (immagino comunque il primo).

Allo stesso modo, è scomparsa la possibilità di indicare l’ampiezza del contesto: adesso vengono forniti solo i 30 caratteri precedenti e i 30 caratteri seguenti. Sia questa opzione sia quella precedente sono comunque ancora attive nel CODIS.

Per ogni risultato viene fornita l’indicazione del sottocorpus di provenienza (ma non del testo di provenienza.

Il menu a tendina “Unsorted” dà la possibilità di non presentare in ordine alfabetico le concordanze (default) o di ordinarle in base alle parole a destra e a sinistra della forma cercata (fino a un massimo di 4 parole). Anche in questo caso i segni di punteggiatura vengono trattati come parole a sé stanti.

Le collocazioni possono essere ottenute o non ottenute (default). Se si richiedono le collocazioni, non è piu possibile scegliere se averle “before reduction” o “after reduction” (estraendo i collocati dai contesti dei nodi prima o dopo della riduzione delle occorrenze, calcolandoli cioè su TOT contesti oppure su K). Il sistema non precisa quale delle due impostazioni sia applicata adesso.

Per quanto riguarda il metodo di calcolo delle collocazioni, sapevo (su indicazione di Fabio Tamburini) che la mutual information veniva ricavata secondo la formula:

MI = 100 * log2 f(node,collocate)*DimCorpus / (f(node)*f(collocate))

Il T-score veniva invece calcolato secondo la formula:

Tscore = 100 * (f(node,colloc) - f(node)*f(colloc)/DimCorpus) / sqrt(f(node,colloc))

Le formule erano tratte da M. Stubbs (1995), “Collocations and semantic profiles”, Functions of Language, 2, 1, pp. 23-55. Immagino che anche con l’aggiornamento del sito siano rimaste invariate.

venerdì 25 giugno 2010

Recensione: Corpus linguistics and the web

Una mia breve (3 pagine) recensione del libro Corpus linguistics and the web è stata pubblicata dalla rivista Language resources and evaluation (volume 44, n. 3, settembre 2010, pp. 291-293).

Cosa un po' curiosa per una pubblicazione elettronica, per una serie di eventi la recensione non è troppo di attualità: il libro recensito è uscito nel 2007 e a sua volta presentava contributi realizzati per un convegno del 2003; e, sull'argomento, una distanza di questo tipo pesa! Comunque, più che gli stessi contenuti, in questo caso mi sembra interessante segnalare un po' di aspetti collegati alla pubblicazione.

Innanzitutt, l'accesso è a pagamento, il che significa che chi si collega alla rivista da un'istituzione che ha attivato l'abbonamento al pacchetto di riviste Springer (per esempio, la rete universitaria di Pisa) può leggere e scaricare l'articolo senza problemi, mentre chi si collega in altro modo ha solo la possibilità di acquistare l'accesso pagando 34 dollari. Le condizioni di pubblicazione prevedono però che l'autore possa autoarchiviarsi una copia del Pdf (cosa che ho subito fatto), e metterlo a disposizione in qualche forma (e su questo, ho bisogno di studiarmi la documentazione...).

In secondo luogo, anche la recensione è doverosamente dotata di un suo DOI: 10.1007/s10579-010-9119-7. Il che significa che, inserendo il DOI in un risolutore di DOI, come per esempio mEDRA, si viene rinviati senza problemi all'articolo; e che programmi come Zotero permettono di archiviare automaticamente i dati bibliografici. La generalizzazione dei DOI in questi ultimi anni mi sembra un notevole passo avanti nella gestione della bibliografia scientifica! Al punto che incomincia a sembrare faticoso andare a ricostruire i dati dei vecchi contributi a stampa.

venerdì 26 marzo 2010

Recensione: Corpus linguistics and the web

Sulla rivista Language resources and evaluation è uscita (per ora solo nella sezione Online first) la mia recensione al libro Corpus linguistics and the web. Al momento il testo non è accessibile se non dall'interno di istituzioni abbonate, a parte una pagina di presentazione... il che, peraltro, è un terzo del testo (tre pagine in tutto).

La recensione oggettivamente è un po' invecchiata: l'avevo scritta nel 2007, per un libro che raccoglieva contributi presentati inizialmente a un convegno del 2004 (!). Però, mentre il web evolve in fretta, gli studi specialistici nel settore sono pochi - e quindi un po' di attualità si è mantenuta.