Linguaggio e scrittura: linguistica computazionale

martedì 17 settembre 2013

Valutare la varietà lessicale di un corpus

Non so se sia una strana serie di coincidenze o meno… però, negli ultimi mesi, mi è capitato di leggere diversi lavori di linguistica italiana (elaborati di studenti, ma anche contributi scientifici prodotti da esperti) che confrontano la varietà lessicale di corpus diversi usando un indicatore piuttosto strano: la percentuale dei lemmi che fanno parte del vocabolario di base.

A prima vista, il dato sembrerebbe pertinente. Il lessico italiano è molto esteso, ma il vocabolario di base dell’italiano, secondo gli studi di Tullio De Mauro, è composto da circa settemila parole, divise in tre fasce: lessico fondamentale, di alto uso (o alta frequenza) e di alta disponibilità (quest’ultimo è formato da parole che, come risulta dalle interviste, in pratica tutti gli italiani conoscono, anche se nei corpus compaiono con una frequenza bassissima… e già questo fatto dovrebbe invitare alla prudenza). Si dice spesso che le parole del vocabolario di base, per numero di forme, costituiscono qualcosa come il 96-98% di qualunque testo in lingua italiana: calcolate in questo modo, quindi, non dicono molto sulla differenza tra i diversi tipi di testo.

Valutare il lessico in base ai lemmi, cioè facendo contare per uno tutte le occorrenze di una parola, sia ad alta sia a bassa frequenza, sembrerebbe un modo più promettente per differenziare tipi di testo diversi. E, in effetti, lo è. Con questo sistema, il numero delle forme non interferisce e l’uso di parole meno comuni, e quindi la varietà lessicale, è più facile da evidenziare. C’è però una fortissima controindicazione: la presenza di parole meno comuni dipende in modo molto stretto dalle dimensioni del corpus! Ovviamente non c’è una regola unica – language is never, ever random – e le cose possono variare molto a seconda del tipo di testo con cui si ha a che fare, però, in moltissimi casi, allargando il corpus aumenta il numero di parole diverse al suo interno. La cosa è intuitiva: mentre il o che sono sicuramente presenti anche in corpus molto piccoli, più è grande il corpus, più è facile che contenga parole come pertinentizzazione o cornacchia…. In un certo senso, si tratta di un corollario della legge di Zipf.

In questa situazione, più numerosi sono i lemmi contenuti nel campione, meno elevata tenderà a essere la percentuale di essi riconducibile al vocabolario di base. Raggiunto il suo limite, poi, il vocabolario di base non cresce più! Se ho un corpus che contiene mille lemmi, può darsi benissimo che il 95% di questi lemmi rientri nel vocabolario di base. Se ho un corpus che contiene 14.000 lemmi, quelli che rientrano nel vocabolario di base potranno essere al massimo il 50% del totale, perché il vocabolario di base contiene come si è detto, solo settemila lemmi (contro le decine di migliaia contenuti nei dizionari monovolume della lingua italiana). Se ho un corpus che contiene 70.000 lemmi, la percentuale riconducibile al vocabolario di base potrà essere al massimo del 10%. E così via.

Per questo motivo non ha senso confrontare, per esempio, un corpus di 50 milioni di parole tratte da quotidiani e periodici con un corpus di 100.000 parole tratte da poesie, dire che la percentuale di lemmi provenienti dal vocabolario di base in un caso è il 10% e nell’altro il 30%, e dedurne che quotidiani e periodici hanno una maggiore varietà lessicale rispetto alle poesie. Il confronto, per essere sensato, deve essere per forza di cose relativo a corpus o sezioni di corpus di dimensioni omogenee. Dire che in un corpus la percentuale di lemmi provenienti dal vocabolario di base è X ha senso solo se si confronta questa percentuale con quella ricavabile da un altro corpus delle stesse dimensioni. Per esempio, un corpus giornalistico può essere confrontato su questa base con un corpus poetico se entrambi sono composti da 100.000 caratteri.

giovedì 31 maggio 2012

Ontologie a Istanbul

Presentatori (un po' stravolti), poster – e dietro il finestrone, l’imbocco del Bosforo

La settimana scorsa sono stato a Istanbul per il LREC: uno dei principali convegni nel settore della linguistica computazionale. Lì, Elisa Bianchi e io abbiamo presentato sotto forma di poster un contributo scritto assieme a Emiliano Giovannetti e già in linea nei Proceedings (uno dei vantaggi delle conferenze del settore è che gli atti vengono pubblicati durante il convegno, e non anni e anni dopo; e i contributi pubblicati sono diverse centinaia!).

Il lavoro si intitola Creation of a bottom-up corpus-based ontology for Italian Linguistics (pp. 2641-2647)e descrive un meccanismo già funzionante: un’ontologia usata per il query refinement su un metamotore di ricerca. Mi sembra un lavoro di discreto interesse dal punto di vista tecnico, e che adesso sarebbe utile mettere alla prova in modo sistematico – per vedere se, davvero, ontologie di questo tipo possono aiutare con le query.

Al di là di questo, il convegno è stato molto interessante. Io sospetto che il settore si sia dedicato negli anni alla realizzazione di strumenti molto complessi e sofisticati, ma che abbia lasciato da parte la questione della loro utilità pratica – sia nella pratica, sia nella ricerca (linguistica, per esempio). Le conversazioni del LREC, e qualche presentazione, mi fanno pensare che questo sospetto si stia diffondendo; se così fosse, e se davvero c’è una massa di lavoro che aspetta solo di essere raccordato con ciò che richiedono altri settori, i prossimi anni potrebbero essere molto interessanti...

In attesa degli sviluppi, comunque, niente di meglio dei CCCP per meditare un pochino: