Linguaggio e scrittura: Valutare la varietà lessicale di un corpus

martedì 17 settembre 2013

Valutare la varietà lessicale di un corpus

Non so se sia una strana serie di coincidenze o meno… però, negli ultimi mesi, mi è capitato di leggere diversi lavori di linguistica italiana (elaborati di studenti, ma anche contributi scientifici prodotti da esperti) che confrontano la varietà lessicale di corpus diversi usando un indicatore piuttosto strano: la percentuale dei lemmi che fanno parte del vocabolario di base.

A prima vista, il dato sembrerebbe pertinente. Il lessico italiano è molto esteso, ma il vocabolario di base dell’italiano, secondo gli studi di Tullio De Mauro, è composto da circa settemila parole, divise in tre fasce: lessico fondamentale, di alto uso (o alta frequenza) e di alta disponibilità (quest’ultimo è formato da parole che, come risulta dalle interviste, in pratica tutti gli italiani conoscono, anche se nei corpus compaiono con una frequenza bassissima… e già questo fatto dovrebbe invitare alla prudenza). Si dice spesso che le parole del vocabolario di base, per numero di forme, costituiscono qualcosa come il 96-98% di qualunque testo in lingua italiana: calcolate in questo modo, quindi, non dicono molto sulla differenza tra i diversi tipi di testo.

Valutare il lessico in base ai lemmi, cioè facendo contare per uno tutte le occorrenze di una parola, sia ad alta sia a bassa frequenza, sembrerebbe un modo più promettente per differenziare tipi di testo diversi. E, in effetti, lo è. Con questo sistema, il numero delle forme non interferisce e l’uso di parole meno comuni, e quindi la varietà lessicale, è più facile da evidenziare. C’è però una fortissima controindicazione: la presenza di parole meno comuni dipende in modo molto stretto dalle dimensioni del corpus! Ovviamente non c’è una regola unica – language is never, ever random – e le cose possono variare molto a seconda del tipo di testo con cui si ha a che fare, però, in moltissimi casi, allargando il corpus aumenta il numero di parole diverse al suo interno. La cosa è intuitiva: mentre il o che sono sicuramente presenti anche in corpus molto piccoli, più è grande il corpus, più è facile che contenga parole come pertinentizzazione o cornacchia…. In un certo senso, si tratta di un corollario della legge di Zipf.

In questa situazione, più numerosi sono i lemmi contenuti nel campione, meno elevata tenderà a essere la percentuale di essi riconducibile al vocabolario di base. Raggiunto il suo limite, poi, il vocabolario di base non cresce più! Se ho un corpus che contiene mille lemmi, può darsi benissimo che il 95% di questi lemmi rientri nel vocabolario di base. Se ho un corpus che contiene 14.000 lemmi, quelli che rientrano nel vocabolario di base potranno essere al massimo il 50% del totale, perché il vocabolario di base contiene come si è detto, solo settemila lemmi (contro le decine di migliaia contenuti nei dizionari monovolume della lingua italiana). Se ho un corpus che contiene 70.000 lemmi, la percentuale riconducibile al vocabolario di base potrà essere al massimo del 10%. E così via.

Per questo motivo non ha senso confrontare, per esempio, un corpus di 50 milioni di parole tratte da quotidiani e periodici con un corpus di 100.000 parole tratte da poesie, dire che la percentuale di lemmi provenienti dal vocabolario di base in un caso è il 10% e nell’altro il 30%, e dedurne che quotidiani e periodici hanno una maggiore varietà lessicale rispetto alle poesie. Il confronto, per essere sensato, deve essere per forza di cose relativo a corpus o sezioni di corpus di dimensioni omogenee. Dire che in un corpus la percentuale di lemmi provenienti dal vocabolario di base è X ha senso solo se si confronta questa percentuale con quella ricavabile da un altro corpus delle stesse dimensioni. Per esempio, un corpus giornalistico può essere confrontato su questa base con un corpus poetico se entrambi sono composti da 100.000 caratteri.