Visualizzazione post con etichetta De Mauro. Mostra tutti i post
Visualizzazione post con etichetta De Mauro. Mostra tutti i post

martedì 17 settembre 2013

Valutare la varietà lessicale di un corpus

 
 
Non so se sia una strana serie di coincidenze o meno… però, negli ultimi mesi, mi è capitato di leggere diversi lavori di linguistica italiana (elaborati di studenti, ma anche contributi scientifici prodotti da esperti) che confrontano la varietà lessicale di corpus diversi usando un indicatore piuttosto strano: la percentuale dei lemmi che fanno parte del vocabolario di base.
 
A prima vista, il dato sembrerebbe pertinente. Il lessico italiano è molto esteso, ma il vocabolario di base dell’italiano, secondo gli studi di Tullio De Mauro, è composto da circa settemila parole, divise in tre fasce: lessico fondamentale, di alto uso (o alta frequenza) e di alta disponibilità (quest’ultimo è formato da parole che, come risulta dalle interviste, in pratica tutti gli italiani conoscono, anche se nei corpus compaiono con una frequenza bassissima… e già questo fatto dovrebbe invitare alla prudenza). Si dice spesso che le parole del vocabolario di base, per numero di forme, costituiscono qualcosa come il 96-98% di qualunque testo in lingua italiana: calcolate in questo modo, quindi, non dicono molto sulla differenza tra i diversi tipi di testo.
 
Valutare il lessico in base ai lemmi, cioè facendo contare per uno tutte le occorrenze di una parola, sia ad alta sia a bassa frequenza, sembrerebbe un modo più promettente per differenziare tipi di testo diversi. E, in effetti, lo è. Con questo sistema, il numero delle forme non interferisce e l’uso di parole meno comuni, e quindi la varietà lessicale, è più facile da evidenziare. C’è però una fortissima controindicazione: la presenza di parole meno comuni dipende in modo molto stretto dalle dimensioni del corpus! Ovviamente non c’è una regola unica – language is never, ever random – e le cose possono variare molto a seconda del tipo di testo con cui si ha a che fare, però, in moltissimi casi, allargando il corpus aumenta il numero di parole diverse al suo interno. La cosa è intuitiva: mentre il o che sono sicuramente presenti anche in corpus molto piccoli, più è grande il corpus, più è facile che contenga parole come pertinentizzazione o cornacchia…. In un certo senso, si tratta di un corollario della legge di Zipf.
 
In questa situazione, più numerosi sono i lemmi contenuti nel campione, meno elevata tenderà a essere la percentuale di essi riconducibile al vocabolario di base. Raggiunto il suo limite, poi, il vocabolario di base non cresce più! Se ho un corpus che contiene mille lemmi, può darsi benissimo che il 95% di questi lemmi rientri nel vocabolario di base. Se ho un corpus che contiene 14.000 lemmi, quelli che rientrano nel vocabolario di base potranno essere al massimo il 50% del totale, perché il vocabolario di base contiene come si è detto, solo settemila lemmi (contro le decine di migliaia contenuti nei dizionari monovolume della lingua italiana). Se ho un corpus che contiene 70.000 lemmi, la percentuale riconducibile al vocabolario di base potrà essere al massimo del 10%. E così via.
 
Per questo motivo non ha senso confrontare, per esempio, un corpus di 50 milioni di parole tratte da quotidiani e periodici con un corpus di 100.000 parole tratte da poesie, dire che la percentuale di lemmi provenienti dal vocabolario di base in un caso è il 10% e nell’altro il 30%, e dedurne che quotidiani e periodici hanno una maggiore varietà lessicale rispetto alle poesie. Il confronto, per essere sensato, deve essere per forza di cose relativo a corpus o sezioni di corpus di dimensioni omogenee. Dire che in un corpus la percentuale di lemmi provenienti dal vocabolario di base è X ha senso solo se si confronta questa percentuale con quella ricavabile da un altro corpus delle stesse dimensioni. Per esempio, un corpus giornalistico può essere confrontato su questa base con un corpus poetico se entrambi sono composti da 100.000 caratteri.
 

martedì 9 marzo 2010

De Mauro, La cultura degli italiani


Pochi mesi fa è uscita la versione aggiornata del libro-intervista di Francesco Erbani a Tullio De Mauro (Laterza, 2010). Il testo originale era uscito nel 2004; l'aggiornamento consiste in poco più di trenta pagine (233-266) che diventano il tredicesimo capitolo, "La cultura degli italiani, cinque anni dopo". Anche la sezione già pubblicata è, ovviamente, interessante; ma vale la pena dire qualcosa di più sulla sezione aggiunta

Sia nell'aggiornamento sia nel testo, De Mauro insiste molto sul concetto allargato, in senso antropologico, di cultura. Al di là della linguistica, e al di là anche del perimetro della scuola. La distanza tra l'Italia e altri paesi europei, vistosa per quanto riguarda alcune pratiche intellettuali (incluse la lettura e la scrittura), si riduce molto se si esaminano le cose da questo punto di vista - come del resto, a livello di aneddoto, capita a molti di verificare di persona. La rassegna che fa De Mauro, in rapporto a uno studio della Fondazione Mondo Digitale, include quindi tra le attività "culturali" da tener d'occhio non solo le visite ai musei o la capacità di suonare strumenti musicali, ma anche la cura di uno orto o giardino, la manutenzione di un'auto o di una bicicletta (p. 244), o più in generale il livello della cucina e dell'igiene. Di solito nei confronti internazionali si guarda solo una faccia della medaglia, e invece le facce sono diverse.

Su alcuni punti più specifici, dall'importanza dell'educazione degli adulti alla necessità di interventi pubblici, De Mauro dice cose che è difficile non condividere. Sulla percentuale di investimenti che è ragionevole dedicare alla formazione sarebbe stato utile, viceversa, entrare un po' più in dettaglio. Erbani, in una domanda, cita un'opinione di Ignazio Visco, secondo cui "un anno di istruzione in più per la media dei lavoratori comporterebbe un aumento del prodotto pro capite del 5 per cento" (p. 250). Possibile, ma occorrerebbe anche precisare che in una vita lavorativa media (diciamo quarant'anni?) un anno di lavoro in meno corrisponde a un 2,5% di lavoro in meno. Senza contare il fatto che, sì, per il singolo individuo l'aumento dell'istruzione può essere rilevante sul lungo periodo, ma l'investimento in uno o più anni di studio va fatto di solito in blocco - cioè, si ha una perdita sicura a fronte di un ritorno probabile ma non del tutto certo.

Considerazioni a raggio tanto largo hanno un interesse linguistico? Secondo De Mauro, senza dubbio: "Cercare di capire come si articola oggi la cultura degli italiani è, a mio avviso, un pezzo importante dell'analisi della lingua italiana d'oggi" (p. 260). Opinioni più specialistiche sono comunque dedicate alla diffusione della lingua comune, che può essere usata dal 90% della popolazione ("Una convergenza del genere non si era mai vista nella nostra storia": p. 261), senza per questo cancellare i dialetti.

Il libro e l'aggiornamento si chiudono, infine, con il problema dell'educazione linguistica: mettere il maggior numero possibile di persone in grado di usare l'italiano "a pieno regime", oggi, nel parlato e nello scritto, continua a essere un obiettivo fondamentale. E, aggiungo (io sono un po' di parte...), se si può avere qualche incertezza sull'utilità dell'educazione letteraria, o artistica, non penso si possano avere dubbi sull'importanza di un miglioramento delle capacità di lettura e scrittura. Fino almeno al superamento di una soglia critica, che per me si identifica con la capacità di scrivere una relazione chiara, leggibile e documentata su un argomento tecnico o specialistico.
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.