lunedì 19 novembre 2012

Grieve e altri, Variation among blogs

 
All’interno del già citato Genres on the web, uno dei primi capitoli che ho letto è il quattordicesimo, firmato da Jack Grieve, Douglas Biber, Eric Friginal e Tatiana Negrasova: Variation among blogs: a mult-dimensional analysis (pp. 303-322, DOI 10.1007/978-90-481-9178-9_14, autore per la corrispondenza Jack Grieve). Naturalmente, qui è anche questione di interesse diretto. Mi sembra infatti che la mia analisi e classificazione del linguaggio dei blog italiani, che forma il settimo capitolo del mio libro sull’Italiano del web (pp. 141-169), da un lato sia ancora il contributo italiano più completo sull’argomento, dall’altro abbia un gran bisogno di aggiornamenti, visto che il materiale su cui si basa proviene dalle ricerche che ho fatto tra il 2007 e il 2008, prima che Facebook si abbattesse sull’Italia distruggendo (probabilmente) l’intera categoria dei blog-diario.
 
Purtroppo, sul fronte degli aggiornamenti il contributo di Grieve e altri non dà aiuto. I post raccolti risalgono infatti, sembra, al periodo 2003-2005 (p. 305), e il testo in sé sembra essere stato scritto entro il 2008 (o perlomeno, la bibliografia si ferma al 2007). Pazienza: in questo caso l’interesse è soprattutto dovuto alla metodologia di analisi, che si basa naturalmente sui lavori di Biber e ha fatto ampio ricorso agli strumenti della linguistica computazionale.
 
Il campione sui cui si è basato il lavoro è un corpus di oltre due milioni di parole estratto da 500 blog americani, e per la precisione 10 per ogni stato dell’Unione. La procedura non è stata casuale, perché “blogs were selected so as to obtain as even a distribution as possible across age and gender” (p. 308). Il che, viene detto, è stato fatto per esaminare le differenze tra le diverse fasce demografiche – lavoro che poi però è stato abbandonato. Nessun problema, ma noto che probabilmente un campionamento di questo tipo avrà dato ad alcune fasce demografiche uno spazio molto superiore alla loro presenza effettiva nel mondo dei blog: non ci sono informazioni in merito, ma è probabile che i maschi anziani siano stati, per esempio, sovrarappresentati.
 
L’unità di misura è stata comunque il blog, non il post. Scelta anche questa perfettamente sensata, in molti tipi di analisi, ma che secondo me porta a sottovalutare le differenze dal punto di vista del lettore. Molti blog usano infatti un certo stile con coerenza, ma altri (una minoranza, direi) cambiano sensibilmente il linguaggio da un post all’altro.
 
Il punto chiave del lavoro comunque è stata l’analisi linguistica automatica. Gli autori hanno misurato all’interno del corpus 131 la distribuzione di tratti linguistici (per esempio, “verbs, private verbs… contraction, stranded prepositions, split auxiliaries…”: la lista completa è alle pp. 320-321) e su questa base hanno eseguito un’analisi dei fattori, identificando quattro blocchi (“dimensions”) di complessivi 54 tratti che compaiono frequentemente assieme. Le “dimensions” sono (combinando le informazioni fornite alle pp. 308 e 320):
  1. opposizione tra “informational” e “personal focus” (alcuni tratti presi in considerazione: presenza di forme enfatiche, verbi di attività, pronomi di prima persona…) 
  2. addresse focus (alcuni tratti presi in considerazione: verbi al presente o al passato, pronomi di seconda persona…) 
  3. thematic variation (alcuni tratti presi in considerazione: pronomi dimostrativi, avverbi che esprimono probabilità…) 
  4. narrative style (alcuni tratti presi in considerazione: subordinate con verbi fattitivi introdotte da that , sostantivi, aggettivi con valore attributivo…) 
Su questa base gli autori analizzano il corpus in termini di “text type”, un interessante concetto introdotto, credo, da Biber stesso e basato solo sulle caratteristiche linguistiche dei testi, escludendo le caratteristiche non-linguistiche pertinenti invece per i registri (p. 315; all’integrazione di questo concetto con quello di genere testuale viene dedicata solo una nota a piè di pagina). Basandosi su “an analysis of peaks in the clustering criterion and the pseudo-F statistic”, gli autori individuano quindi come “optimal solution” tre “cluster” di blog (p. 316): sull’aspetto statistico non ho competenze, ma i gruppi identificati sono interessanti (pp. 317-319):
  1. blog con “a clear personal focus”: personal diary blog 
  2. molto rari (solo 27 in tutto il campione), blog “highly impersonal and informational” expert blog type 
  3. blog caratterizzati da “an informational style” ma che spesso “use a personal voice to discuss and offer opinions on impersonal topics” commentary blog type 
Come dicono gli autori:

It was therefore concluded that there are two basic types of blogs: personal blogs and thematic blogs. This finding confirm common assumptions about blog registers (p. 320). 

Indeed… Anch’io ho usato la spaccatura tra “personale” e “tematico” come punto di riferimento fondamentale per le mie classificazioni. Sono quindi lieto che questa procedura formalizzata e basata su analisi statistiche confermi in sostanza ciò che io e diversi altri abbiamo ricavato da una semplice lettura e classificazione soggettiva dei testi (e d’altra parte, mi chiedo: se fosse saltato fuori qualcosa di diverso, e di invisibile ai lettori umani, non sarebbe stato il caso di mettere in discussione il senso dell’analisi statistica dei tratti?). E anch’io avevo distinto su base linguistica un terzo e minoritario gruppo rispetto ai due dominanti: nel mio caso, però, si trattava di quello dei blog con linguaggio letterario, più che enciclopedico e specialistico (pp. 163-169 del mio libro). D’altra parte, la presenza e la composizione di questi sottogruppi potrebbe proprio essere una delle caratteristiche che distinguono le “blogosfere” delle diverse culture (come ipotizzavo a p. 169): non c’è dubbio che sembri conforme ai luoghi comuni il fatto che in Italia si trovano tante persone che pubblicano sul blog le proprie poesie, e negli Stati Uniti tante persone che scrivono “in very formal and impersonal style” con lo scopo di “convey information on a particular topic” e quindi producono testi che “read like newspaper and academic articles because of their similar communicative goals” (p. 319).

A lettura finita, devo dire poi che mi sento molto stimolato a cercare di rimetter mano alla vecchia questione dei blog. Insomma, è vero che oggi i blog diario sono praticamente scomparsi? O perlomeno che la loro funzione si è ridimensionata? La risposta a queste domande, sembra, non la sa nessuno (o se qualcuno la sa, la tiene ben nascosta); l’unica cosa da fare, quindi, è incominciare a prendere appunti, raccogliere un corpus aggiornato e verificare di persona.
 

Nessun commento:

Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.