venerdì 11 ottobre 2024

Tavosanis, Valutare la qualità dei testi generati in lingua italiana

 
L’ho scritto a inizio settimana parlando di Co-Intelligence di Ethan Mollick: capire che cosa sanno fare o meno le cosiddette “intelligenze artificiali generative” non è affatto intuitivo. Di qui la centralità della valutazione dei loro prodotti.
 
Un mio contributo sull’argomento è stato pubblicato questa estate dalla rivista “AI-Linguistica” e ha come titolo, appunto, Valutare la qualità dei testi generati in lingua italiana. È anche un contributo piuttosto lungo, perché per arrivare alla valutazione di questi testi occorre fare un buon numero di premesse.
 
Uno dei motivi per cui le premesse sono necessarie è che non esiste un metodo collaudato per valutare i testi prodotti in questo modo. Esistono, certamente, diverse tradizioni di valutazione dei testi, praticate da gruppi diversi di persone: quella scolastica, quella del mondo della traduzione umana, quella della comunità della traduzione automatica, quella del testing linguistico… Ognuna di esse fornisce contributi interessanti. Nessuna di esse però, a mio giudizio, può essere adottata pari pari per la valutazione dei testi generati dalle intelligenze artificiali generative (ChatGPT e simili, insomma).
 
Di una cosa però sono sicuro: in questa fase, la valutazione dei testi delle intelligenze artificiali generative deve essere necessariamente una valutazione fatta da esseri umani competenti. Non esistono scorciatoie: non ci sono sistemi automatici o crowdsourcing che possano sostituire il lavoro di chi può dire se un’espressione è accettabile o meno nell’uso professionale. Le competenze linguistiche e filologiche sono indispensabili per riuscire a comprendere e valutare correttamente questi testi.
 
Aggiungo che non si tratta di un’idea a priori: è la conclusione cui sono arrivato dopo aver provato in modo sistematico le alternative e aver visto che, semplicemente, forniscono risultati molto meno validi rispetto alla valutazione di esseri umani competenti. I dettagli sugli esperimenti che mi portano a questa conclusione saranno presentati nei prossimi mesi in alcuni contributi in uscita, ma il quadro d’assieme è ben chiaro – e in linea con tutto ciò che sappiamo (ma spesso dimentichiamo) sulla valutazione.
 
Mirko Tavosanis, Valutare la qualità dei testi generati in lingua italiana, “AI-Linguistica” 1, 1, 2024, pp. 1-24. https://doi.org/10.62408/ai-ling.v1i1.14
 

martedì 8 ottobre 2024

Mollick, Co-Intelligence

 
Sicuramente, una delle cose che rendono difficile comprendere il funzionamento delle “intelligenze artificiali generative” (ChatGPT è simili) è il fatto che le loro capacità sono ben poco intuitive. In particolare, sono capaci di eseguire bene compiti sorprendenti e difficili, ma non sono capaci di eseguirne altri che sembrerebbero invece semplici.
 
Questa constatazione è ovviamente centrale per molte riflessioni. È anche uno dei nuclei alla base di un libro recente, Co-Intelligence di Ethan Mollick. Una delle definizioni più interessanti contenute nel libro è infatti quella che descrive i limiti delle capacità delle intelligenze artificiali generative come una “Jagged Frontier” (p. 46): una frontiera frastagliata, con molte sporgenze e rientranze, e che oltretutto ha confini invisibili. Solo un’esplorazione attenta, a opera di molte persone diverse, può individuare questi confini con una serie di tentativi ed errori.
 
Non c’è dubbio che questa descrizione si adatti bene alle esperienze degli ultimi anni, con la scoperta graduale delle capacità dei prompt e la messa a fuoco del fatto che i sistemi generativi rispondono in modo diverso a seconda del modo in cui viene posta la domanda (cosa che ancora pochi sanno, direi). Inoltre, l’idea che il modo migliore per scoprire cose nuove in questo settore sia quello di coinvolgere tante persone, invece che limitarsi al lavoro di pochi esperti, mi trova molto in sintonia (pp. 143-146).
 
Ciò che mi differenzia invece da Mollick è la stima dei risultati ricavabili da questa attività di esplorazione. Mollick dice per esempio, con sicurezza senz’altro eccessiva, che “These advances are once-in-a-generation technologies, like steam power or the internet, that touch every industry and every aspect of life” (p. xv). Al termine di una serie di paragoni spesso discutibili, viene poi spiegato il titolo del libro: “AI works, in many ways, as a co-intelligence. It augments, or potentially replaces, human thinking to dramatic results” (p. xvi). Tutto questo sulla base di, ahimè, “early studies” che mostrano le possibilità di aumentare la produttività dal 20 all’80 per cento in settori come la programmazione.
 
Il guaio di queste stime è che, storicamente, si rivelano quasi sempre molto ottimistiche. Le menzionerò ancora nelle conclusioni e conto di parlarne più avanti nella recensione di un altro libro recente... ma la lunga sequenza storica di esagerazioni nelle possibilità delle tecnologie dovrebbe rendere ragionevolmente scettico ogni lettore informato. Così come si dovrebbe essere davvero scettici, viste le esperienze, sulla visione ottimistica che il libro presenta per l’inserimento delle IA nel mondo del lavoro (il capitolo 6 è a volte quasi imbarazzante da questo punto di vista, specie se letto in Italia).
 
Più in dettaglio, dopo una sezione dedicata a discutere i rischi legati all’uso disinvolto delle “intelligenze artificiali predittive”, Mollick articola più in dettaglio le sue posizioni nel terzo capitolo, dedicato a presentare “Four Rules for Co-Intelligence”. I principi sono:
  1. Always invite AI to the table, cioè in pratica provare a usare l’IA in tutte le attività, a parte evidentemente le situazioni in cui ci sono vincoli morali o legali (p. 46). 
  2. Be the human in the loop, cioè tenere d’occhio la produzione dei sistemi in modo da fornire un’attenta supervisione umana al lavoro delle IA (p. 51). 
  3. Treat AI like a person (but tell it what kind of person it is), cioè sfruttare il fatto che le risposte dei sistemi variano molto, anche qualitativamente, a seconda del ruolo che l’interlocutore umano assegna loro – da dilettante a specialista (p. 54). 
  4. Assume this is the worst AI you will ever use, cioè tenere conto delle possibilità di sviluppo dei sistemi (p. 59).
Io avrei alcune obiezioni al primo e al quarto principio. Per esempio, in rapporto al quarto, non sono così convinto del fatto che le intelligenze artificiali possano solo migliorare: in mancanza di grandi sviluppi tecnici, i vincoli legali, o la semplice procedura di “enshittification” di cui parla Cory Doctorow, possono benissimo rendere le IA del futuro meno capaci di quelle di oggi.
 
Soprattutto, però, in rapporto al terzo sono molto meno convinto di Mollick sulla quantità di benefici ricavabili in questo modo. Alcuni ce ne sono sicuramente, ma dopo due anni di tentativi da parte di milioni di utenti è intanto difficile immaginare che possa venire fuori qualcosa di radicalmente nuovo. Resta senz’altro la possibilità di trovare soluzioni individuali per problemi specifici – ma, appunto, non è affatto garantito che per esempio in una qualche attività lavorativa ci siano per forza di cose situazioni in cui le intelligenze artificiali generative possano aiutare. A cominciare innanzitutto dalla scuola, e da attività come linsegnamento della scrittura!
 
Come già detto, infatti, le stime dei benefici sono preliminari e in situazioni del genere l’esagerazione è la regola. Che le IA abbiano alcune capacità effettivamente utili è indubbio; altrettanto indubbio, però, è che abbiano fortissimi limiti. Prima di abbracciare un generale ottimismo, mi sembra quindi utile entrare molto più in dettaglio nella valutazione. Questo è ciò che sto facendo con diversi lavori di ricerca… e conto di parlarne presto anche qui.
 
Ethan Mollick Co-Intelligence: Living and Working with AI, Londra, Penguin, 2024, versione Kindle, € 14,99, ISBN 978-0-753-56078-5 ASIN B0CHHY2PS4.
 

martedì 1 ottobre 2024

L’intelligenza artificiale generativa a scuola e all’università


 
Genera un'immagine in bianco e nero di docenti e studenti che scrivono usando strumenti basati sull'intelligenza artificiale. L'immagine deve essere imitare lo stile di una xilografia rinascimentale e dovrebbe avere un numero di dettagli non eccessivo, per la pubblicazione online. Alcuni degli strumenti presentati nell'immagine dovrebbero essere riconoscibili come sistemi informatici moderni.
L’anno accademico 2024-2025 per me è partito con diverse esperienze interessanti: all’Università di Pisa ho iniziato il mio corso sulla valutazione delle intelligenze artificiali generative con gli studenti della laurea magistrale in Italianistica e ho parlato delle possibilità dei sistemi attuali ai docenti in formazione dei cosiddetti PF60.
 
Sottolineo un punto di particolare interesse. Nonostante da due anni a questa parte le intelligenze artificiali in generale, e le intelligenze artificiali generative in particolare, siano diventati temi di moda, la consapevolezza delle loro capacità (o incapacità) reali non mi sembra ancora diffusa. Per esempio, ho potuto constatare personalmente che, anche in un pubblico di studenti di alto livello e interessati a questioni linguistiche, pochi avevano provato ChatGPT come qualcosa di più di una curiosità. Anche tra quei pochi, poi, buona parte aveva provato a usare ChatGPT soprattutto come motore di ricerca – cioè per un compito per cui il sistema è decisamente inadatto.
 
Mettere per iscritto qualche osservazione generale sulla situazione mi sembra quindi utile. Utile per me, innanzitutto: anche se negli ultimi anni ho dedicato molto lavoro a questi temi, i contributi specifici non possono sostituire una sintesi.
 
Partirei quindi da una constatazione generale: le intelligenze artificiali generative sono una novità reale e importante. Non avranno certo l’impatto predetto da alcuni entusiasti (non sempre disinteressati), ma le loro capacità sono concrete ed effettive proprio in relazione a diversi tipi di lavoro di area umanistica. Dalla scrittura di temi scolastici alla produzione di esercizi, dalla traduzione alla didattica, in parte gli effetti sono già evidenti. In parte sono ancora solo potenziali, ma come possibilità concretissime, non astratte (non si può sapere se si manifesteranno, ma le possibilità effettive ci sono). Seguire gli sviluppi non è quindi una rincorsa di mode comunicative, ma un aggiornamento su attività importanti e che stanno prendendo una forma su cui si può ancora intervenire.
 
Faccio un esempio praticissimo. Alcuni docenti mi hanno segnalato di aver già ricevuto inviti, più o meno pressanti, a usare ChatGPT per la correzione dei compiti scolastici, in nome dell’efficienza e dell’oggettività. Non ho informazioni di prima mano, ma non ho dubbi sul fatto che inviti del genere possano diventare assai più numerosi e pressanti nei prossimi anni. Sarebbe una buona cosa? Per domande del genere, la risposta corretta è sempre “dipende dal tipo di uso che se ne fa”, ma in questa situazione specifica mi sembra indispensabile aggiungere un avviso di prudenza: “nella maggior parte dei casi, probabilmente no”.
 
Una legittima domanda successiva potrebbe poi essere: come mai, “probabilmente no”? Una risposta richiederà però molti approfondimenti puntuali. Si tratta di un viaggio lungo, ma credo che sia un viaggio che vale la pena fare. Uno dei motivi, e non il meno importante, è il fatto che l’impatto delle novità invita a vedere molte cose in una prospettiva nuova e consente di rimettere in discussione anche idee ormai fossilizzate. Nelle prossime settimane spero di presentare qui diversi esempi interessanti.
 

venerdì 27 settembre 2024

Testi generati a Dresda

 
Locandina del convegno AI-rom II
Non sono riuscito a parlarne sul momento, ma il 2 e il 3 settembre sono stato a Dresda per il II convegno AI-rom: “Automated texts in the romance languages and beyond”. Il convegno, ottimamente organizzato da Anna-Maria De Cesare, Tom Weidensdorfer e Michela Gargiulo, è poi di particolare interesse per chi si occupa di lingua italiana: a differenza di quanto avvenuto nel convegno dell’anno scorso, quest’anno tutti gli interventi erano dedicati appunto alla lingua italiana!
 
L’evento, naturalmente, è stato di estremo interesse: praticamente da ogni presentazione sono venuti fuori spunti per me molto interessanti. Impossibile descriverli qui tutti in dettaglio, ma vale la pena notare come su molte cose stia cominciando a formarsi un consenso.
 
Per pure ragioni di tempo accennerò qui solo al mio intervento, intitolato Grammatica generata: accettabilità e inaccettabilità di costruzioni prodotte dai sistemi di generazione di testo. All’interno, sono partito da studi recenti che hanno notato alcune divergenze linguistiche tra il comportamento umano e quello degli LLM quando sintassi e semantica sono intrecciate in modo particolarmente stretto. Per la lingua inglese sono in effetti già stati esaminati diversi esempi di questo tipo; per l’italiano, sono state mostrate da Anna-Maria De Cesare divergenze nell’espressione della progressione tematica e nell’uso dei connettivi.
 
Lato mio, mi sono occupato soprattutto di coesione e di quelle che Serianni ha chiamato “reggenze plurime”. Queste ultime, in effetti, rappresentano un ambito in cui il comportamento degli LLM e quello degli esseri umani mostrano sia divergenze sia punti di contatto. Per esempio, le costruzioni in cui una completiva esplicita e una completiva implicita vengono collocate in dipendenza dallo stesso verbo e coordinate, sebbene evitate nello scritto formale, sono relativamente frequenti sia nei testi di chi apprende l’italiano scritto sia nelle produzioni testuali degli LLM. Qui mi si vede appunto all’opera in una delle foto ufficiali:

Mirko Tavosanis al convegno AI-rom II

Per i dettagli, rimando alla versione definitiva del contributo, che potrebbe uscire all’inizio dell’anno prossimo. Molti testi collegati al convegno saranno infatti ospitati dalla rivista AI-linguistica, che è già senz’altro un importante punto di riferimento per chi si occupa di questi temi… soprattutto in rapporto alla lingua italiana.
 

venerdì 9 agosto 2024

Rauch e Palumbo – Sierrita Mountains

 
Domenica 4, per staccare un po’, mi sono letto nel dopopranzo il Texone comprato qualche settimana fa: Sierrita Mountains con testi di Jacopo Rauch e, soprattutto, disegni di Giuseppe Palumbo.
 
Bilancio: un po’ incerto. Non sono mai stato un appassionato di Tex, e salvo errori l’ultimo “Texone” che avevo letto prima di questo era stato quello, indimenticabile, di Magnus, quasi trent’anni fa, nel 1996. Con quello attuale, ho trovato soggetto e sceneggiatura molto limitanti. In pratica, la storia consiste in una serie di scontri improbabili in cui Tex e compagni / compagno ammazzano un po’ di criminali di basso profilo. Tex Willer, in particolare, viene fuori in una forma che trovo ormai abbastanza odiosa: non solo fastidiosamente invulnerabile, ma proprio cattivo nella sua attività di giustiziere. E con un aspetto ancora più imperturbabile del solito.
 
Come l’ultima osservazione fa capire, non mi hanno troppo impressionato nemmeno i disegni di Palumbo – che viceversa apprezzavo molto tra anni Ottanta e primi Novanta. In questo caso li ho trovati piuttosto disuguali (con una evidente differenza di segno tra tavole più o meno schematiche) e ogni tanto perfino incerti. Per esempio, in diversi casi vengono rappresentati pugni o colpi alla testa in un modo che non rende chiaro che cosa è successo (più vistosamente alle pagine 54, 100 e 162; qui sopra la vignetta di pagina 54). Ogni tanto i movimenti ricordano il Ramarro dei tempi migliori, ma un po’ tutto si perde nella serie eccessiva degli Aaah!.
 
Jacopo Rauch e Giuseppe Palumbo, Sierrita Mountains, “Tex”, albo speciale n. 40, giugno 2004, € 9,90.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.