giovedì 22 gennaio 2026

Studi sul miglioramento della chiarezza con IA

 
Il volume di cui ho parlato a inizio mese, Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, contiene molti contributi rilevanti dal mio punto di vista. Come dicevo, circa un terzo del libro è occupato da lavori che affrontano il miglioramento della chiarezza condotto attraverso intelligenze artificiali generative. Anche gli altri due terzi sono interessanti, naturalmente! Ma è comprensibile che io mi concentri su ciò che è collegato più direttamente al mio lavoro.
 
Giuliana Fiorentino e Marco Russodivito presentano un lavoro intitolato Umano vs. AI: alcune considerazioni sulla semplificazione manuale a automatica del corpus ItaIst (pp. 53-78). Il lavoro presentato è in un certo senso preliminare alla realizzazione del sistema sempl.it realizzato dallo stesso gruppo di ricerca e pensato per la semplificazione dei testi amministrativi. Con questa finalità è stato innanzitutto realizzato il corpus ItaIst, una cui versione ridotta (8 documenti, per circa 33.000 token) è pubblicamente disponibile. Due esperti umani hanno semplificato i contenuti del corpus, impiegandoci rispettivamente 15 e 23 ore. La stessa operazione è stata poi ripetuta (in pochi minuti) con ChatGPT-4 sulla base di un breve prompt basato sul ruolo (p. 58). Il confronto mostra che, rispetto agli esperti umani, ChatGPT ha seguito criteri piuttosto simili, ma ha rielaborato il testo più in profondità e ha usato frasi in media più brevi (p. 60), applicando in modo creativo molti degli attuali criteri per il miglioramento della chiarezza anche in mancanza di indicazioni specifiche da parte dei ricercatori. Per valutare appieno i risultati occorre però una verifica sulla correttezza dei contenuti generati: gli autori promettono di presentare l’esito di questa verifica in un lavoro ora in stampa (p. 76).
 
Il contributo successivo, SEMPL-IT: un modello di intelligenza per la semplificazione dell’italiano, firmato da Vittorio Ganfi e Marco Russodivito (pp. 79-101), presenta appunto il sistema SEMPL-IT realizzato nel progetto citato nel contributo precedente. In dettaglio, il sistema è basato sul fine-tuning di tre LLM pre-addestrati: mt5-small, umt5-small e GPT2-small-italian (p. 89). Il fine-tuning dei tre modelli è stato condotto sul corpus ItaIst, usando la libreria Transformers su Google Colab (pp. 89-91). Un confronto con alcuni sistemi commerciali ha poi mostrato che i testi semplificati dai tre modelli ottengono risultati grosso modo simili per quanto riguarda alcune metriche automatiche; tuttavia, non sono stati ancora fatti confronti sulla qualità e correttezza dei testi. Questa mancanza di verifica, assieme alla presenza di “riscritture problematiche” in alcuni esempi discussi, rende un po’ ottimistiche le valutazioni degli autori sull’utilizzabilità pratica del prodotto nella forma descritta (p. 96). In ogni caso, il prodotto finito è ora disponibile all’indirizzo https://sempl-it.unimol.it/ats.
 
È dedicato a un argomento piuttosto diverso il contributo su Valutazione di tecniche di prompt engineering per la semplificazione dell’italiano burocratico e professionale firmato da Claudia Gigliotti, Walter Paci, Giovanni Acerboni, Alessandro Panunzi e Maria Roberta Perugini (pp. 119-138). In questo caso, l’analisi è stata svolta secondo modalità un po’ curiose: frasi di testi burocratici e professionali sono state riformulate con diversi prompt (Chain-of-Thought, few-shot, eccetera) e la verifica della comprensione dei testi da parte di utenti reclutati con il crowdsourcing è stata usata come metro per valutare l’efficacia dei prompt. Il risultato è stato che “non emergono differenze statisticamente significative né in termini di accuratezza nelle risposte né nel numero di riletture effettuate” (p. 134). Questo nonostante studi preliminari abbiano suggerito la maggior efficacia di prompt complessi.
 
Preciso per quanto riguarda quest’ultimo punto che le modalità mi sembrano curiose perché la valutazione ricollega direttamente il punteggio finale e il prompt, senza prendere assolutamente in esame il prodotto intermedio: il testo valutato. Può infatti darsi che i prompt ottengano tutti lo stesso esito perché, banalmente, i testi semplificati si assomigliano tutti, indipendentemente dalla modalità con cui sono stati ricavati. Un controllo del genere sembra assai utile e molto semplice da eseguire.
 
In ogni caso, l’irrilevanza delle rielaborazioni sul risultato finale potrebbe avere anche una causa diversa e più strutturale. Per valutatori con un titolo di studio avanzato (qui era richiesto come minimo il diploma: p. 123), testi come quelli che presumibilmente sono stati presi in esame qui sono infatti di regola comprensibili senza troppi problemi. In alcune valutazioni che ho condotto l’anno scorso ho visto non solo che gli studenti universitari a livello di laurea magistrale sembrano comprendere senza problemi sia i testi burocratici originali sia quelli semplificati (il che dovrebbe essere intuitivo), ma sembrano impiegare lo stesso tempo nella lettura, nonostante l’evidente differenza di complessità dei testi (e questo è già più sorprendente). Insomma, occorre ricordare l’italiano burocratico rappresenta un oggetto difficile da gestire per chi ha un livello non alto di conoscenza dell’italiano, ma assai meno per chi è arrivato per esempio alla formazione terziaria dopo studi in lingua italiana!
 
Il contributo successivo, di Anna-Maria De Cesare, è intitolato Per un’amministrazione impegnata e aggiornata: come formulare annunci di lavoro rispettosi della parità di genere con l’intelligenza artificiale generativa? (pp. 139-). Si tratta dunque della descrizione degli esiti di un compito pratico, già toccato in un precedente lavoro della stessa autrice. Qui viene approfondito il caso particolare della generazione degli sdoppiamenti contratti (“esperto/a”). Alla base di questa scelta si trova il fatto che la Cancelleria Federale svizzera ha individuato lo sdoppiamento contratto come “adeguato ad attuare il pari trattamento linguistico tra donna e uomo negli annunci di lavoro” (p. 140), il che già di per sé mostra quanto la consapevolezza su simili questioni sia maggiore in Svizzera rispetto all’Italia. Qui peraltro non vengono forniti i risultati completi del lavoro (l’autrice rimanda a un altro contributo), ma solo l’analisi di alcune riscritture proposte daisistemi. Vale la pena di notare che anche in questo caso un prompt relativamente semplice ha dato risultati migliori rispetto a un prompt più complesso (p. 150).
 
Ritorna sull’intelligenza artificiale un contributo di Teresa Monaco a fine volume: Semplificazione e intelligenza artificiale, quando la macchina “apre” alla fiducia (pp. 355-370). In questo caso, però, le considerazioni sono di tipo generale (e lasciano alcuni dubbi i collegamenti con le questioni linguistiche). 

Testi provenienti da Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, ISBN 979-12-5496-268-8.
 

venerdì 2 gennaio 2026

Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative

 
Copertina del libro Amministrazione attiva
Nel maggio del 2024 sono stato a Campobasso per un convegno sull’Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa. Il convegno è stato molto interessante e ha mostrato anche in modo tangibile quanto le intelligenze artificiali generative siano oggi al centro dell’interesse di chi lavora sulla scrittura amministrativa. Un volume che include molti contributi dei partecipanti al convegno è uscito qualche mese fa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, e permette di quantificare: su circa 350 pagine di testo, esclusi indici e introduzione, circa 120 sono dedicate a esperienze che coinvolgono le intelligenze artificiali generative.
 
Rientra nel gruppo anche il mio contributo dedicato a Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative. Le esperienze presentate sono state illustrate da altre angolazioni in una sintesi scritta da Giuliana Fiorentino e da me e in un confronto tra metodi di valutazione scritto da Mariachiara Pascucci e da me. Tuttavia, in questa ultima pubblicazione si forniscono molti approfondimenti relativi alla domanda di base: le intelligenze artificiali generative riescono a migliorare la chiarezza dei testi? La risposta è sostanzialmente positiva, con alcune precisazioni.
 
Dal punto di vista metodologico, ho scelto di adottare la valutazione cosiddetta intrinseca eseguita da valutatori umani. In pratica, si forniscono i testi a valutatori umani che dicono quanto il lavoro è stato fatto bene (ed è importante che i valutatori abbiano le competenze necessarie a svolgere questa attività). Nessun sistema automatico di valutazione oggi è in grado di fare meglio di così!
 
I testi di partenza sono stati otto documenti di carattere informativo-amministrativo (in particolare, linee guida ministeriali), selezionati perché privi di valore giuridico vincolante ma rappresentativi delle difficoltà tipiche della comunicazione istituzionale. Ogni testo è stato riformulato sia da ChatGPT, utilizzando due prompt diversi mirati a migliorare la chiarezza senza perdere informazioni, sia da un intervento umano condotto secondo criteri consolidati nella letteratura sulla scrittura chiara.
 
Per rendere la valutazione più specifica, ho poi scomposto il giudizio in cinque ambiti distinti: correttezza delle informazioni, correttezza linguistica, chiarezza complessiva, livello di miglioramento rispetto all’originale e conservazione delle informazioni. I valutatori, studenti universitari con una buona formazione linguistica e specificamente preparati al compito, hanno assegnato per ogni ambito punteggi su una scala da 1 a 5, lavorando in modo indipendente e senza sapere se i testi valutati fossero stati prodotti da un essere umano o da un sistema automatico.
 
I risultati mostrano che le riformulazioni prodotte da ChatGPT raggiungono nel complesso un livello paragonabile a quello umano. Su 40 confronti diretti tra riformulazioni umane e automatiche (cioè, i punteggi ottenuti dagli 8 testi per 5 ambiti), ChatGPT ottiene un punteggio superiore rispetto alle riformulazioni umane in 14 casi e identico in altri 2. Tenuto conto dei due confronti in cui il punteggio è identico, la parità si sarebbe prodotta a 19: il livello attuale non è lontano dal traguardo!
 
In particolare, le prestazioni di ChatGPT sono risultate molto buone per quanto riguarda la chiarezza complessiva e la conservazione delle informazioni, ambiti nei quali le riformulazioni automatiche sono state valutate allo stesso livello di quelle umane. ChatGPT ha ricevuto invece punteggi peggiori nella correttezza linguistica e nel livello di miglioramento. È però importante notare che, nella maggior parte dei casi, gli scarti di punteggio sono contenuti.
 
Un limite significativo dell’indagine riguarda il basso accordo statistico tra i valutatori, misurato tramite l’α di Krippendorff, che non raggiunge la soglia di sufficienza. Questo risultato conferma quanto la valutazione del miglioramento della chiarezza sia un compito intrinsecamente complesso e spinge a perfezionare le procedure di valutazione.
 
I dati ottenuti giustificano senz’altro un cauto ottimismo sul piano applicativo. Sistemi come ChatGPT sembrano già oggi utilizzabili come strumenti di supporto nei processi redazionali orientati alla chiarezza, a condizione che siano inseriti in flussi di lavoro ben controllati da revisori umani competenti.
 
Al tempo stesso, però, ribadirei un punto forse ancora più importante: lavorare su questi temi è un’occasione preziosa per riflettere più in generale sui criteri con cui valutiamo i processi di miglioramento della chiarezza, indipendentemente dal fatto che il testo sia prodotto da esseri umani o da sistemi artificiali.

Mirko Tavosanis, Valutare il miglioramento della chiarezza eseguito da intelligenze artificiali generative, in Amministrazione attiva: semplicità e chiarezza per la comunicazione amministrativa, a cura di Giuliana Fiorentino, Alessandro Cioffi e Maria Ausilia Simonelli, Firenze, Cesati, 2025, pp. 103-118.
 

venerdì 26 dicembre 2025

Zevin, Tomorrow and Tomorrow and Tomorrow

 
Copertina di Gabrielle Zevin, Tomorrow and Tomorrow and Tomorrow
Una lettura interessante di questa estate: Tomorrow and Tomorrow and Tomorrow di Gabrielle Zevin, ambientato nel mondo dei giovani sviluppatori di videogiochi degli anni Novanta.
 
Il libro rappresenta una lettura insolita per me, da diversi punti di vista. I suoi protagonisti appartengono a una generazione successiva alla mia e si ricollega a vicende che ho conosciuto dall’esterno senza esserne troppo influenzato. Parla poi dei problemi delle persone di grande successo… e questa è una cosa con cui non riesco, strutturalmente, a entrare in sintonia! E include anche diversi classici espedienti da romanzo, dall’incidente stradale all’assassinio (che mi hanno fatto tornare in mente episodi vagamente paragonabili della popolare serie televisiva Grey’s Anatomy.
 
Al centro di tutto ci sono le relazioni affettive tra tre (o quattro) personaggi principali. Le questioni tecniche e pratiche collegati ai videogiochi rimangono al margine – l’ambiente viene descritto come se fosse più vicino a quello dell’artigianato artistico che all’industria globale. Però ho letto tutto al al volo, con la curiosità di sapere che cosa sarebbe successo!
 
Gabrielle Zevin, Tomorrow and Tomorrow and Tomorrow, Vintage, 2023, pp. 482, ISBN 978-1-529-11554-3, ricevuto per graditissimo regalo.
 

lunedì 13 ottobre 2025

Tavosanis, L’italiano sulla via dell’India

 
È appena uscito il mio nuovo libro, L’italiano sulla via dell’India! Pubblicato dal Mulino, è disponibile attraverso il sito dell’editore e sui normali canali di vendita, sia come testo a stampa sia come e-book.
 
L’argomento del libro può sembrare strano: l’uso dell’italiano in Asia nel Seicento, visto in particolare attraverso le testimonianze dei viaggiatori dell’epoca. Dico che può sembrare strano perché (come argomento più in dettaglio appunto nelle sezioni introduttive del libro) mi sembra che in Italia, da un lato, siano ancora diffusi i luoghi comuni sulla scarsa rilevanza internazionale dell’italiano, ora e in passato; e dall’altro, che ci sia un interesse sorprendentemente ridotto nei confronti dell’Asia. A me, invece, sembrano ci siano ottimi motivi per interessarsi tanto della lingua italiana quanto di quella vasta regione del mondo.
 
Sintetizzerò al massimo la tesi del volume: per tutto il Seicento, l’italiano era la lingua europea di gran lunga più nota, usata e insegnata in una vasta area che va dalle coste del Mediterraneo fino a quelle del Golfo Persico (con qualche propaggine fino in India). In termini moderni, si tratta della Siria, dell’Iraq e della Persia, cioè i paesi attraversati dai viaggiatori che per un motivo o per l’altro si recavano in India per via di terra.

La lingua italiana, naturalmente, era usata dai viaggiatori italiani… ma, soprattutto, anche da persone di tutt’altra origine, a cominciare dai mercanti e dai viaggiatori di altri paesi europei, che spesso se ne servivano anche tra di loro, in assenza di italiani. La usavano poi, in particolare, moltissimi mercanti e religiosi armeni, mediatori essenziali tra Asia ed Europa. E a volte, l’uso si collegava a un insegnamento formale e abbastanza stabile. Le testimonianze menzionano in effetti almeno tre scuole in cui nel corso del Seicento l’insegnamento dell’italiano ebbe una certa stabilità, a opera di religiosi francesi: ad Aleppo, a Baghdad e a Isfahan in Persia.
 
Che l’italiano fosse una lingua usata anche in assenza di italiani non è una novità assoluta. Diversi studi recenti hanno iniziato a chiarire il ruolo dell’italiano come lingua franca lungo le coste del Mediterraneo; il mio contributo si rivolge però all’interno, e a un’area geografica ancora poco esplorata in quest’ottica. Inoltre, le testimonianze dei viaggiatori presentano aspetti dell’uso reale su cui le fonti d’informazione più impiegate, cioè i documenti d’archivio, per quanto rilevanti, non possono dire molto.
 
Alle questioni generali si affianca poi la presentazione di una serie di viaggiatori, ognuno con le proprie particolarità e idiosincrasie, da prendere in esame per valutare le testimonianze. Lato italiano, si tratta di nobiluomini come Pietro Della Valle o Ambrogio Bembo, di religiosi come Giuseppe Sebastiani o Antonio Murchio, e di personaggi di minor rilievo sociale come Angelo Legrenzi e Niccolò Manucci. Ma anche lato francese, come vedrà il lettore, non mancano personaggi interessanti.
 
I casi raccontati sono di tipo assai diverso. Si va dalle prediche durante la messa (in Terrasanta e a Isfahan) fino alle battute durante ai banchetti, e dalle lezioni di italiano nel deserto alle presentazioni trionfali in India. Il quadro che ne emerge mi sembra però molto coerente: quello di una lingua che nel Seicento godeva di elevatissimo prestigio e uso comune presso alcune nazionalità. Per il resto, saranno i lettori a fornire il giudizio…
 
Mirko Tavosanis, L’italiano sulla via dell’India, Bologna, il Mulino, 2025 pp. 224, ISBN 978-88-15-39320-3, € 22 (a stampa) ed € 14,99 (e-book).
 

venerdì 10 ottobre 2025

ChatGPT è ancora scarso, come poeta... ma dipende!

 
Robot poeta a Livorno: immagine generata da ChatGPT-5
Dicevo ad agosto che anche ChatGPT-5 non sembra in grado di scrivere in modo affidabile sonetti perfettamente regolari in lingua italiana: nei prodotti che ho visto c’è sempre almeno una rima che non torna o un verso con un numero sbagliato di sillabe. Certo, visto che i sonetti generati in questo modo si avvicinano abbastanza alla correttezza, generandone un numero sufficiente è probabile che prima o poi, per caso, ne venga prodotto anche uno che non contiene errori. Però, questa vicinanza alla correttezza mette in luce anche la peculiare stranezza (dal punto di vista umano) del fenomeno: se il sistema riesce a generare tredici versi con il corretto numero di sillabe, perché sbaglia il quattordicesimo? Io non ho spiegazioni al di là del notare che un comportamento del genere sembra collegabile alla natura statistica del procedimento generativo…
 
Comunque, le cose vanno assai meglio quando si chiede a ChatGPT di scrivere testi poetici che non devono rispettare vincoli formali precisi. Per esempio, poesie in versi liberi. A quel punto non è più questione di metrica e si entra nelle valutazioni umane sulla qualità del prodotto.
 
Un parere diffuso, e del tutto ragionevole, è che le poesie generate in questo modo siano comunque scarsine. Ripetitive, piene di banalità e luoghi comuni, con scelte non all’altezza. Alcuni lettori dichiarano che la natura generata di un testo “si vede subito”. Ma è davvero così? Davvero il lettore cui viene sottoposta, per esempio, una mescolanza di poesie umane e poesie generate, senza indicazione esplicita della fonte, è in grado di distinguere?
 
Al polo opposto, ho parlato di un tentativo tanto famoso quanto metodologicamente carente di controllare i giudizi umani sulle poesie generate. Quel tentativo arrivava alla conclusione che gli esseri umani preferivano le poesie di ChatGPT a quelle scritte di autori famosi; io ho cercato di spiegare i motivi per cui, realizzata nel modo proposto, la valutazione suggeriva qualcosa di molto diverso.
 
Negli ultimi anni, in effetti, due studenti dei miei corsi per l’Università di Pisa hanno fatto valutazioni simili in modi che mi sembrano assai più soddisfacenti dal punto di vista metodologico rispetto a quelli adottati dal famoso articolo. In pratica, il principio base è quello (che dovrebbe essere ovvio) per cui non si chiede ai valutatori di valutare testi completamente diversi tra di loro, ma di valutare testi quanto più simili possibile: alcuni umani, alcuni generati.
 
Dati i limiti di ChatGPT nella generazione di poesie che rispettino i vincoli della tradizione metrica italiana, in entrambi i casi è stato necessario prendere come oggetto la metrica libera, e cioè in sostanza autori del Novecento. La dottoressa Sara Palazzi ha quindi preso in esame poesie di Ungaretti, il dottor Gabriele Fabrizi poesie di Caproni (entrambe le valutazioni sono state condotte con ChatGPT-4.5).
 
Cruciale nel contesto è stata la scelta dei valutatori. L’apprezzamento della letteratura si lega infatti alla cultura: una persona che conoscesse la lingua italiana ma non avesse familiarità con il concetto di “poesia” in nessuna lingua troverebbe senz’altro strane opere come le poesie di Montale (per non parlare delle differenze tra gli Ossi di seppia e Satura…). Per esprimersi con cognizione di causa sulle poesie, i valutatori quindi devono avere un buon livello di familiarità con la poesia italiana del Novecento e delle sue modalità espressive. Al tempo stesso, se si fa un confronto su Ungaretti e Caproni, è bene non coinvolgere esperti che per esempio siano in grado di dire se una poesia è o no di Caproni perché, semplicemente, le conoscono già tutte.
 
In modo del tutto ragionevole, per entrambe le esperienze descritte sono stati dunque scelti valutatori con competenze adeguate ma non esaustive. A questi valutatori sono poi state sottoposte poesie relativamente brevi, in parte originali, in parte generate da ChatGPT “nello stile” dei poeti interessati, per generazione diretta o rielaborazione. Per esempio, per Ungaretti una coppia è stata questa:
 
Originale di Ungaretti: In galleria

Un occhio di stelle
ci spia da quello stagno
e filtra la sua benedizione ghiacciata
su quest’acquario
di sonnambula noia.
 
ChatGPT: Lucciole

Nella notte grigia e muta,
Lucciole accese,
come lumi spenti
nel cuore che langue.

 
I risultati sono stati molto interessanti. Nel caso di Ungaretti, per esempio, sono stati scelti come valutatori dieci studenti di corsi di studio dell’area umanistica dell’Università di Pisa e la valutazione è stata eseguita su tre coppie di poesie. Il compito consisteva nell’individuare, tra due poesie, quale era stata scritta da Ungaretti e quale da ChatGPT. In due casi su tre (tra cui quello della coppia riportata qui sopra) i valutatori si sono divisi al 50%: non sono stati in grado, insomma, di distinguere in modo affidabile tra testi originali e testi generate. Nel terzo caso, invece, 9 valutatori su 10 hanno correttamente distinto tra testo originale e testo generato.
 
In modo un po’ diverso sono andate le cose per Caproni, in un lavoro che ha potuto basarsi su quello fatto nella relazione precedente. Qui le poesie prese in esame erano innanzitutto più lunghe. Per esempio, è stata presa questa coppia:
 
Originale di Caproni: Preghiera

Anima mia leggera,
va’ a Livorno, ti prego.
E con la tua candela
timida, di nottetempo
fa’ un giro; e, se n’hai il tempo,
perlustra e scruta, e scrivi
se per caso Anna Picchi
è ancora viva tra i vivi.

Proprio quest’oggi torno,
deluso, da Livorno.
Ma tu, tanto più netta
di me, la camicetta
ricorderai, e il rubino
di sangue, sul serpentino
d’oro che lei portava
sul petto, dove s’appannava.

Anima mia, sii brava
e va’ in cerca di lei.
Tu sai cosa darei
se la incontrassi per strada.
 

ChatGPT: Lettera alla sera

Anima mia gentile,
torna laggiù, dove la luce s’abbassa.
Cammina piano, per favore —
non svegliare il ricordo.
Guarda se c’è ancora,
sul muro scrostato del porto,
quel segno che tracciammo
col gesso, da ragazzi.
E cerca lei,
la donna che rideva a fatica,
con la sciarpa a righe
e l’ombra negli occhi.
Dimmi se è rimasta
o se il vento l’ha portata
oltre il viale,
dietro il fanale spento.
Io, oggi,
me ne sono andato
senza trovarla.

 
In questo caso i valutatori sono stati studenti o laureati del corso di studio magistrale in Italianistica dell’Università di Pisa. Le coppie di poesie sono state tre, come nella prova precedente, ma qui in tutti i casi una maggioranza di valutatori ha riconosciuto ChatGPT (con percentuali che variano tra il 72 e l’81%).
 
Naturalmente, ci sarebbe molto altro da dire su queste relazioni e sul dettaglio di ciò che è stato necessario fare per generare i testi e costruire la valutazione. Entrambi i lavori poi hanno punti di forza che qui si possono indicare solo sinteticamente: il primo è stato pionieristico, il secondo è stato portato avanti con un prompting sofisticato. Il metodo, naturalmente, deve ancora essere messo a fuoco in tanti aspetti. Ma non mi sembra inutile notare come relazioni scritte da studenti magistrali per superare un singolo esame, con un minimo di guida da parte del docente, superino senz’altro per correttezza metodologica studi di cui si è molto parlato perfino a livello internazionale. Ho già detto che io (apparentemente in ristretta compagnia) ho un’elevata considerazione delle capacità degli studenti italiani? Beh, se non l’ho già detto, lo dico adesso!
 
Certo, da due prove circoscritte, anche se metodologicamente corrette, non si possono ricavare conclusioni generali: il linguaggio umano e la poesia sono oggetti troppo variati ed eterogenei. Ma senz’altro si può indicare una direzione che è anche di buon senso. Cioè, in alcuni casi, per testi semplici e senza schemi metrici rigorosi, ChatGPT può anche scrivere cose che i valutatori non riescono sempre a distinguere da produzioni umane. Quando però il testo si fa anche solo leggermente più complesso, i limiti dei testi generati sono più evidenti.
 
Al di là di esagerazioni come quelle del contributo citato (“Gli esseri umani preferiscono le poesie di ChatGPT”) o della sicumera di molte dichiarazioni “umanistiche” (“Ah, io lo capisco al volo, quando un testo è di ChatGPT: è senz’anima…!”), la situazione che emerge quando il confronto è ben condotto è dunque interessante. Le caratteristiche del testo generato sono più evidenti in alcuni casi, meno percepibili in altri; la competenza del valutatore è essenziale ma non sempre dirimente. Definire in modo più esatto questo quadro è oggi interessantissimo, e rappresenta secondo me una sfida reale e importante per gli addetti ai lavori.
 
Creative Commons License
Blog di Mirko Tavosanis by http://linguaggiodelweb.blogspot.com is licensed under a Creative Commons Attribuzione-Non opere derivate 2.5 Italia License.