Gemini e GPT-4, alla scoperta degli LLM. Tra etica e allucinazioni

scritto da il 08 Marzo 2024

Post di Alexio Cassani, CEO di FairMind* –

Nel mondo della tecnologia, l’intelligenza artificiale generativa (Generative AI) e i Large Language Models (LLM, modelli linguistici di grandi dimensioni) rappresentano una svolta epocale, perché destinati a rivoluzionare il modo in cui interagiamo con le macchine, creiamo contenuti e risolviamo problemi complessi.

Gli LLM sono in grado di generare testi coerenti e sensati partendo da semplici istruzioni fornite dall’utente. Utilizzano architetture neurali basate sui Transformer, introdotti nel 2017. I Transformer sfruttano meccanismi di attenzione per identificare le relazioni tra le parole e generare frasi di senso compiuto. Rispetto ai modelli precedenti, i Transformer non richiedono input con sequenze ordinate e consentono di catturare dipendenze globali tra token lontani, il che li rende particolarmente adatti a gestire il linguaggio naturale.

Gli LLM vengono addestrati (pre-training) su enormi quantità di dati testuali, che comprendono centinaia di miliardi di parole. Ciò permette loro di acquisire una conoscenza molto ampia della lingua e del mondo. Quando all’LLM viene fornito un input testuale (prompt), esso è in grado di completare il testo in modo coerente, rispettando la logica e il senso compiuto: ogni parola generata si basa su quella precedente, senza che il modello conosca in anticipo il risultato finale del paragrafo che sta iniziando a scrivere.

LLM come pappagalli?

Per questo comportamento alcuni ricercatori hanno definito gli LLM dei “pappagalli stocastici”: il pappagallo, infatti, ripete le parole, ne imita i suoni senza però comprenderne il significato; un processo stocastico è invece un fenomeno che è possibile misurare ma non prevedere, ad esempio l’andamento della Borsa. Ciò significa, in sostanza, che gli LLM ripropongono le parole che sono state fornite loro, legandole con enorme accuratezza tanto da sembrare opera dell’uomo, pur senza avere idea di quello che stanno dicendo, come i pappagalli.

Si può paragonare l’LLM ad uno studente che ha letto una grande quantità di libri e articoli: lo studente acquisisce conoscenze e capacità di ragionamento, pur non sapendo necessariamente tutto ciò che è successo dopo una certa data; tuttavia, fornendogli lo spunto iniziale di un tema, sarà in grado di produrre un elaborato coerente e sensato.

Come ottenere i risultati migliori degli LLM

Alla base delle tecniche per interagire con questi modelli c’è il Prompt Engineering: un insieme, in continua evoluzione, di modi di composizione del prompt per poter ottenere dagli LLM i risultati che si vogliono ottenere. Ad esempio, fa parte di questo insieme il “few shot”: una tecnica, molto efficace, che prevede di inserire nel prompt alcuni esempi che possono aiutare il modello a comprendere cosa fare. Quando scriviamo un prompt senza fornire esempi, che probabilmente è il modo più comune di utilizzo di strumenti come ChatGPT, si parla di “zero shot”: in questo caso il modello risponde con molta meno accuratezza per quanto spesso riesca a produrre del contenuto valido.

Subito dopo il Prompt Engineering, per ordine di applicazione almeno, c’è il Retrieval Augmented Generation (RAG). Questa tecnica consiste nel fornire all’LLM, assieme al prompt, anche informazioni aggiuntive rilevanti recuperate da contenuti esterni, come ad esempio i database vettoriali, che sono in grado di gestire contenuti testuali (gli embeddings) in maniera ottimizzata per gli LLM.

Prompt da centinaia di migliaia di caratteri

In questo modo l’LLM può applicare le sue capacità di ragionamento avendo a disposizione i dati necessari per rispondere correttamente. I prompt possono contenere centinaia di migliaia di caratteri: oggi GPT-4 arriva fino a circa mezzo milione, Claude di Anthropic a ottocentomila mentre il recente Gemini 1.5 Pro di Google ha ulteriormente alzato l’asticella arrivando fino a 4 milioni di caratteri!

Quando le informazioni di dominio vengono passate attraverso il prompt si sta utilizzando una tecnica nota come “in-context learning” (apprendimento nel contesto).

Esistono diverse ricerche che affrontano il tema della lunghezza del contesto, che è il numero di caratteri che è in grado di gestire un prompt, e di come i modelli sono in grado di gestire ed apprendere dal contesto.

A tal proposito, alcuni esperimenti effettuati qualche mese fa mostravano una maggior capacità da parte dei modelli di “ricordarsi” il testo inserito all’inizio o alla fine del contesto, un po’ come un essere umano che di solito tende a ricordare l’inizio e la fine di un libro. Quello che però stupisce in Gemini 1.5 Pro, ad esempio, è la sua capacità di gestire il contesto perché dalle poche evidenze emerse fino ad ora sembrerebbe essere in grado di ricordarsi tutto il testo contenuto.

Gemini e la lingua della Nuova Guinea

Infatti, è possibile far apprendere a Gemini 1.5 Pro una lingua rara come il Kalamang (parlata in Nuova Guinea da 200 persone) passando nel contesto un vocabolario, le regole grammaticali e qualche centinaio di frasi tradotte da Kalamang all’inglese. In pratica è come se il modello venga addestrato in tempo reale per apprendere una nuova capacità (che nel momento in cui termina di rispondere perde), una lingua in questo caso, senza aver le necessità di ricorrere a costose e persistenti tecniche di addestramento!

Un’altra tecnica spesso usata insieme al RAG è il fine-tuning: l’LLM viene ulteriormente addestrato, in maniera persistente, su dati specifici per apprendere nuove capacità, come scrivere ricette o parlare, come nel caso precedente, lingue straniere. Il fine-tuning non aggiunge informazioni, ma insegna all’LLM a comportarsi in modo più adatto al caso d’uso. Può essere indicato e preferibile rispetto al RAG perché una volta che l’LLM è addestrato non è necessario inserire nel prompt informazioni di contesto che ne consumano la capacità. Spesso in realtà sono indicati entrambi.

Le best practices suggeriscono di partire col RAG e in un secondo momento, se non sufficiente, valutare il fine-tuning, per poi considerare, da ultimo, la combinazione delle due tecniche.

Se gli LLM producono allucinazioni

Gli LLM possono talvolta generare affermazioni false o inventate, chiamate in gergo allucinazioni. Per molti ricercatori questa è una caratteristica e non un bug, perché di fatto gli LLM sono delle “Dream Machine”, cioè sistemi in grado di inventarsi del contenuto che può essere coincidente con la realtà oppure no, a seconda di come sono stati addestrati o di come li si stanno utilizzando. È quindi fondamentale gestire questo aspetto per evitare la diffusione di informazioni false o dannose che possono portare a prendere decisioni sulla base di dati non precisi.

Per arginare le allucinazioni, una volta addestrato l’LLM, esistono diverse opzioni: le due più comuni sono utilizzare particolari tecniche di prompt engineering e adottare Guardrails.

Nel primo caso, le tecniche di Prompt Engineering sono molteplici e potrebbero anche sembrare banali in taluni casi: ad esempio, chiedere all’LLM di ammettere esplicitamente quando non conosce una risposta, piuttosto che inventarla, è un buon modo per arginare buona parte delle allucinazioni.

Guardrail e addestramento

I Guardrail sono invece più sofisticati ed interessanti poiché verificano la plausibilità delle risposte in modalità diverse, ad esempio eseguendo ogni prompt due volte e controllando che vi sia coerenza fra le risposte: se le risposte sono coerenti è molto probabile che non sia un’allucinazione, se le risposte sono diverse invece sì.

Spesso i guardrail fanno uso di altri LLM per effettuare le valutazioni. In questo caso l’LLM valutatore dovrebbe essere un modello molto capace e performante, come ad esempio GPT-4.5-turbo che ad oggi è lo stato dell’arte dei modelli seppur sia però anche il più costoso e lento, quindi da utilizzare con parsimonia.

LLM

Infine è importante soprattutto in ambito aziendale conoscere i dati utilizzati per il pre-training: è la fase in cui un LLM viene addestrato, è molto costosa e delicata e per queste ragioni non ancora abbordabile per la maggior parte delle imprese.

I dati utilizzati sono importanti perché sono quelli che andranno a determinare il comportamento e le performance del modello che andremo a scegliere.

Nell’area grigia dell’illegalità

Infatti, se i dati contengono bias di qualsiasi tipo o se i dati utilizzati sono protetti da copyright, ma vengono utilizzati senza autorizzazione, tutti questi dati vengono comunque recepiti dagli LLM e ciò può portare all’utilizzo di un modello potenzialmente illegale. Si tratta di un’area grigia su cui ci si aspetta che l’AI Act farà chiarezza.

Gli esempi potrebbero essere molti: se i dati utilizzati contengono informazioni che possono essere dannosi per l’essere umano (ad esempio come costruire bombe o veleni), se non vengono filtrati a valle con Guardrails o Prompt Engineering ecco che abbiamo una potenziale minaccia per la società che va contro le pratiche di Responsible AI: un insieme di regole che aiutano a gestire gli LLM in modo etico e per l’appunto responsabile.

È necessario che le modalità di definizione dei dati diventino prima o poi una discriminante importante nella scelta di un modello rispetto ad un altro, ma per ora la sensibilità su questo aspetto è ancora ridotta.

LLM e futuro prossimo dell’Open Source

Guardando al futuro prossimo c’è molto interesse intorno al mondo OpenSource, che anche in ambito Generative AI sta sviluppandosi molto velocemente anche grazie a realtà come Meta, che ha reso disponibile LLama-2: un LLM Open molto performante che è stato utilizzato come base per creare una vera e propria famiglia di modelli derivati tramite il fine-tuning. In Europa, poi, HuggingFace o Mistral, due start-up francesi, stanno agendo da catalizzatori per il mondo OpenSource offrendo servizi e modelli che sono sempre di più facilmente accessibili da chiunque voglia costruire delle soluzioni di Generative AI proprietarie.

Uno sguardo all’hardware

Da ultimo, uno sguardo all’hardware, vale a dire il miglioramento delle capacità computazionali dei processori che vengono utilizzati per i modelli di Deep Learning, di cui gli LLM sono un esempio. Ad oggi le GPU (Graphical Processing Unit) sono lo standard: sono nate per altri scopi (videogame ed elaborazione grafica in generale) ma sono ideali per qualsiasi “calcolo in virgola mobile” che è la tipologia di operazione alla base del Deep Learning.

Tuttavia, per quanto potenti, queste GPU non offrono ancora performance istantanee e ciò implica che quando conversiamo con gli LLM le loro risposte si completano nel giro di qualche secondo: questo è un limite. Di recente, però, la startup americana Groq ha aperto un ambiente demo che mostra le capacità dei loro nuovi processori: LPU (Language Processing Unit).

La missione della startup è offrire un tempo di elaborazione pressoché istantaneo e la demo è impressionante: da un prompt la generazione di un testo anche lungo è quasi istantanea e questo permetterebbe l’adozione di Generative AI in moltissimi Use Case ad oggi inavvicinabili.

*Che cosa è FairMind

FairMind è una startup nata nel 2023 che si occupa di consulenza avanzata in progetti di ricerca e sviluppo (R&D) basati su tecnologie di Intelligenza Artificiale Generativa (Generative AI). La mission della società è guidare l’innovazione sostenibile nell’intelligenza artificiale e trasformare le idee in soluzioni concrete, attraverso l’applicazione di algoritmi avanzati.

FairMind collabora con aziende e organizzazioni con cui condivide la medesima visione di sostenibilità, per creare soluzioni AI generative all’avanguardia e promuovere una cultura aziendale basata sull’innovazione, l’etica e l’impatto positivo sulla società e sull’ambiente.

La società, fin dalla sua nascita, è impegnata a plasmare il futuro delle tecnologie di generative AI in modo responsabile e sostenibile e lavora quotidianamente per contribuire all’avanzamento della scienza e della tecnologia per un mondo migliore. FairMind ha all’attivo molteplici relazioni con il mondo accademico per attività di ricerca e ha già avviato diversi progetti di Innovazione con clienti nei settori Pubblica Amministrazione, Turismo, Servizi Finanziari.