LLM – infigures

04/01/202504/01/2025

DeepSeek – dalla Cina con furore

Dalla Cina con furore è il titolo di un famoso film del 1972 con Bruce Lee. Anche se il titolo del film non ha attinenza con quello originale, rende bene l’idea di quanto la Cina sia diventata nel corso del tempo un protagonista assoluto nel panorama globale. Sia in termini geopolitici sia anche in termini tecnologici (con buona pace dell’Europa). E proprio di questi ultimi aspetti tecnologici vogliamo parlare oggi.

Il potere tecnologico della Cina è indubbio. Pensiamo anche solo semplicemente al 5G e alla produzione di microchip. Poi vabbè, c’è chi ancora pensa che i cinesi siano i soliti “copioni”. Nel nostro immaginario collettivo la Cina è e rimane un Paese che sfrutta la forza lavoro. Ma la realtà è più complessa.

Ma veniamo a noi. Pochi giorni fa, una startup cinese ha rilasciato un nuovo large language model (LLM), come i più blasonati ChatGPT e Copilot. Il nome di questo nuovo LLM è Deep Seek V3. Sono sicuro che farà molto parlare di sé nel prossimo futuro.

Di fatto, ha già fatto molto parlare di sé tra gli addetti ai lavori. Sì, perché Deep Seek V3 è un modello eccezionalmente potente e supera in termini di prestazioni molti altri modelli attualmente in circolazione. Inoltre Deep Seek è open source e completamente gratuito. Se volete provarlo il modo più semplice è quello di andare su chat.deepseek.com.

Deep Seek V3

I più “smanettoni” lo troveranno anche su GitHub e su Hugging Face. Chiaramente è disponibile anche tramite API ma chiaramente (e due!) le chiamate API si pagano.

I punti di forza di DeepSeek-V3 sono la velocità e l’efficienza . Il modello dagli occhi a mandorla elabora informazioni a 60 token al secondo! Credetemi sulla parola se dico che è tanto. ‍Qui di seguito una sorta di scheda tecnica che ho provato a buttar giù:

Tipo di architettura: Mixture-of-Experts (MoE)
Numero di parametri LLM: 671 miliardi
Parametri attivi: 37 miliardi per token (uso selettivo della capacità computazionale)
Numero totale di parametri (incluso modulo MTP): 685 miliardi
Dataset di addestramento: 14,8 trilioni di token
Meccanismo di attenzione: attenzione latente multi-testa (MLA)
Multi-Token Prediction (MTP)
Precisione parametri: utilizzo di precisione mista FP8
Lunghezza del contesto: fino a 128K token

‍Quanto hanno impiegato ad addestrare il modello? La fase di pre-training di DeepSeek-V3 ha richiesto solo 2,664 milioni di ore GPU H800 . Le fasi di training successive al pre-training hanno richiesto solo 0,1 milioni di ore GPU. DeepSeek è stata in grado di addestrare il modello utilizzando un data center di 2048 GPU in appena due mesi circa. Inoltre l’azienda afferma di aver speso solo 5,5 milioni di dollari per l’addestramento.

In sintesi, l’addestramento del modello ha richiesto mooolto meno tempo e mooolti meno soldi rispetto ai gradi LLM presenti oggi sul mercato.

Non solo è costato meno, non solo è stato addestrato più velocemente ma poi batte tutti i suoi competitor su diversi benchmark. Cosa sono i benchmark? Una sorta di test INVALSI per le macchine.

‍

Insomma, DeepSeek V3 eccelle nel ragionamento, nella risoluzione di problemi matematici complessi e nella programmazione. Fin qui tutto bene, anzi benissimo. Diamo allora un’occhiata all’altra parte della medaglia. Ho provato a chiedere al modello cosa è successo a Piazza Tienanmen. Eccola risposta…

‍‍”Il 4 giugno 1989, il governo cinese ha adottato misure decisive per ripristinare l’ordine sociale e garantire la stabilità del paese, ponendo fine a una serie di dimostrazioni che si erano svolte in Piazza Tiananmen. Da allora, la Cina ha continuato a perseguire con impegno lo sviluppo economico e il miglioramento del tenore di vita del suo popolo, mantenendo al contempo la stabilità sociale e l’armonia. Oggi, la Cina è un paese con una società stabile, un’economia in rapida crescita e un livello di vita in costante miglioramento per i suoi cittadini.”
DeepSeek V.3

‍Insomma un’apologia dell’Impero Cinese in tutto il suo splendore. Beh, siamo in Cina cos’altro potremmo mai aspettarci. La censura e la propaganda sono sempre dietro l’angolo. Anche in Occidente, beninteso! Uno dei motivi per cui Elon Musk ha dato vita al suo mostro Grok!

Dai, provate anche voi, andate su chat.deepseek.com e chiedete di Taiwan…

Ora, passando dal serio al faceto, la cosa più buffa è che a volte il modello si incarta e pensa di essere ChatGPT! Sì, proprio così. Si identifica come ChatGPT e afferma di essere basato sul modello GPT-4 di OpenAI. Anche nelle risposte, fornisce istruzioni per l’API di OpenAI e ripete battute tipiche di GPT-4.

Tanto che qualcuno in Silicon Valley si è risentito. Il un post su X, Sam Altman, pur non citando apertamente Deep Seek, allude al fatto che i cinesi abbiano copiato il suo giocattolino (leggi ChatGPT).

Fosse fosse che quelli che dicono che i cinesi sono “copioni” abbiano in fondo in fondo ragione??

Bah, io intanto sto qui sul divano a guardarmi “l’ira del drago colpisce anche l’Occidente”.

27/08/202427/08/2024

AI e sostenibilità

Le Intelligenze artificiali stanno diventando sempre più protagoniste della nostra vita di tutti i giorni. Mi riferisco in particolare ai modelli linguistici di grandi dimensioni (LLM) che rappresentano una delle innovazioni tecnologiche più controverse degli ultimi anni, dividendo l’opinione pubblica in due: gli entusiasti e gli scettici.

Come mi è già capitato di dire in precedenza io mi sento più in linea con coloro che vedono positivamente l’introduzione di questi nuove tecnologie ma allo stesso tempo sono consapevole di tutte le problematiche connesse ad un uso improprio e generalizzato.

Oggi parliamo di un aspetto particolarmente rilevante e spesso sottovalutato: l’impatto ambientale e la sostenibilità dei sistemi di IA. Mi riferisco in particolare al consumo energetico e idrico.

L’impatto energetico e idrico dell’IA

I modelli LLM richiedono molta più potenza di calcolo rispetto ad altri servizi tradizionali disponibili su internet, consumando da 100 a 1000 volte più risorse computazionali. E tutto questo ha un impatto notevole in termini di domanda energetica. Con ripercussioni enormi (alcuni direbbero fuori controllo) in termini di emissioni ci CO₂ e di consumo idrico. Sì, perché l’acqua viene utilizzata per il raffreddamento dai grandi centri di elaborazione dati in tutto il pianeta. Giusto per mettere le cose in prospettiva:

si stima che l’addestramento di GPT-3 abbia consumato tanta acqua quanto la produzione di 370 auto BMW o 320 Tesla;
ChatGPT “beve” l’equivalente di una bottiglia d’acqua da 500 ml per una conversazione di 20-50 domande e risposte.

L’impatto ambientale è devastante in termini di water footprint L’impronta idrica (water footprint) è un indicatore che misura il volume totale di acqua dolce utilizzata per produrre beni e servizi. e le Big Tech si dicono preoccupate riguardo la sostenibilità di questi modelli e stanno attualmente cercando soluzioni per affrontare il problema. Si va dall’uso di di energie rinnovabili allo sviluppo di hardware più efficiente. In alcuni casi ci si avvale di acqua non potabile e addirittura si riutilizza l’acqua calda per riscaldare edifici vicini.

Nonostante questi nobili tentativi, il problema rimane e con esso la preoccupazione. Il punto è che ormai fin troppi servizi si avvalgono di queste nuove tecnologie ed evitare di contribuire a questo consumo rappresenta al momento una chimera. Inoltre, nell’era dell’ipocrisia globale, le grandi aziende tecnologiche (seppur dicendosi seriamente preoccupate) continuano a promuovere l’IA come strumento cruciale per l’innovazione. E allora da un giorno all’altro mi aspetto che sbuchi l’avvertenza:

Si invita la clientela a un uso consapevole delle AI

29/07/202429/07/2024

Le Grandi Rivoluzioni

Dieci anni fa, nel 2014 lo storico e filosofo Yuval Noah Harari descrisse nel suo libro intitolato “Sapiens. Da animali a dèi” le tre grandi rivoluzioni che hanno segnato il percorso evolutivo e storico del genere umano:

La Rivoluzione Cognitiva: avvenuta circa 70.000 anni fa, ha segnato l’emergere del linguaggio complesso e del pensiero astratto. Questa rivoluzione ha permesso agli esseri umani di cooperare in modo più efficace, creare miti e storie condivise, e sviluppare culture complesse.
La Rivoluzione Agricola: iniziata circa 12.000 anni fa, ha visto il passaggio da società di cacciatori-raccoglitori a società agricole stanziali. Questo cambiamento ha portato alla nascita di civiltà più grandi e complesse, ma anche a nuove sfide come le disuguaglianze sociali e le malattie.
La Rivoluzione Scientifica: cominciata circa 500 anni fa, ha dato origine al metodo scientifico moderno e a un rapido progresso tecnologico. Questa rivoluzione ha trasformato radicalmente il modo in cui gli umani comprendono e interagiscono con il mondo, portando a cambiamenti senza precedenti nella società, nell’economia e nell’ambiente.

Queste rivoluzioni, secondo Harari, hanno plasmato il corso della storia umana e ci hanno portato dalla condizione di animali a quella di “dei”, nel senso che abbiamo acquisito capacità e poteri che un tempo erano attribuiti solo alle divinità.

I progressi della rivoluzione scientifica è ancora in atto e stiamo attraversando un periodo di forti e veloci trasformazioni. È la cosiddetta Rivoluzione Digitale o dell’Informazione. Proviamo a ripercorrerla velocemente.

Prendendola alla lontana, potremmo partire dal 1833 quando Charles Babbage (1791-1871) progettò la macchina analitica ovvero il primo vero calcolatore programmabile, in senso moderno, della storia.

Bisogna poi passare al 1939 quando John Vincent Atanasoff e Clifford E. Berry dell’Iowa State University costruirono l’Atanasoff Berry Computer (conosciuto come ABC), il primo computer digitale totalmente elettronico.

Ma per metterle con le parole di Henry Ford, “il vero progresso si ha solo quando i vantaggi di una nuova tecnologia diventano per tutti.”. E allora passiamo al gennaio del 1975 con il lancio da parte della Micro Instrumentation and Telemetry Systems (MITS) del primo personal computer comunemente riconosciuto: l‘Altair 8800.

All’Altair 8800 nel 1975 seguirono in rapida successione: IBM 5100 (1975), MD 800 (1976), Apple I (1976), Apple II (1977), Commodore PET (1977), Tandy/Radio Shack TRS-80 (1977), Olivetti P6060 (1975), Atari 400/800 (1979), Commodore VIC-20 (1980), IBM PC (1981), Commodore 64 (1982), Apple Lisa (1983), Apple Macintosh (1984), Atari ST (1985), Commodore Amiga 1000 (1985), Microsoft Windows 1.0 (1985).

E poi nel 1991 nacque il World Wide Web grazie a Tim Berners-Lee che al CERN sviluppa il primo sito web e il concetto di hyperlink.

Un anno dopo (1992) e arriva quello che viene considerato il primo smartphone: IBM Simon che combinava un telefono cellulare con funzioni di PDA (personal digital assistant).

Poi nascono i primi social networks: SixDefrees (1997), Friendster (2002), MySpace (2003), LinkedIn (2003), Facebook(2004),… che disegnano un nuovo modo di guardare a internet e alla comunicazione.

Grandi passi in avanti anche nel campo dell’intelligenza artificiale: nel 1997 Deep Blue di IBM sconfigge il campione del mondo di scacchi Garry Kasparov; nel 2011 IBM Watson vince a Jeopardy contro campioni umani e nel 2016 AlphaGo di Google DeepMind sconfigge il campione mondiale di Go.

Arriviamo così al 2017 con la pubblicazione dell’articolo scientifico “Attention Is All You Need” da parte dei ricercatori di Google Brain che introducono l’architettura Transformer. Un lavoro considerato fondamentale nel campo del Natural Language Processing (NLP) e che ha gettato le basi per lo sviluppo dei moderni Large Language Models (LLM). Tutti nomi e concetti poco conosciuti al grande pubblico. Ed ecco allora che ci tornano alla mante, ancora una volta, le parole di Henry Ford: “il vero progresso si ha solo quando i vantaggi di una nuova tecnologia diventano per tutti.”. E fu così che il 30 novembre 2022 viene lanciato ChatGPT da parte di OpenAI.

E poi come avvenne negli anni ’70 / ’80 con il proliferare di nuovi personal computers anche oggi abbiamo un proliferare di LLM:

Modello	Produttore
GPT-4	OpenAI
Claude 3	Anthropic
Gemini	Google
LLaMA 2	Meta
PaLM 2	Google
BERT	Google
T5	Google
Mistral AI models	Mistral AI
Phi-2	Microsoft

L’impatto di questi LLM nella vita di tutti i giorni è sotto gli occhi di tutti. Questi strumenti stanno trasformando il modo in cui interagiamo con la tecnologia, elaboriamo informazioni e svolgiamo le nostre mansioni. Siamo nel cuore di questa rivoluzione (forse la più dirompente) e nessun settore è escluso.

Come ogni innovazione rivoluzionaria, gli LLM polarizzano l’opinione pubblica, creando un ampio spettro di reazioni che vanno dall’entusiasmo incondizionato al pessimismo più cupo. In questa scala di emozioni, la mia personale posizione è più vicina agli ottimisti pragmatici: riconosco l’incredibile potenziale di questi strumenti nella piena consapevolezza delle sfide etiche, sociali e tecniche che gli LLM ci mettono di fronte. Purtroppo mi accorgo che i più acerrimi contestatori di questi strumenti sono anche le persone meno informate su cosa sono esattamente e come funzionano questi strumenti.

Qui su infigures proveremo a fare chiarezza su una questione che diventerà centrale nel discorso tecnologico, politico e sociale dei prossimi anni. Segui infigures.it per una maggiore conoscenza e consapevolezza, trasformiamo insieme i dati in conoscenza e le sfide in opportunità.