DeepSeek – dalla Cina con furore

Dalla Cina con furore è il titolo di un famoso film del 1972 con Bruce Lee. Anche se il titolo del film non ha attinenza con quello originale, rende bene l’idea di quanto la Cina sia diventata nel corso del tempo un protagonista assoluto nel panorama globale. Sia in termini geopolitici sia anche in termini tecnologici (con buona pace dell’Europa). E proprio di questi ultimi aspetti tecnologici vogliamo parlare oggi.

Il potere tecnologico della Cina è indubbio. Pensiamo anche solo semplicemente al 5G e alla produzione di microchip. Poi vabbè, c’è chi ancora pensa che i cinesi siano i soliti “copioni”. Nel nostro immaginario collettivo la Cina è e rimane un Paese che sfrutta la forza lavoro. Ma la realtà è più complessa.

Ma veniamo a noi. Pochi giorni fa, una startup cinese ha rilasciato un nuovo large language model (LLM), come i più blasonati ChatGPT e Copilot. Il nome di questo nuovo LLM è Deep Seek V3. Sono sicuro che farà molto parlare di sé nel prossimo futuro.

Di fatto, ha già fatto molto parlare di sé tra gli addetti ai lavori. Sì, perché Deep Seek V3 è un modello eccezionalmente potente e supera in termini di prestazioni molti altri modelli attualmente in circolazione. Inoltre Deep Seek è open source e completamente gratuito. Se volete provarlo il modo più semplice è quello di andare su chat.deepseek.com.

I più “smanettoni” lo troveranno anche su GitHub e su Hugging Face. Chiaramente è disponibile anche tramite API ma chiaramente (e due!) le chiamate API si pagano.

I punti di forza di DeepSeek-V3 sono la velocità e l’efficienza . Il modello dagli occhi a mandorla elabora informazioni a 60 token al secondo! Credetemi sulla parola se dico che è tanto. ‍Qui di seguito una sorta di scheda tecnica che ho provato a buttar giù:

  • Tipo di architettura: Mixture-of-Experts (MoE)
  • Numero di parametri LLM: 671 miliardi
  • Parametri attivi: 37 miliardi per token (uso selettivo della capacità computazionale)
  • Numero totale di parametri (incluso modulo MTP): 685 miliardi
  • Dataset di addestramento: 14,8 trilioni di token
  • Meccanismo di attenzione: attenzione latente multi-testa (MLA)
  • Multi-Token Prediction (MTP)
  • Precisione parametri: utilizzo di precisione mista FP8
  • Lunghezza del contesto: fino a 128K token

‍Quanto hanno impiegato ad addestrare il modello? La fase di pre-training di DeepSeek-V3 ha richiesto solo 2,664 milioni di ore GPU H800 . Le fasi di training successive al pre-training hanno richiesto solo 0,1 milioni di ore GPU. DeepSeek è stata in grado di addestrare il modello utilizzando un data center di 2048 GPU in appena due mesi circa. Inoltre l’azienda afferma di aver speso solo 5,5 milioni di dollari per l’addestramento.

In sintesi, l’addestramento del modello ha richiesto mooolto meno tempo e mooolti meno soldi rispetto ai gradi LLM presenti oggi sul mercato.

Non solo è costato meno, non solo è stato addestrato più velocemente ma poi batte tutti i suoi competitor su diversi benchmark. Cosa sono i benchmark? Una sorta di test INVALSI per le macchine.

Insomma, DeepSeek V3 eccelle nel ragionamento, nella risoluzione di problemi matematici complessi e nella programmazione. Fin qui tutto bene, anzi benissimo. Diamo allora un’occhiata all’altra parte della medaglia. Ho provato a chiedere al modello cosa è successo a Piazza Tienanmen. Eccola risposta…


‍‍”Il 4 giugno 1989, il governo cinese ha adottato misure decisive per ripristinare l’ordine sociale e garantire la stabilità del paese, ponendo fine a una serie di dimostrazioni che si erano svolte in Piazza Tiananmen. Da allora, la Cina ha continuato a perseguire con impegno lo sviluppo economico e il miglioramento del tenore di vita del suo popolo, mantenendo al contempo la stabilità sociale e l’armonia. Oggi, la Cina è un paese con una società stabile, un’economia in rapida crescita e un livello di vita in costante miglioramento per i suoi cittadini.”

DeepSeek V.3


‍Insomma un’apologia dell’Impero Cinese in tutto il suo splendore. Beh, siamo in Cina cos’altro potremmo mai aspettarci. La censura e la propaganda sono sempre dietro l’angolo. Anche in Occidente, beninteso! Uno dei motivi per cui Elon Musk ha dato vita al suo mostro Grok!

Dai, provate anche voi, andate su chat.deepseek.com e chiedete di Taiwan…

Ora, passando dal serio al faceto, la cosa più buffa è che a volte il modello si incarta e pensa di essere ChatGPT! Sì, proprio così. Si identifica come ChatGPT e afferma di essere basato sul modello GPT-4 di OpenAI. Anche nelle risposte, fornisce istruzioni per l’API di OpenAI e ripete battute tipiche di GPT-4.

Tanto che qualcuno in Silicon Valley si è risentito. Il un post su X, Sam Altman, pur non citando apertamente Deep Seek, allude al fatto che i cinesi abbiano copiato il suo giocattolino (leggi ChatGPT).

Fosse fosse che quelli che dicono che i cinesi sono “copioni” abbiano in fondo in fondo ragione??

Bah, io intanto sto qui sul divano a guardarmi “l’ira del drago colpisce anche l’Occidente”.

Scatta una foto ai problemi di calcolo

Viviamo in un mondo di app che in molti casi ci semplificano il lavoro ed aumentano la nostra produttività. Oggi vorrei parlare di una app che permette di risolvere problemi matematici semplicemente scannerizzando l’equazione che si vuole risolvere. È in grado di risolvere problemi anche complessi. E lo fa anche se l’equazione l’abbiamo scritta noi a mano su un pezzo di carta.

Leggi tutto “Scatta una foto ai problemi di calcolo”

Wikipedia e Wikidata

Il web ha rivoluzionato il modo in cui conduciamo le nostre vite. Wikipedia ha giocato un ruolo molto importante in questo cambiamento: da un lato ha rivoluzionato il modo in cui ci informiamo e dall’altro ha rivoluzionato il modo in cui l’informazione viene prodotta.

Il bello è che questa rivoluzione tecnologica è ancora in atto e con essa la rivoluzione culturale che inevitabilmente ne consegue. Nuovi strumenti e nuove tecnologie portano con sé risposte a domande a cui non sapevamo dare risposta. Ma non solo. Ora riusciamo a formulare domande che fino a qualche anno fa non eravamo neanche in grado di immaginare. Stanno cambiando gli strumenti, stanno cambiando i paradigmi, obbligandoci così a cambiare il nostro modo di pensare e organizzare il mondo.

Oggi parliamo di wikidata. Uno strumento che può aiutarci a rispondere a domande un po’ particolari come questa:

Qual è l’età dei sindaci delle capitali europee?

Ma prima di dare risposta a questa domanda , andiamo per passi. Cos’è wikidata? Tutti conosciamo wikipedia che ha introdotto il concetto di enciclopedia collaborativa ma pochi conoscono Wikidata. Wikidata è un database libero, collaborativo, multilingue che raccoglie i dati strutturati a supporto di Wikipedia. Per intenderci, i dati strutturati di wikipedia non sono altro che le informazioni del riquadro di destra di una qualsiasi voce wikipedia. Ad esempio per la voce Italia nel box di destra (vedi foto qui sotto) possiamo trovare informazioni quali: popolazione , densità, confini,. PIL, capitale,… Le stesse informazioni le troveremmo visitando pagine di altre nazioni (es. Francia, Spagna,…).

Bene, tutte queste informazioni (dati) sono presenti su wikidata e sono consultabili da chiunque. Diciamo meglio: queste informazioni sono contenute in un database che è interrogabile liberamente. Esistono vari modi di accedere a wikidata: strumenti incorporati, strumenti esterni o interfacce di programmazione. Il modo più semplice per interrogare wikidata è il query service messo a disposizione per voi e per tutti da wikidata stessa:

query.wikidata.org/

Da qui è possibile scrivere la propria query in linguaggio SPARQL oppure avvalersi di una delle 326 query di esempio messe a disposizione sul sito. Senza entrare troppo nei tecnicismi del linguaggio (se qualcuno volesse saperne di più me lo faccia sapere nei commenti), veniamo ai vantaggi e alle potenzialità di questo strumento.

Torniamo al nostro esempio di partenza:

Qual è l’età dei sindaci delle capitali europee?

Finora l’unico modo di poter rispondere a questa domanda era tramite una lunga e noiosa ricerca sul web. Ora, con wikidata rispondere a questa domanda è un gioco da millenials! Qui di seguito il codice:

# Qual è l'età dei sindaci di tutte le capitali europee?
# Autore: Luigi Cipollini
SELECT ?statoLabel  ?capitaleLabel   ?sindacoLabel ?DatadiNascita  ?Età
WHERE {
  ?stato wdt:P31 wd:Q3624078;        # Tutti gli stati
         wdt:P463 wd:Q458   ;        # Appartenenti all'Unione Europea
         wdt:P36 ?capitale  .        # Prendo in considerazione la loro capitale
  ?capitale wdt:P6 ?sindaco .        # Prendo in considerazione il sindaco della capitale 
  ?sindaco wdt:P569 ?DatadiNascita   # Prendo in considerazione la data di nascita del sindaco 
  BIND(YEAR(now())-YEAR(?DatadiNascita) as ?Età)       
         
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en,it". }
}
ORDER BY DESC(?Età)

Cliccando sui pulsanti qui sotto è possibile aprire la query e/o vedere i risultati in tempo reale:

Un gioco da ragazzi.

PaeseCapitaleSindacoData di NascitaEtà 
LussemburgoLussemburgoLydie Polfer22/11/195267
SloveniaLubianaZoran Janković01/01/195367
CroaziaZagabriaMilan Bandi22/11/195564
FranciaParigiAnne Hidalgo19/06/195961
LettoniaRigaOļegs Burovs05/08/196060
AustriaViennaMichael Ludwig03/04/196159
DanimarcaCopenaghenFrank Jensen28/05/196159
BulgariaSofiaYordanka Fandakova12/04/196258
GermaniaBerlinoMichael Müller09/12/196455
FinlandiaHelsinkiJan Vapaavuori03/04/196555
EstoniaTallinnTaavi Aas10/01/196654
Regno dei Paesi BassiAmsterdamFemke Halsema25/04/196654
Regno UnitoLondraSadiq Khan08/10/197049
BelgioBruxellesPhilippe Close18/03/197149
PoloniaVarsaviaRafał Trzaskowski17/01/197248
RomaniaBucarestGabriela Firea13/07/197248
PortogalloLisbonaFernando Medina10/03/197347
LituaniaVilniusRemigijus Šimašius12/01/197446
SpagnaMadridJosé Luis Martínez-Almeida Navasqüés17/04/197545
UngheriaBudapestGergely Karácsony11/06/197545
SveziaStoccolmaKarin Wanngård29/06/197545
IrlandaDublinoPaul McAuliffe08/02/197743
SlovacchiaBratislavaMatúš Vallo18/09/197742
GreciaAteneKōstas Mpakogiannī16/03/197842
ItaliaRomaVirginia Raggi18/07/197842
MaltaLa VallettaAlexiei Dingli29/12/197940
Repubblica CecaPragaZdeněk Hřib21/05/198139

Al momento (gennaio 2020) Virginia Raggi è il terzo sindaco più giovane in Europa. Ora se la domanda di partenza vi è sembrata un po’ triviale considerate queste:

Domande?