Auguri Presidente

[…] Il mosaico che compone la società italiana ha tante tessere preziose. Penso – tra le altre – al mondo delle nostre università, ai centri di ricerca, alle prestigiose istituzioni della cultura. Ho conosciuto e apprezzato in tante occasioni l’attività che si svolge in questa costellazione di luoghi del pensiero, dell’innovazione, della scienza. Si tratta di un patrimonio inestimabile di idee e di energie per costruire il futuro. È essenziale che sia disponibile per tutti. Che sia conosciuto, raccontato, condiviso. Che siano rimossi gli ostacoli e reso più agevole il rapporto tra istituzioni culturali e società e l’accesso al sapere. In questo senso un ruolo fondamentale è assegnato ai media e in particolare al nostro servizio pubblico. Abbiamo bisogno di preparazione e di competenze. Ogni tanto si vede affiorare, invece, la tendenza a prender posizione ancor prima di informarsi. La cultura è un grande propulsore di qualità della vita e rende il tessuto sociale di un Paese più solido.[…]

Iniziamo l’anno con le parole del Presidente Mattarella -in occasione del messaggio di fine anno- sul mondo della cultura e la necessità di rendere la conoscenza accessibile a tutti.

In un altro passaggio si parla di social e di fake news:

[…]Senso civico e senso della misura devono appartenere anche a chi frequenta il mondo dei social, occasione per ampliare le conoscenze, poter dialogare con tanti per esprimere le proprie idee e ascoltare, con attenzione e rispetto, quelle degli altri. Alle volte si trasforma invece in strumento per denigrare, anche deformando i fatti. Sovente ricorrendo a profili fittizi di soggetti inesistenti per alterare lo scambio di opinioni, per ingenerare allarmi, per trarre vantaggio dalla diffusione di notizie false.[…]

Qui il video del discorso integrale (durata 15:58).

Grazie Presidente e auguri di buon anno.



Buone letture

Nel mondo anglosassone esiste un termine mind-blowing che associato ad un libro sta ad indicare una lettura che letteralmente fa esplodere la testa (in senso positivo). In altri termini un libro che dopo averlo letto non si è più gli stessi. Libri -insomma- che ti fanno scattare qualcosa dentro e che ti fanno vedere il mondo con un occhio diverso. Tanti esempi nella letteratura ma oggi mi vorrei soffermarmi sulla saggistica.

Tre libri davvero eccezionali che mi sento di consigliare a tutte le persone curiose del mondo che ci circonda:

In questo spazio non ho intenzione di fare alcuna recensione di questi libri. Solo un paio di parole per solleticare l’appetito del lettore e nulla più. Iniziamo.

Pensieri lenti e veloci  – Daniel Kahneman
Titolo originale: Thinking, Fast and Slow

L’autore del libro è Daniel Kahneman psicologo, economista e premio Nobel per l’economia nel 2002. Il libro pubblicato nel 2011 riassume le ricerca accademica condotte da Kahneman nel corso di una vita.

La tesi centrale del libro è la dicotomia tra i due fondamentali meccanismi della mente umana: quello che Kahneman chiama “Sistema 1” veloce, istintivo ed emotivo e il “Sistema 2” più lento, ragionato e logico. Kahneman ci spiega che molto spesso prediligiamo il “sistema 1” e questo porta inevitabilmente a decisioni irrazionali. Nel libro spiega in quali situazioni questo processo ha i suoi benefici e in quali al contrario è raccomandata più attenzione e raziocinio.

Sapiens. Da animali a dèi: Breve storia dell’umanità – Yuval Noah Harari
Titolo originale: Sapiens: A Brief History of Humankind

L’autore del libro è Yuval Noah Harari storico, saggista e professore universitario. Il libro pubblicato nel 2011 racconta la storia dell’umanità dalla sua comparsa sulla Terra ai giorni nostri.

Harari racconta l’evoluzione delle specie umane (non soltanto gli Homo Sapiens) attraverso una narrazione che ci illustra bene ciò che siamo e come lo siamo diventati. Molto interessanti alcune sue considerazioni su politica, economia, biologia e filosofia.

Factfulness. Dieci ragioni per cui non capiamo il mondo. E perché le cose vanno meglio di come pensiamo – Hans Rosling
Titolo originale: Factfulness: Ten reasons we’re wrong about the world – and why things are better than you think

L’autore del libro è Hans Rosling medico, accademico e statistico svedese morto nel 2017. Il libro pubblicato postumo nel 2018 ha come coautori suo figlio (Ola Rosling) e sua nuora (Anna Rosling Rönnlund).

In questo suo libro, Rosling suggerisce che la stragrande maggioranza degli esseri umani ha una errata percezione dello stato del mondo. La gente crede che il mondo sia più povero, meno in salute e più pericoloso di quanto non sia in realtà. Rosling indaga anche i motivi che stanno alla base di questa errata percezione ed elenca 10 istinti (a ciascuno è dedicato un capitolo del libro) che limitano la nostra visione del mondo. Da buon statistico, Rosling suggerisce di utilizzare le statistiche per avere una visione del mondo chiara e prima di pregiudizi.

Qui di seguito riporto i link di questi libri per chi volesse scaricarli gratuitamente:

In italiano:

  • Pensieri lenti e veloci (formato epub)
  • Sapiens. Da animali a dèi (formato epub)
  • Factfulness (formato epub)

In inglese:

  • Thinking, Fast and Slow (formato epub)
  • Sapiens: A Brief History of Humankind (formato epub)
  • Factfulness (formato epub)

Ci sono libri la cui lettura è consigliata almeno una volta nella vita. In questo caso mi sento di sbilanciarmi nel dire che la lettura di questi tre saggi è consigliata più e più volte nella propria vita. Per una comprensione davvero profonda.

Non mi rimane che augurarvi buone letture!

Tombolata natalizia

Natale. Tempo di regali, presepi, addobbi, alberi, famiglia e …tombolate! Ed è proprio della tombola che parleremo oggi. Un gioco che si presta molto bene a tanti quesiti di natura probabilistica. Ad esempio: Qual è la probabilità di mettere un numero sulla cartella già alla prima estrazione? Qual è la probabilità di fare ambo dopo due estrazioni? Qual è la probabilità di fare ambo entro le prime 10 estrazioni? E terno? Dopo quante estrazioni è più probabile fare tombola? Quante cartelle conviene comprare? È meglio prendere il tabellone o sei cartelle?

Proviamo a dare risposta ad alcuni di questi interrogativi, pur nella consapevolezza che non aumenteranno le vostre probabilità di vincita.

Cominciamo da una domanda facile facile: qual è la probabilità che alla prima estrazione esca un numero presente sulla mia cartella? Nonostante la domanda non richieda formule complicate o nozioni di calcolo combinatorio, a volte sento dire 1 su 90 . Sbagliato. Ogni cartella ha 15 numeri pertanto alla prima estrazione la probabilità che venga estratto un numero presente sulla mia cartella è di 15/90. Ovvero circa il 17%.

Si ricorda se mai ce ne fosse bisogno che una cartella della tombola è composta da 15 numeri suddivisi in tre differenti righe e che questi numeri non si ripetono all’interno della cartella stessa.

Altra domanda: qual è la probabilità che con la mia cartella faccia ambo già alla seconda estrazione? La probabilità è bassa ma non bassissima: (15/90)*(4/89) circa 0.7% ovvero una probabilità su 133.

Che poi ci sia il simpaticone di turno che grida “ambo!” già alla prima estrazione, beh quello è un altro discorso. La probabilità di trovare il simpaticone in un gruppo di N elementi ce la conserviamo come esercizio per la prossima volta.

Possiamo generalizzare la domanda in questo modo: qual è la probabilità  che dopo N estrazioni la mia cartella contenga  esattamente X segnalini? Dove per X si intende un numero da 0 a 15. (0 cartella ancora vuota e 15 tombola). E dove per ‘segnalini’ si intendono bucce di mandarino, fagiolini,… a seconda delle usanze locali e le preferenze personali. In formule:

Ma piuttosto che far parlarle le formule, diamo spazio al grafico:

Nota importante: con X=2 non si intende la probabilità di fare ambo, quanto piuttosto la probabilità di una cartella con esattamente due segnalini (non necessariamente sulla stessa riga). Per la cronaca,  la probabilità che essendoci due segnalini sulla cartella questi si trovino sulla stessa riga (ambo)è pari a 4 su 14 (ovvero circa 28%). Allo stesso modo X=3 non significa aver fatto terno, né x=4 quaterna e né x=5 cinquina. Però X=15 equivale ad aver fatto tombola! (vedi i dati in tabella)

Ora soffermiamoci su due curve in particolare.


La curva (in rosso) che descrive la probabilità di avere una cartella vergine ad una certa estrazione decresce molto velocemente. Dopo 12 estrazioni scende sotto al 10% e dopo 22 estrazioni scende sotto all’1%. Al contrario la probabilità di fare tombola con una certa cartella (curva in verde) cresce molto lentamente all’aumentare delle estrazioni. Dopo 68 estrazioni rimane di circa l’1% mentre è del 50% alla 86-esima estrazione. Teniamo a mente il fatto che queste sono le probabilità per una determinata cartella. È chiaro che il verificarsi della tombola (da parte di un qualsiasi giocatore) nel corso di una partita dipende dal numero di cartelle in gioco. In particolare:

Ora prendiamo in considerazione Paperino e Gastone rispettivamente il papero più sfortunato e quello più fortunato sulla faccia di Paperopoli.

Paperino estrazione dopo estrazione non riesce a mettere nessun numero sulla sua cartella. Arriva alla 75 esima estrazione e la sua cartella rimane vuota! Una probabilità dello 0.000000000000002%; detto in altri termini una probabilità su 45,795,673,964,460,800 (oltre 45 biliardi). Questa è la stessa probabilità che ha Gastone di fare tombola con la sua cartella dopo appena 15 estrazioni. Il termine tecnico per definire tale probabilità è “culo esponenziale”.

Ma andiamo avanti. Abbiamo visto le percentuali esatte della tombola e di quanti numeri posso aspettarmi di aver riempito la mia cartella dopo N estrazioni ma ancora rimane da rispondere alla domanda: qual è la probabilità di fare ambo entro N estrazioni? E terno, quaterna e cinquina? Per rispondere a queste domande ho effettuato una simulazione con 10mila partite. Il grafico sottostante mostra la probabilità di fare ambo terno,… prima della N-esima estrazione (con N da due a 90).

Da questo possiamo desumere il numero medio di estrazioni che dobbiamo attendere prima che la nostra cartella si verifichi un ambo, un terno, una quaterna, una cinquina e una tombola.

AmboTernoQuaternaCinquinaTombola
Numero medio di estrazoni1529466586

Queste però sono le probabilità per una singola cartella. Ma la tombola non è un solitario. Il bello del gioco è proprio quello di giocare in tanti. Maggiore è il numero dei giocatori/cartelle e prima si verificheranno le vincite.

Passiamo ad un altro domandone che assilla i tombolisti veraci: conviene prendere il tabellone o sei cartelle? Sebbene la probabilità di vincita di una determinata cartella e una del tabellone sia uguale, le sei cartelle che formano il cartellone hanno una caratteristica importante rispetto a sei cartelle prese a caso: ciascun numero compare una e una sola vota. Prendendo invece sei cartelle a caso ci saranno numeri doppi, alcuni anche tripli e numeri che non sono presenti in nessuna cartella. Questa particolarità del cartellone lo avvantaggia quando si considera la probabilità di fare tombola. Questa “supremazia” del tabellone è stata dimostrata sia teoricamente da Roberto Natalini (ricercatore del CNR – leggi articolo) che verificata da simulazioni condotte. A questo indirizzo potrete trovare un simulatore molto ben fatto, progettato da Luca Rainone che illustra visivamente questo fenomeno. Il vantaggio della cartellonista è comunque limitato 54% contro 46%.

Per ovviare a questa seppur minima supremazia del tabellone occorre procurarsi delle cartelle che godano anch’esse della caratteristica di non avere numeri ripetuti. Sembra un compito complicato ma in verità i fabbricanti di tombole ci vengono in aiuto. Ogni cartella ha un suo proprio numero progressivo. Occorrerà semplicemente prendere cartelle in serie.

Non mi resta che augurarvi buone feste e felici tombolate!

La media del pollo

La domanda “che lavoro fai?” mi ha messo sempre un po’ in imbarazzo. Non tanto perché lavoro nel mondo del porno, come tester di ascelle o degustatore di alimenti per cani, quanto piuttosto perché sono uno statistico e mi sono accorto che sul tema c’è parecchia disinformazione. La tipica discussione si svolge più o meno così:

-E tu che lavoro fai?

-Lo statistico.

-Ah, fai le statistiche! Te le raccomando quelle!

-[sine verbis]

Al che mi si presentano due strade. La prima quella tentare di spiegare il mio lavoro, la seconda –decisamente più prudente- quella di cambiare discorso. In generale, mi sono accorto che le statistiche non sono viste di buon occhio. I più avversi oppositori si rifanno sempre alla proverbiale “media del pollo” del poeta Trilussa: tra chi mangia un pollo intero e chi nulla, in media hanno mangiato mezzo pollo a testa. Breve sintesi per etichettare la statistica come falsa e ingannevole.

Il punto è che la media (aritmetica) è un indicatore statistico e come tale serve a fare una sintesi dei dati. E in virtù di questa sintesi lascia inevitabilmente qualcosa fuori.

Un fenomeno particolarmente distorto (o iniquo come ad esempio la distribuzione del reddito o la storia del pollo di Trilussa) non dovrebbe mai essere “sintetizzato” utilizzando la media aritmetica. E questo lo sanno bene gli statistici che conoscono i limiti della media aritmetica e per questo motivo non sintetizzano mai un fenomeno con un numero secco. D’altra parte questa loro consapevolezza si scontra puntualmente con la tendenza delle persone (e spesso anche dei giornalisti) a semplificare le cose. Molto più semplice dire che in Italia il reddito medio è di 29 mila e rotti euro piuttosto che raccontare come il reddito si distribuisce (in maniera iniqua). Inoltre, tutti siamo a nostro agio con il concetto di “media” mentre sono in molti quelli che arricciano il naso quando sentono parlare di “mediana” o peggio di “deviazione standard”. Brrr rabbrividiamo!

Allora il concetto che vorrei far passare è che lo sforzo deve essere da entrambe le parti: gli statistici (e in generale chi si occupa della gestione dei dati) e coloro che usufruiscono dei dati (giornalisti e utenti in generale). I primi devono impegnarsi a comunicare i dati nella maniera più semplice e comprensibile (senza cadere nei tecnicismi), i secondi devono fare lo sforzo di andare oltre il dato elementare e guardare a più di un indicatore.

Su questo blog avremo modo di parlare di indicatori statistici (ad esempio media, mediana e moda) e delle diverse tipologie di medie (aritmetica, geometrica, armonica,…). E soprattutto, sotto quali condizioni risulta opportuno utilizzarle.

E se proprio mezzo pollo deve essere, per me ala e coscia! Niente petto!

Numeri da piazza

Nuova manifestazione in piazza e nuovo giro di numeri. Sabato 14 dicembre 2019 si è svolta a piazza San Giovanni a Roma la manifestazione delle sardine. Oltre 100mila per gli organizzatori e 35mila per la questura. Siamo alle solite.

Proviamo ad attenerci ai fatti. La piazza di San Giovanni e zone limitrofe è di circa 39mila metri quadri. Fonte Google Maps (vedi foto).

Ora il punto dolente è: quante persone possono stazionare in un metro quadro? La figura qui sotto può aiutare a capire come stimare il numero.

Chiaramente le piazze non vengono mai riempite in maniera uniforme: ci saranno zone con un paio di persone al metro quadro e zone con una concentrazione maggiore. Il valore di 5 persone al metro quadro non rappresenta il limite massimo ma è comunque vicino alla soglia oltre la quale non è possibile andare. Detto questo, possiamo procedere con la “media del pollo”, lasciando al lettore il piacere di fare la propria valutazione:

Persone
al m2
Stima per una sup. di 39mila m2
139.000
278.000
3117.000
4156.000
5195.000
6234.000

Numeri alla mano e occhio alle immagini della piazza, la stima degli organizzatori (oltre 100mila persone) -tutto sommato- pare più verosimile di quella della questura (35mila).

Detto questo, oggigiorno per stabilire quante persone partecipano ad un determinato evento esistono sicuramente tecniche più sofisticate e accurate. Ad esempio modelli matematici (o se preferite di intelligenza artificiale) applicati su immagini da droni o telecamere posizionate nei punti di accesso. In alternativa, anche il conteggio degli accessi ai BTS (ripetitore di segnali radio) dei gestori telefonici o il numero di transiti presso le stazioni metro potrebbero dare indicazioni preziose riguardo al livello di partecipazione di un evento. Tutto questo però minerebbe alla base l’esilarante gioco tra questura e organizzatori a chi la spara più grossa. #laguerradeinumeri

Italia un paese di litigiosi

Gli italiani hanno una innata propensione a risolvere le controversie in sede legale. La dura realtà è messa in luce -ad esempio- dal rapporto 2012-2014 della CEPEJ (vedi tabella oppure scarica il report completo). A poco contribuiscono le norme tese a promuovere i metodi alternativi di risoluzione delle controversie (in inglese ADR – Alternative Dispute Resolution).

I motivi della elevata litigiosità italiana sono di varia natura, in primis aspetti socio-culturali, la scarsa fiducia nella possibilità di affrontare pacificamente la controversia. A questo si aggiunga la complessità del tessuto normativo responsabile inoltre del proliferare di un numero spropositato di studi legali lungo tutto lo stivale.

Qui di seguito viene riportata la cartografia tratta da Indice di Litigiosità in Italia 2001-2014.  L’indice di litigiosità è il rapporto tra il numero di cause civili di primo grado sopravvenute nell’anno presso i Giudici di Pace e i Tribunali Ordinari e la popolazione media residente per 1.000. In conformità con l’ultima pubblicazione de “L’italia in cifre – 2015” da parte dell’ISTAT (vedi estratto) per il calcolo dell’indice è stato considerato il totale delle cause civili di primo grado, sia contenzioso sia non contenzioso (volontaria giurisdizione). Pertanto questo indice non è da considerarsi un vero e proprio indice di litigiosità. Nonostante questo limite, l’indicatore consente di effettuare confronti sia a livello geografico sia temporale.

Indice di litigiosità in Italia 2014

Indice di Litigiosità in Italia 2001-2014

Giornata mondiale della statistica e 3 note fuori luogo

World Statistics Day 2015

20 Ottobre 2015. Mentre nel resto del mondo si festeggia la Seconda Giornata mondiale della statistica, in Italia siamo impegnati nella Quinta Giornata italiana della statistica! [N.f.L. Insomma a giudicare dalla numerazione siamo avanti!]

E mentre nel resto del mondo il tema di riferimento è  “Better data, Better lives“, in Italia il tema è stato declinato in “La buona statistica migliora la vita“. [N.f.L. Magari la potesse anche allungare ma per quello c’è sempre la birra.]

Data scientists in tutto il mondo dibattono sulla necessità di produrre statistiche e indicatori affidabili e tempestivi per misurare il progresso di un paese. Concordo. E concordo anche sul fatto che la statistica (in senso lato) sia uno strumento indispensabile per supportare le decisioni di governo e guidare lo sviluppo del paese. [N.f.L. Purtroppo siamo anni luce lontani da questi orizzonti, laddove la classe dirigente italiana relega la statistica a meri numeri da considerare solamente in fase elettorale.]

#statsday15

Approssimando si fa centro

Oggi molto più di ieri siamo letteralmente bombardati da informazioni e dati. Come fare per districarsi fra tutti questi numeri? Purtroppo abbiamo perso la capacità di fare di calcolo e anche quella di cogliere al volo un dato verosimile da un dato palesemente fasullo. Il più delle volte ci fidiamo incondizionatamente della fonte della notizia, nel resto dei casi ci affidiamo al nostro intuito (che come abbiamo visto in un precedente post non immune dal commettere errori).

La nostra reazione ad una notizia del tipo “in Italia 13 mld di euro di cibo finiscono nella spazzatura”  sarebbe equivalente alla reazione a fronte di “in Italia 5 mld di euro di cibo finiscono nella spazzatura”. La notizia viene percepita ed elaborata dal nostro cervello (che ha la tendenza a semplificare le cose) come “in Italia c’è tanto tanto spreco di cibo”  i dati numerici rappresentano informazioni accessorie poco rilevanti. Insomma che siano 13 miliardi o 5 miliardi poco o nulla importa.

Troppi numeri

Per interpretare questi numeri, spesso confusi e a volte contraddittori, bastano due semplici abilità:

  • comprendere il significato dei grandi numeri
  • saper fare stime approssimate e sensate basandosi soltanto su pochi fatti essenziali.

Acquisire tali abilità è alla portata di tutti e può aiutare anche in ambito lavorativo. Molte importanti multinazionali in fase di colloquio di lavoro pongono ai candidati domande del tipo “qual è il valore del mercato dei pannolini usa e getta in Italia?”. La domanda a primo acchito può sembrare ridicola ma in realtà serve a valutare sia l’intelligenza sia l’elasticità mentale del candidato.

Questo tipo di domande vengono spesso identificate come “problemi di Fermi”. Sembra infatti che il celebre fisico Enrico Fermi si divertisse a creare e risolvere quesiti di questo tipo. Cosa serve per sviluppare la capacità di saper trattare i quesiti di Fermi? Di fatto non molto: una buona dose di curiosità, saper maneggiare grandi numeri, e la conoscenza del sistema di misura di quel particolare problema (es sistema metrico decimale,…). Gli argomenti che vorrei trattare nei prossimi post sono:

  • Stima diretta vs stima indiretta (media geometrica)
  • La notazione scientifica
  • Operazioni sui grandi numeri
  • Unità di misura e conversione delle unità

Nei prossimi post cercherò di affrontare tutti questi aspetti in maniera chiara e semplice, rimanete sintonizzati.

 

 

 

Il “paradosso” del compleanno

Ho sempre avuto un debole per i paradossi della logica ma quello di cui vorrei parlare oggi, il celebre “paradosso” dei compleanni, in verità non è un vero paradosso in senso stretto. È piuttosto un verità matematica che contraddice l’intuizione comune. Ma vediamo meglio di cosa stiamo parlando. Provate a chiedere ad un vostro amico questa semplice domanda:

“Qual è la probabilità che in una classe di 23 studenti almeno due festeggino il compleanno lo stesso giorno?”

Sia chiaro, non cerchiamo una risposta esatta quanto piuttosto un valore indicativo:

  • molto molto improbabile (<1%)
  • molto improbabile (<5%)
  • poco probabile (meno del 10%)
  • così così (circa 50%)
  • abbastanza probabile (circa 75%)
  • molto probabile (>90%)

Ebbene, statene pur certi, la stragrande maggioranza dei vostri amici vi risponderà che la probabilità è molto bassa. In verità, calcoli alla mano, la reale percentuale è pari al 51%. Non ci credete? Provate allora a considerare dei casi pratici tra i colleghi del vostro ufficio, tra la cerchia delle vostre amicizie, tra i compagni di scuola di vostro figlio. Vi accorgerete che le cose stanno proprio così. La probabilità che due persone in un gruppo compiano gli anni nello stesso giorno è molto superiore a quanto il nostro intuito ci porterebbe a considerare. Qui di seguito il grafico che illustra l’andamento della probabilità al crescere del numero di persone nel gruppo.

Paradosso del compleanno

Per chi fosse interessato alla matematica dietro a questo problema si inizia calcolando la probabilità che tutti gli studenti siano nati in giorni diversi e poi si calcola il suo complemento, in formule:

P(p) = 1-\frac{364!}{365^{p-1}(365-p)!}

La bellezza del “paradosso del compleanno” sta nel mettere a nudo i limiti della nostra intuizione. Intuizione che spesso ci aiuta a vedere le cose con un “terzo occhio” ma che a volte incorre in questi clamorosi errori di valutazione!