Statistica d’inchiesta

Esistono due tipi di statistica: quella descrittiva e quella inferenziale. La statistica descrittiva si occupa della descrizione di un fenomeno (attraverso indici e grafici). La statistica inferenziale si occupa invece di fare “inferenza” (attraverso un processo induttivo che va dal particolare al generale) sulle caratteristiche di una popolazione basandosi sui dati campionari. Ma a ben guardare esiste un altro tipo di statistica: la statistica d’inchiesta. Non si studia a scuola o all’università, la si esercita sul campo. Nasce dall’incontro tra statistica e il giornalismo d’inchiesta.

Un esempio evidente di “statistica d’inchiesta” è quello proposto dalla giornalista Milena Gabanelli che nel 2017 ha dato il via ad una rubrica intitolata Dataroom in collaborazione con il Corriere della Sera.

https://www.corriere.it/dataroom-milena-gabanelli/

Quella che io chiamo “statistica d’inchiesta” nei paesi anglosassoni è conosciuta come data journalism, in quelli francofoni journalisme scientifique. Purtroppo in Italia non è molto diffusa e la rubrica della Gabanelli rappresenta una delle poche eccezioni. Qui su infigures mi sono ripromesso di dare più risalto a questo tipo di iniziative.

In generale, la statistica se applicata con sapienza ed esperienza può essere utilizzata anche per scoprire frodi. Ad esempio, il ricorso alla legge di Benford (una distribuzione che descrive la probabilità con cui compare la prima cifra dei numeri) ha permesso di far venire alla luce falsificazioni nei libri contabili, brogli elettorali, evasione fiscale e più recentemente è stato proposto di utilizzarla per identificare possibili falsificazioni delle cifre relativi al COVID-19. Per chi fosse interessato l’articolo di Anran Wei e Andre E. Vellwock dal titolo “Is COVID-19 data reliable? A statistical analysis with Benford’s Law” è scaricabile qui. Di seguito riporto soltanto l’abstract.

Benford’s Law is applied as a method to analyze and find data manipulation in large datasets. It is consistently recognized as a valid method to combat financial fraud and tax evasion. Here, we studied its application to datasets of COVID-19, targeting data manipulation in the following: total confirmed cases, daily confirmed cases, total confirmed deaths, daily confirmed deaths. We considered countries among the most total confirmed cases on the day 1 September 2020 and China. General results showed that COVID-19’s numbers do follow Benford’s Law. Moreover, no evidence of data manipulation is seen for data from the USA, Brazil, India, Peru, South Africa, Colombia, Mexico, Spain, Argentina, Chile, the United Kingdom, France, Saudi Arabia, China, Philippines, Belgium, Pakistan, and Italy. Results suggest a high possibility of data manipulations for Russia’s data. A small divergence is present in Iran’s numbers.

Anran Wei e Andre E. Vellwock

Se poi vi state chiedendo cosa diavolo sia la legge di Benford, non vi preoccupate ne parlerò diffusamente in un prossimo articolo. Stay tuned.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *