L'insostenibile incertezza del sondaggio

Periodo elettorale, tempo di sondaggi.

Ognuno fa il suo, dall’istituto di ricerca statistica al quotidiano on-line, tutti a dirci chi sale e chi scende, chi vince e chi perde. Schiere di commentatori passano serate ad analizzare uno spostamento dello 0.5% di un partito o l’incremento dello 0.8% di un altro. Nel nostro Paese l’affidamento a questi strumenti è stato tale che intere politiche si sono basate sul monitoraggio costante della popolazione.

E’ anche il Paese dove i sondaggi hanno sbagliato clamorosamente delle previsioni – vincitori in pectore che si svegliano “non-vincitori” al conto delle schede – o grandemente sottostimato una delle forze in campo, come avvenuto al M5S nel 2013 (dati al 19% hanno preso il 25%).

Come è potuto avvenire tutto questo?

Intanto cerchiamo di capire cosa è un sondaggio e quindi capire il suo grado di attendibilità.

Il sondaggio è uno strumento statistico che tenta di estrarre informazioni riguardanti una grande platea attraverso l’osservazione di una piccola parte di essa.

Si individua il gruppo che intendo analizzare (es: gli italiani votanti), si chiede a alcune persone che compongono il gruppo di rispondere ad una domanda (es: che partito voterai alle prossime elezioni?) e si considera la risposta ottenuta come valida per l’insieme completo.

Si capisce immediatamente che la scelta del campione cui sottoporre la domanda è cruciale ai fini del buon in risultato. Se intervisto solo piemontesi, solo pensionati, solo donne o solo i lettori di un certo quotidiano…il risultato sarà distorto.

E su quest’ultimo punto lasciatemi fare un commento: i risultati dei cosiddetti sondaggi su siti on-line o trasmissioni televisive non sono significativi, e tecnicamente non sono neppure sondaggi ma strumenti per aumentare i click alla testata e le relative entrate pubblicitarie. Chi risponde alle domande non è in nessun caso un campione rappresentativo: è composto solo dai lettori di quel sito che han voglia di mettere un click (magari più volte), senza alcun controllo sulla sua composizione.

Il campione deve essere il più possibile rappresentativo dell’insieme completo. Va selezionato in base a provenienza geografica, età, genere, scolarizzazione, professione…Ma anche una selezione accurata del campione non preserva da tutte le possibili distorsioni: le domande sono ancora poste in prevalenza con chiamate al telefono fisso e quindi nel campione finiranno prevalentemente utenti di telefonia fissa. Questo è accettabile quando tutti possiedono un telefono fisso o se si ritiene che chi non lo possiede distribuisca il suo voto esattamente come chi ce l’ha. Questa ultima ipotesi però non è più vera (forse lo era 20 anni fa quando una grande fetta di popolazione possedeva il telefono fisso). Probabilmente questo è il motivo principale che ha portato a sottostimare di molto il risultato del M5S alle politiche del 2013, molto votato dai giovani che hanno raramente ne hanno uno.

Ma la scelta del campione non esaurisce il lavoro del sondaggista.

L’altra parte cruciale è la valutazione dell’errore (o dell’incertezza) legata al risultato.

Anche se il campione fosse scelto in modo molto accurato, rimarrebbe comunque un’incertezza quando vado a estendere le risposte di pochi a molti. Valutarla ci dice con che grado di fiducia assumere il risultato. Questa incertezza deriva dalla natura comunque casuale con cui seleziono il campione: non tutti i pensionati la pensano alla stessa maniera e potrei averne casualmente intervistato uno con un’idea poco comune nella sua categoria. Questa incertezza può essere stimata e scala come l’inverso della radice quadrata del numero del campione. Se intervisto 10 persone, l’errore sarà oltre il 30%, se ne intervisto 100 il 10%.
Normalmente i sondaggi utilizzano un campione di 1000 interviste, per i quali l’errore è del 3%. Ciò significa che variazioni dell’1-2% non sono registrabili e sono prive di senso. Per questo esistono differenze apparentemente grandi tra sondaggi diversi pur lo stesso giorno, pur sullo stesso argomento.

Aumentare il numero degli intervistati diminuisce l’incertezza ma non molto velocemente. Intervistare 10mila persone, aumentando di molto le spese, e/o il tempo, produce un’incertezza non 10 volte inferiore, ma solo 3 (l’1%). Per questo i sondaggisti utilizzano metodi di “pesatura” del campione, ma sono di natura essenzialmente empirica.

Se fatti e letti nel modo corretto i sondaggi forniscono informazioni importanti e utili.

Ma occorre utilizzarli in modo consapevole, capaci di distinguere cosa si può trarre da essi e cosa invece non possono dirci.

“La conoscenza umana è incerta, inesatta e parziale”
Bertrand Russell

“L’incertezza è il peggiore dei mali, fino al momento in cui la realtà ce la fa rimpiangere”
Alphonse Karr