Bayes e i gabbiani killer
Disclaimer: il seguente articolo contiene un po’ di matematica.
Iniziamo con una storiella inventata (ma verosimile, credetemi). Come ben sapete a Brighton, la città dove vivo, ci sono moltissimi gabbiani. La maggior parte si limita a rubare fish&chips alle persone che passeggiano sulla spiaggia. Ma una minoranza va ben oltre: gradisce la carne umana e cerca di mangiarsi i passanti in un sol boccone.
Questa minoranza di gabbiani killer è stimata essere il 4% del totale dei gabbiani. Dopo innumerevoli proteste della popolazione un bel giorno il sindaco si decide a comprare un macchinario per catturare i gabbiani killer. Quando un gabbiano killer si avvicina il macchinario si attiva e riesce a catturarlo il 75% delle volte. Il macchinario però non è perfetto, e quando un gabbiano innocente si avvicina il macchinario, per errore, lo cattura il 5% delle volte.
Dopo il primo giorno di funzionamento il macchinario ha già catturato il primo gabbiano. Evviva! Prima di cantar vittoria dobbiamo però rispondere a una domanda: qual è la probabilità che questo gabbiano sia effettivamente un gabbiano killer?
Prima di andare avanti e leggere la risposta provate a darne una voi, anche a spanne se non volete avventurarvi in calcoli complicatissimi.
Attenzione, spoiler dopo questa linea.
Ok, prima di usare la matematica usiamo i disegnini. Questi qui sotto sono 100 gabbiani. Sappiamo che i gabbiani killer sono il 4% del totale, quindi 4 di questi 100 gabbiani sono killer (quelli rossi in basso a destra).
Ora introduciamo il macchinario cattura gabbiani. Sappiamo che quando vede un gabbiano killer è in grado di catturarlo il 75% delle volte, ovvero 3 volte su 4. Quindi, di quei 4 gabbiani rossi, 3 finiscono nelle grinfie del macchinario.
Bene. Ora abbiamo tutti gli strumenti per fare l’ultimo passo e arrivare alla risposta. Sappiamo che il macchinario cattura il 5% dei gabbiani innocenti. Quindi, di questi 100 gabbiani, 96 sono innocenti, e il 5% di loro sono stati catturati per errore dal macchinario. Il 5% di 96 è 4,8 gabbiani, ma arrotondiamo a 5 per semplicità. Oh no, abbiamo 5 gabbiani innocenti intrappolati per errore!
Come si può vedere, degli 8 gabbiani catturati, ben 5 sono innocenti e solo 3 sono killer. Questo ci porta a concludere che la probabilità che il primo gabbiano catturato sia un gabbiano killer è circa il 40% (3 su 8). Se questa conclusione vi sorprende, continuate a leggere.
Il bias del tasso di base
La maggior parte delle persone risponderebbe che la probabilità che un gabbiano catturato sia un gabbiano killer è piuttosto alta (sicuramente più del 50%). Dopotutto il macchinario cattura il 75% dei gabbiani killer, è abbastanza efficace nel suo scopo, no?
Il problema di questo ragionamento è che è parziale. In particolare trascura del tutto il cosiddetto tasso di base, detto anche probabilità a priori. Come suggerisce il nome, si tratta della probabilità che un evento avvenga a priori, ovvero prima di valutare informazioni successive.
Il bias del tasso di base è proprio la tendenza a ignorare del tutto la probabilità a priori di un evento, quando stiamo facendo delle valutazioni di probabilità.
Ad esempio se dobbiamo capire se la persona che abbiamo di fronte è medico, prima di considerare altre informazioni ha senso partire dalla probabilità a priori che una persona qualsiasi sia medico (in Italia poco meno dell’1% delle persone adulte). Una volta che abbiamo questo dato possiamo aggiustarlo al rialzo nel caso si osservino informazioni aggiuntive utili, come il fatto che è esperta in medicina.
Invece la tendenza comune, per via del bias del tasso di base, è ignorare del tutto la probabilità a priori che una persona sia medico (o che un gabbiano sia killer), concentrandosi solo su fattori più visibili, come il fatto che sia esperta in medicina (o che sia un gabbiano catturato dal macchinario). Fattori che di solito distorcono la nostra valutazione.
Facciamo un altro esempio.
Guarigioni miracolose
Immaginate che nella popolazione circoli una malattia orribile per la quale non ci sono cure e che porta alla morte entro poche settimane. Sappiamo che in questo momento circa il 5% delle persone sono malate. Viene sviluppato un test per capire se si è infetti. Se una persona è malata il test risulta positivo l’80% delle volte. Se una persona è sana il test risulta negativo il 90% delle volte.
Il governo inizia a somministrare questo test su tutta la popolazione. Lucia, la mia vicina di casa, fa il test e risulta positiva. I medici non possono aiutarla, quindi va a Lourdes sperando in un miracolo. Dopo diversi mesi è ancora viva, e sembra sana. Lucia dichiara che la sua è stata una guarigione miracolosa.
Qual è la probabilità che Lucia sia miracolosamente guarita? Tradotto: qual è la probabilità che Lucia fosse davvero malata?
Prova a pensarci prima di continuare a leggere.
Ormai sappiamo come muoverci. Usando sempre i disegnini dovreste subito capire dov’è il problema.
Per ogni 100 persone, 5 sono malate e 95 sono sane. Delle persone malate, 4 su 5 risultano positive al test (l’80%). Di quelle sane il 90% risulta negativa al test, ma questo significa che il 10% risulta positiva. E il 10% di 95 persone è circa 10 persone. In totale quindi su 100 persone abbiamo 14 test positivi, di cui 10 sono di persone sane! È piuttosto probabile quindi che Lucia fosse una delle persone sane (10 su 14, circa il 70% di probabilità), nonostante il suo test fosse positivo.
L’articolo potrebbe finire qui. Già avere questo tipo di schemi in testa è estremamente utile per evitare il bias del tasso di base. Per chi ha voglia di avventure matematiche però c’è il capitoletto finale, dove potrete scoprire in che modo affrontare questo tipo di problemi senza bisogno di disegnini.
Se non avete voglia di avventure matematiche potete saltare direttamente alla conclusione.
Dimostrazione del teorema di Bayes
Se volete una formula esatta per muovervi in questo tipo di scenari, è necessario scomodare un po’ di matematica. In questa sezione dimostriamo il teorema di Bayes. Suona pomposo ma è piuttosto semplice se seguite ogni passo a partire dalle basi.
Prima di tutto ha senso chiarire cosa vogliamo ricavare. A noi interessa una formula per calcolare la probabilità a posteriori, ovvero la probabilità che un evento A si verifichi quando sappiamo che un altro evento B si è già verificato. Ad esempio la probabilità che Lucia sia malata (A) quando sappiamo che è risultata positiva al test (B). Oppure la probabilità che un gabbiano sia killer (A) quando sappiamo che è stato catturato (B). Usando i simboli già introdotti, vogliamo calcolare:
P(A|B) [si legge “la probabilità di A dato B”]
La probabilità di un evento può essere definita in vari modi. Senza complicarci la vita, vi basti sapere che è un numero da 0 a 1, dove 0 vuol dire “evento impossibile” e 1 vuol dire “evento certo”. Si può anche scrivere in percentuale moltiplicando tutto per 100. Quindi “probabilità 0.85” è equivalente a dire “probabilità dell’85%”. La probabilità che si verifichi un evento A si scrive P(A). La probabilità che A non si verifichi invece è:
P(nonA) = 1 - P(A)
La probabilità congiunta di due eventi A e B è la probabilità che si verifichino entrambi. Si scrive P(A∩B) e si legge “probabilità di A intersecato B”. Ad esempio la probabilità che un gabbiano sia killer (K) e che sia catturato (C) si scrive P(K∩C). Bisogna notare che in questo caso l’ordine degli eventi non è importante. La probabilità di A intersecato B è uguale alla probabilità di B intersecato A, ovvero:
P(A∩B) = P(B∩A)
La probabilità condizionata è la probabilità che un evento A si verifichi sapendo che si è verificato un evento B in precedenza. L’abbiamo già vista, e si scrive P(A|B). Per definizione si ha che la probabilità congiunta è il prodotto fra la probabilità condizionata e la probabilità dell’evento avvenuto in precedenza:
P(A∩B) = P(A|B)*P(B)
Tradotto nel caso di Lucia: la probabilità che il test sia positivo e lei sia malata è uguale alla probabilità che il test di una persona malata sia positivo moltiplicata per la probabilità di ammalarsi in generale.
Da questa formula già sapremmo ricavare P(A|B), che se vi ricordate da poche righe fa è proprio quello che vogliamo trovare. È molto semplice, basta dividere a destra e a sinistra per P(B):
P(A|B) = P(A∩B) / P(B)
Ma c’è un problema. Nel mondo reale non sempre abbiamo a disposizione P(A∩B). Negli esempi dei gabbiani e di Lucia non avevamo quel dato. Quindi sarebbe utile rimuoverlo dalla formula. Come facciamo?
Una strada è ricordarsi che per la probabilità congiunta l’ordine degli eventi non è importante, quindi:
P(A∩B) = P(B∩A)
E per la definizione di probabilità condizionata questo significa che:
P(A|B)*P(B) = P(B|A)*P(A)
Ci siamo, a sinistra compare P(A|B), che è ciò che vogliamo trovare. Basta dividere tutto per P(B) e troviamo finalmente:
P(A|B) = P(B|A)*P(A) / P(B) [formula di Bayes]
Ottimo, ce l’abbiamo fatta!
L’unico pezzetto che manca è capire come calcolare il denominatore P(B) nel caso non fosse fra le informazioni di partenza. Nei problemi dei gabbiani e di Lucia il dato P(B) non era presente, dobbiamo calcolarcelo noi. Come facciamo?
Possiamo osservare che la probabilità di un evento qualsiasi B, calcolata indipendentemente da un altro evento A, è la probabilità congiunta di B e A più la probabilità congiunta di B e nonA. Lo possiamo vedere graficamente con un disegnino.
Questo significa che:
P(B) = P(B∩A) + P(B∩nonA)
Che, per la definizione di probabilità condizionata, significa che:
P(B) = P(B|A)P(A) + P(B|nonA)*P(nonA)
Quindi sostituendo nella formula di Bayes troviamo una versione estesa della formula di Bayes, equivalente alla precedente:
P(A|B) = P(B|A)*P(A) / [P(B|A)P(A) + P(B|nonA)*P(nonA)]
Ok ora sappiamo calcolare tutto. Torniamo agli esempi. Per i gabbiani ci serviva trovare la probabilità che un gabbiano catturato fosse killer. Usando la formula di Bayes possiamo scrivere:
P(K|C) = P(C|K)*P(K) / [P(C|K)*P(K) + P(C|I)*P(I)]
Sappiamo già tutto quello che ci serve:
P(C|K) = 0.75 [probabilità che un gabbiano killer venga catturato]
P(C|I) = 0.05 [probabilità che un gabbiano innocente venga catturato]
P(K) = 0.04 [probabilità che un gabbiano sia killer in generale]
P(I) = P(nonK) = 1 – 0.04 = 0.96 [probabilità che un gabbiano sia innocente in generale]
Il denominatore è un po’ più contorto, ma fattibile con un po’ di pazienza:
P(C|K)*P(K) + P(C|I)*P(I) = 0.75*0.04 + 0.05*0.96 = 0.03 + 0.048 =
= 0.078 [probabilità che un gabbiano qualsiasi venga catturato]
Quindi sostituendo nella formula di Bayes:
P(K|C) = 0.75*0.04 / 0.078 = 0.38 [probabilità che un gabbiano catturato sia un gabbiano killer]
La probabilità trovata, 38%, è compatibile con il numero trovato coi disegnetti (circa 40%). Bene, la formula di Bayes funziona!
L’esempio di Lucia ve lo lascio come esercizio per casa perché stiamo esagerando coi calcoli in questo articolo.
Conclusione
Se non masticate un po’ di matematica questo ultimo frangente potrebbe esservi risultato un po’ ostico. Ma non disperate. La cosa più utile che potete portarvi a casa è capire come ragionare quando si ha a che fare con probabilità che dipendono da eventi passati (es. probabilità di essere malata una volta che si è verificato l’evento “il test è positivo”).
I disegnetti sono il modo migliore per capire il concetto ben prima di arrivare delle formule. Questo tipo di ragionamenti non sono intuitivi (non a caso esiste il bias del tasso di base), ed è normale non afferrarli a una prima lettura. Scrivete pure nei commenti per chiarimenti e domande.
Se riuscite a far vostro il concetto che quando si considera una probabilità a posteriori è importante tener conto della probabilità a priori (o tasso di base), avete fatto vostro il cuore del teorema di Bayes.
Qual è la probabilità che un gabbiano catturato sia killer? Per rispondere bisogna tener conto della probabilità a priori che un gabbiano in generale sia killer.
Qual è la probabilità che una persona sia malata se ha avuto il test positivo? Bisogna tener conto della probabilità a priori che una persona in generale sia malata.
Qual è la probabilità che il mio aereo precipiti se sento una turbolenza? Bisogna tener conto della probabilità a priori che un aereo in generale precipiti (estremamente bassa).
Più le probabilità a priori sono basse, più la stima di probabilità a posteriori va abbassata. Anche senza usare formule o disegnetti, tener conto delle probabilità a priori vi renderà molto più precisi nello stimare le probabilità di eventi nella vita quotidiana.