venerdì 10 settembre 2010

problemi di induzione


In un noto indovinello probabilistico, si chiede di immaginare che un certo signor Rossi affermi: "io ho due figli, uno di essi è maschio", e di calcolare la probabilità che anche l'altro figlio del signor Rossi sia maschio.
Questo indovinello comparve nella rubrica di Martin Gardner sullo Scientific American dedicata ai giochi matematici, in un articolo sulle difficoltà concettuali della probabilità. Gardner infatti si meravigliava del fatto che molte persone intelligenti non solo davano la risposta sbagliata all'enigma (50%), ma non riuscivano ad accettare il fatto che fosse sbagliata nemmeno di fronte alla risposta corretta e alla sua spiegazione.
Infatti, secondo la sua spiegazione, le possibilità con due figli sono quattro in tutto: MM, MF, FM, FF. Escludendo la quarta possibilità in virtù dell'informazione che il signor Rossi ci ha dato, fra le tre rimanenti ne rimane una sola con due maschi, quindi la probabilità è 1/3. Ovvero, una volta presa la popolazione di tutti quelli che hanno due figli, di cui uno maschio, solo un terzo di questi avrà entrambi i figli maschi.
Ironicamente, però, Martin Gardner avrebbe dovuto rettificare la sua affermazione nel numero successivo della rubrica, dopo molte lettere di protesta ricevute. Questo perché le persone che non accettavano la risposta presentata come corretta, risultò dopo attenta meditazione, non avevano poi tutti i torti.
L'inferenza induttiva (probabilistica) può essere di due tipi: diretta o inversa. L'inferenza diretta è quella che cerca di inferire le caratteristiche del campione da quelle della popolazione (abbiamo un'urna con 50 palline nere e 50 palline bianche, qual è la probabilità che estraendo una pallina essa risulti bianca?). L'inferenza inversa è quella che cerca di inferire le caratteristiche della popolazione da quella del campione: abbiamo un'urna con 100 palline di colore ignoto, se ne estraiamo dieci bianche, qual è la probabilità che tutte le palline nell'urna siano bianche?
Nell'indovinello del signor Rossi è presente un'ambiguità, per cui in realtà non sappiamo esattamente cosa ci viene chiesto. Non è affatto scontato che ci troviamo di fronte a un caso di inferenza diretta, nel quale ci viene chiesto di calcolare la probabilità richiesta semplicemente considerando le caratteristiche (già note) di una data popolazione. La difficoltà, invece, è proprio quella di capire di quale popolazione si debba considerare facente parte il signor Rossi. A quella di tutte le persone con due figli di cui uno maschio, come suggeriva la soluzione di Gardner? E perché invece non dovremmo considerarlo appartenente alla popolazione di tutte le persone con due figli, di qualsiasi sesso?
Noi non sappiamo a quale titolo il signor Rossi ci ha fornito quell'informazione, se cioè voleva farci calcolare la frequenza relativa di una certa caratteristica all'interno di una data popolazione (quella dei padri con due figli di cui uno maschio), oppure se ci stava chiedendo di fornire una stima della nostra fiducia sul fatto che anche l'altro figlio sia maschio (ovvero, quanto scommetteremmo su tale eventualità). E le due cose, anche se su questo vi è una certa congiura del silenzio, sono profondamente diverse.
Non è che l'inferenza inversa non sia matematicamente calcolabile. Nell'esempio dell'urna e delle palline (100 palle di colore ignoto, ne estraggo dieci bianche), esiste una formula precisa, che è data dal teorema di Bayes. Il problema è che per essere usata tale formula deve fare per forza ricorso ad assunzioni arbitrarie sulle cosiddette "probabilità a priori", non tratte da nessuna osservazione ma semplicemente postulate (magari facendo ricorso al laplaciano "principio d'indifferenza").
Bisogna assumere, ad esempio che tutte le diverse distribuzioni di colore nell'urna siano a priori equiprobabili (100 bianche e 0 nere, 99 bianche e 1 nera, 98 bianche e 2 nere, eccetera), per poi calcolare, tramite il teorema di Bayes, come variano queste probabilità in funzione delle estrazioni fatte. Ma qualcuno potrebbe anche contestare questo principio e ritenere che alcune distribuzioni abbiano una maggiore probabilità. Ad esempio, è evidente che in una serie di lanci di moneta sono più probabili le combinazioni che prevedono un certo equilibrio fra teste e croci (50 teste e 50 croci) di quelle che prevedono solo croci o solo teste, e non si vede perché un simile principio non si possa applicare anche al caso delle urne e delle palline.
L'indovinello del signor Rossi serve a portare allo scoperto uno scontro fra due diverse visioni filosofiche, quella "oggettivista" (o "frequentista") e quella "soggettivista" riguardo alla probabilità. Per alcuni la probabilità è una cosa che riguarda solo l'inferenza diretta, e può essere applicata solo quando abbiamo dati oggettivi e certi (statistiche riguardo la mortalità tra i fumatori, ad esempio, possono aiutarci a calcolare la probabilità di ammalarsi di tumore). L'inferenza inversa sarebbe invece un uso non legittimo del calcolo della probabilità.
Per altri, invece, la probabilità è qualcosa di intrinsecamente soggettivo, non essendo altro che il grado di fiducia che una certa persona ha nell'occorrere di un certo evento. Essa, è vero, può essere modificata dall'esperienza (sarei irrazionale se il continuo occorrere di certi eventi non modificasse la mia fiducia anche nel loro occorrere futuro) ma l'elemento soggettivo non potrà mai essere del tutto eliminato dai dati. Il più noto portavoce della concezione soggettivista della probabilità, per inciso, è stato un grande matematico italiano, Bruno De Finetti, uno dei geni che hanno calcato il suolo della nostra Patria.
Il fatto, comunque, è che i casi di induzione nel ragionamento scientifico, o almeno per quello che riguarda la formulazione di teorie e la scoperta di nuove leggi scientifiche, riguardano sempre l'inferenza inversa. L'inferenza diretta in pratica serve solo a calcolare le probabilità di uscita di una combinazione di numeri al superenalotto, o di azzeccare un numero alla roulette. Solo casi, cioè, di "probabilità addomesticata", nei quali la popolazione di riferimento è nota perché da noi decisa e posta sotto il nostro stretto controllo.
Per quella che Nassim Nicholas Taleb chiama "fallacia ludica" molti testi divulgativi di teoria della probabilità tendono a concentrarsi solo sui casi addomesticati, dando una visione parziale e fuorviante del ragionamento induttivo e probabilistico. È in questo modo che ci si espone, sempre secondo la terminologia di Taleb, ai "cigni neri", agli eventi inaspettati che non potevano essere previsti perché non c'era modo di prevederli, all'interno delle assunzioni precedentemente adottate nelle quali venivano fatte le previsioni.
Una qualsiasi legge scientifica è un esempio di inferenza inversa: dopo aver osservato un certo numero di cigni bianchi, posso formulare l'ipotesi che tutti i cigni dell'universo siano bianchi, esponendomi però al rischio, inevitabile e non calcolabile, del cigno nero. Inevitabile perché non possiamo essere sicuri della giustezza delle assunzioni su cui ci fondiamo, di quale sia la descrizione dell'universo che ci permetterebbe di compiere inferenze dirette e quindi veramente affidabili. Viene in mente anche il tacchino di Russell, convinto che il giorno di Natale gli avrebbero portato da mangiare perché così avevano fatto tutti gli altri giorni dell'anno.
Taleb, però, nonostante tutto il disprezzo che spande a piene mani, nel suo libro, per filosofi ed esperti di probabilità a qualsiasi titolo, non ha certo scoperto o teorizzato lui per primo i limiti dell'induzione (già esplorati da Hume, Goodman e altri che trovo pleonastico menzionare). Riassumendo, il problema delle ipotesi di tipo induttivo-probabilistico ("quasi sicuramente la prossima pallina che estrarrò dall'urna sarà bianca") è che si fondano tutte, a loro volta, su ipotesi ("nell'urna ci sono 99 palle bianche e una nera") la cui cui affidabilità è sottoposta al calcolo delle probabilità, dando così inizio a un circolo vizioso.
Circolo vizioso che può essere spezzato forse prendendo atto del fatto che che le ipotesi scientifiche, le leggi di natura e le teorie, non sono affatto semplici generalizzazioni empiriche che è possibile sottoporre al vaglio del calcolo delle probabilità, ma qualcosa di più. Ma questa è un'altra storia.