venerdì 10 settembre 2010

problemi di induzione


In un noto indovinello probabilistico, si chiede di immaginare che un certo signor Rossi affermi: "io ho due figli, uno di essi è maschio", e di calcolare la probabilità che anche l'altro figlio del signor Rossi sia maschio.
Questo indovinello comparve nella rubrica di Martin Gardner sullo Scientific American dedicata ai giochi matematici, in un articolo sulle difficoltà concettuali della probabilità. Gardner infatti si meravigliava del fatto che molte persone intelligenti non solo davano la risposta sbagliata all'enigma (50%), ma non riuscivano ad accettare il fatto che fosse sbagliata nemmeno di fronte alla risposta corretta e alla sua spiegazione.
Infatti, secondo la sua spiegazione, le possibilità con due figli sono quattro in tutto: MM, MF, FM, FF. Escludendo la quarta possibilità in virtù dell'informazione che il signor Rossi ci ha dato, fra le tre rimanenti ne rimane una sola con due maschi, quindi la probabilità è 1/3. Ovvero, una volta presa la popolazione di tutti quelli che hanno due figli, di cui uno maschio, solo un terzo di questi avrà entrambi i figli maschi.
Ironicamente, però, Martin Gardner avrebbe dovuto rettificare la sua affermazione nel numero successivo della rubrica, dopo molte lettere di protesta ricevute. Questo perché le persone che non accettavano la risposta presentata come corretta, risultò dopo attenta meditazione, non avevano poi tutti i torti.
L'inferenza induttiva (probabilistica) può essere di due tipi: diretta o inversa. L'inferenza diretta è quella che cerca di inferire le caratteristiche del campione da quelle della popolazione (abbiamo un'urna con 50 palline nere e 50 palline bianche, qual è la probabilità che estraendo una pallina essa risulti bianca?). L'inferenza inversa è quella che cerca di inferire le caratteristiche della popolazione da quella del campione: abbiamo un'urna con 100 palline di colore ignoto, se ne estraiamo dieci bianche, qual è la probabilità che tutte le palline nell'urna siano bianche?
Nell'indovinello del signor Rossi è presente un'ambiguità, per cui in realtà non sappiamo esattamente cosa ci viene chiesto. Non è affatto scontato che ci troviamo di fronte a un caso di inferenza diretta, nel quale ci viene chiesto di calcolare la probabilità richiesta semplicemente considerando le caratteristiche (già note) di una data popolazione. La difficoltà, invece, è proprio quella di capire di quale popolazione si debba considerare facente parte il signor Rossi. A quella di tutte le persone con due figli di cui uno maschio, come suggeriva la soluzione di Gardner? E perché invece non dovremmo considerarlo appartenente alla popolazione di tutte le persone con due figli, di qualsiasi sesso?
Noi non sappiamo a quale titolo il signor Rossi ci ha fornito quell'informazione, se cioè voleva farci calcolare la frequenza relativa di una certa caratteristica all'interno di una data popolazione (quella dei padri con due figli di cui uno maschio), oppure se ci stava chiedendo di fornire una stima della nostra fiducia sul fatto che anche l'altro figlio sia maschio (ovvero, quanto scommetteremmo su tale eventualità). E le due cose, anche se su questo vi è una certa congiura del silenzio, sono profondamente diverse.
Non è che l'inferenza inversa non sia matematicamente calcolabile. Nell'esempio dell'urna e delle palline (100 palle di colore ignoto, ne estraggo dieci bianche), esiste una formula precisa, che è data dal teorema di Bayes. Il problema è che per essere usata tale formula deve fare per forza ricorso ad assunzioni arbitrarie sulle cosiddette "probabilità a priori", non tratte da nessuna osservazione ma semplicemente postulate (magari facendo ricorso al laplaciano "principio d'indifferenza").
Bisogna assumere, ad esempio che tutte le diverse distribuzioni di colore nell'urna siano a priori equiprobabili (100 bianche e 0 nere, 99 bianche e 1 nera, 98 bianche e 2 nere, eccetera), per poi calcolare, tramite il teorema di Bayes, come variano queste probabilità in funzione delle estrazioni fatte. Ma qualcuno potrebbe anche contestare questo principio e ritenere che alcune distribuzioni abbiano una maggiore probabilità. Ad esempio, è evidente che in una serie di lanci di moneta sono più probabili le combinazioni che prevedono un certo equilibrio fra teste e croci (50 teste e 50 croci) di quelle che prevedono solo croci o solo teste, e non si vede perché un simile principio non si possa applicare anche al caso delle urne e delle palline.
L'indovinello del signor Rossi serve a portare allo scoperto uno scontro fra due diverse visioni filosofiche, quella "oggettivista" (o "frequentista") e quella "soggettivista" riguardo alla probabilità. Per alcuni la probabilità è una cosa che riguarda solo l'inferenza diretta, e può essere applicata solo quando abbiamo dati oggettivi e certi (statistiche riguardo la mortalità tra i fumatori, ad esempio, possono aiutarci a calcolare la probabilità di ammalarsi di tumore). L'inferenza inversa sarebbe invece un uso non legittimo del calcolo della probabilità.
Per altri, invece, la probabilità è qualcosa di intrinsecamente soggettivo, non essendo altro che il grado di fiducia che una certa persona ha nell'occorrere di un certo evento. Essa, è vero, può essere modificata dall'esperienza (sarei irrazionale se il continuo occorrere di certi eventi non modificasse la mia fiducia anche nel loro occorrere futuro) ma l'elemento soggettivo non potrà mai essere del tutto eliminato dai dati. Il più noto portavoce della concezione soggettivista della probabilità, per inciso, è stato un grande matematico italiano, Bruno De Finetti, uno dei geni che hanno calcato il suolo della nostra Patria.
Il fatto, comunque, è che i casi di induzione nel ragionamento scientifico, o almeno per quello che riguarda la formulazione di teorie e la scoperta di nuove leggi scientifiche, riguardano sempre l'inferenza inversa. L'inferenza diretta in pratica serve solo a calcolare le probabilità di uscita di una combinazione di numeri al superenalotto, o di azzeccare un numero alla roulette. Solo casi, cioè, di "probabilità addomesticata", nei quali la popolazione di riferimento è nota perché da noi decisa e posta sotto il nostro stretto controllo.
Per quella che Nassim Nicholas Taleb chiama "fallacia ludica" molti testi divulgativi di teoria della probabilità tendono a concentrarsi solo sui casi addomesticati, dando una visione parziale e fuorviante del ragionamento induttivo e probabilistico. È in questo modo che ci si espone, sempre secondo la terminologia di Taleb, ai "cigni neri", agli eventi inaspettati che non potevano essere previsti perché non c'era modo di prevederli, all'interno delle assunzioni precedentemente adottate nelle quali venivano fatte le previsioni.
Una qualsiasi legge scientifica è un esempio di inferenza inversa: dopo aver osservato un certo numero di cigni bianchi, posso formulare l'ipotesi che tutti i cigni dell'universo siano bianchi, esponendomi però al rischio, inevitabile e non calcolabile, del cigno nero. Inevitabile perché non possiamo essere sicuri della giustezza delle assunzioni su cui ci fondiamo, di quale sia la descrizione dell'universo che ci permetterebbe di compiere inferenze dirette e quindi veramente affidabili. Viene in mente anche il tacchino di Russell, convinto che il giorno di Natale gli avrebbero portato da mangiare perché così avevano fatto tutti gli altri giorni dell'anno.
Taleb, però, nonostante tutto il disprezzo che spande a piene mani, nel suo libro, per filosofi ed esperti di probabilità a qualsiasi titolo, non ha certo scoperto o teorizzato lui per primo i limiti dell'induzione (già esplorati da Hume, Goodman e altri che trovo pleonastico menzionare). Riassumendo, il problema delle ipotesi di tipo induttivo-probabilistico ("quasi sicuramente la prossima pallina che estrarrò dall'urna sarà bianca") è che si fondano tutte, a loro volta, su ipotesi ("nell'urna ci sono 99 palle bianche e una nera") la cui cui affidabilità è sottoposta al calcolo delle probabilità, dando così inizio a un circolo vizioso.
Circolo vizioso che può essere spezzato forse prendendo atto del fatto che che le ipotesi scientifiche, le leggi di natura e le teorie, non sono affatto semplici generalizzazioni empiriche che è possibile sottoporre al vaglio del calcolo delle probabilità, ma qualcosa di più. Ma questa è un'altra storia.

18 commenti:

  1. Molto interessante. Attendo impaziente "l'altra storia", forse iniziero' a capire qualcosa in piu' riguardo l'epistemologia della scienza! Comunque, credo che una cosa carina dello studio della statistica e' forse che costringe, piu' di altri campi, a riflettere che quello che chiamiamo scienza non e' spiegazione della realta', non e' ontologia, ma semplicemente delle "ipotesi funzionanti".

    Mh, mi e' concesso dire una bestialita'(*) riguardo il quesito iniziale? Non so se cito a sproposito la legge dei grandi numeri, pero' io su due piedi direi che 1/3 e' la probabilita' che si potrebbe osservare prendendo in osservazione un milione di coppie con gia' un figlio maschio, ma prendendo il singolo evento "nasce il secondo figlio" le probabilita' che sia maschio o femmina restano sempre e comunque 50%, altrimenti si dovrebbe ammettere che il sesso del nascituro sia fisicamente condizionato dall'altro figlio, e questo non avrebbe senso... Sbaglio di tanto? Adesso mi faccio un caffe' e finisco di guardare le mail, magari piu' avanti nella mattinata le idee mi si schiariscono :-)

    nerd::a

    (*) essendo fortemente animalista mi dovrebbe essere concesso!

    RispondiElimina
  2. Anche a me vengono due dubbi:
    - su un terzo come risposta alla domanda "anche il secondo figlio è maschio", le 4 combinazioni possibili di due figli vengono assunte come equiprobabili, ma non è detto che un maschietto nasca colla stessa probabilità di una femminuccia. Un po' come dire che esiste la possibilità di (quasi) 1/365 di nascere in un determinato giorno dell'anno, quando in realtà le nascite non si distribuiscono equamente per tutto l'anno
    - sulla probabilità che pescate 2 palline bianche, anche le altre 98 siano tutte bianche, mi sorge il dubbio se sia calcolabile anche considerando che la gamma dei colori è infinita.

    RispondiElimina
  3. Wannabe Nerds: il paradosso consiste più che altro nel fatto che se il quesito fosse stato: "ho due figli, di cui il maggiore è maschio" allora non vi sarebbero dubbi sulla risposta 1/2. La stessa cosa se avesse detto "il minore". La risposta è 1/3 perché quando il sign. Rossi dice "l'altro" in realtà non ci dà nessuna informazione che ci permetta di "ordinare" i figli. Eppure "l'altro" deve per forza ricadere in una delle due categorie, o è maggiore o è minore.

    RispondiElimina
  4. Rado, sul primo punto, è vero che le probabilità di nascere maschio o femmina non sono esattamente le stesse, ma l'indovinello non tiene evidentemente conto di simili dettagli empirici.

    Riguardo il secondo punto, la gamma dei colori è infinita ma puoi addomesticarla prendendo in considerazione solo alcune fasce dello spettro. Rimane il fatto che qualsiasi scelta tu faccia sei costretto a ricorrere ad assunzioni arbitrarie. Puoi anche scegliere di considerare solo i due casi "bianca" e "non bianca" ma sarebbe difficile giustificare la loro equiprobabilità.

    RispondiElimina
  5. Però, tornando all'indovinello, io debbo postulare che 1 si riferisca al figlio maggiore e 2 al figlio minore, in quanto alla base dell'indovinello c'è questo assunto: per cui l'asserzione 1F è impossibile, giusto?

    Per cui a me restano solamente le ipotesi di:

    1M 2F
    1M 2M

    In quanto l'ipotesi 1F 2M e 1F 2F risultano sostanzialmente impossibili.

    Se avesse detto "ho 2 figli di cui uno è maschio", senza specificare se fosse il maggiore o il minore allora avremmo avuto effettivamente la possibilità dell'1F 2M.

    O sbaglio?

    Cordialità

    Attila

    RispondiElimina
  6. no, no. la formulazione è proprio "ho due figli di cui uno maschio", senza specificare se maggiore o minore.

    RispondiElimina
  7. Un altro bell' "indovinello" probabilistico che ho visto da qualche parte recita:

    C'è un test diagnostico che dà il risultato giusto nell' 80% dei casi (e quando sbaglia lo fa casualmente).

    Il test dice che ho una certa malattia.

    Si sa che questa malattia affligge l' 1% della popolazione alla quale appartengo.

    Qual'è la probabilità che io abbia effettivamente quella malattia?



    Deliziosamente controintuitivo

    RispondiElimina
  8. quando nasce un figlio,il settimo,il tredicesimo o il centosettantasettesimo,le probalità che sia maschio sono sempre del cinquanta per cento,anche se quelli nati prima e dopo sono tutti maschi o tutte femmine o masche e femmine a coppie di due.questo perchè la razza umana ha due sessi.quello che ha detto1/3 aveva molto tempo libero .fosse andato a far nascere vitelli avrebbe smesso in fretta di farsi seghe mentali.

    RispondiElimina
  9. Capire la formulazione del problema aiuta a non farsi le seghe mentali, anche. Qui non abbiamo un "figlio che nasce" ma, abbiamo, almeno in una delle interpretazioni, un sottoinsieme di un insieme più grande.

    RispondiElimina
  10. Il calcolo delle probabilità è bello perché non è intuitivo. Quasi tutti sbagliano la risposta a questo quesito. Effettivamente finché non mi sono seduto con carta e penna a fare i conti avrei giurato sul fifty fifty :)

    RispondiElimina
  11. Scusa un momento, ma se non c'è "ordinamento" nei figli, che senso ha distinguere i casi MF da FM?

    Ricapitoliamo:

    Z insieme di tutte le famiglie con due figli. Si può suddividere in:
    Famiglie con due figli:
    A di cui nessuno maschio
    B di cui almeno uno maschio
    C di cui entrambi maschi
    D di cui soltanto uno maschio

    A, B sono sottoinsiemi di Z. A=25%, B=75%.
    C, D sono sottoinsiemi di B. C=50% di B, D=50% di B.

    Se poi vogliamo, C è il 50% del 75%, quindi 37,5% considerando l'universo Z. Ma non ha molto senso come domanda, la selezione dell'insieme B l'abbiamo già fatta nel momento in cui abbiamo escluso che Rossi abbia femmine.

    Dove sto sbagliando?

    RispondiElimina
  12. Sbagli perché C e D non sono equiprobabili ma D ha più probabilità di verificarsi, in base alla distinzione fra FM ed MF, e ha senso distinguere i due casi proprio in quanto, insieme, si verificano più frequentemente del caso MM. Non difendo, come si capisce dal post, la posizione frequentista, ma se adottiamo quell'approccio almeno non possono esservi dubbi. Cioè. siamo d'accordo che se dall'elenco del telefono prima seleziono l'insieme di tutte le famiglie con due figli di cui uno maschio, di queste solo un terzo avrà entrambi i figli maschi? Se no, si può verificare empiricamente.

    RispondiElimina
  13. Ok, facendo a carta e penna le varie possibilità comincio a capire. Evidentemente il calcolo probabilistico non fa per me.

    RispondiElimina
  14. Però, in società in cui non ci sia un controllo della popolazione come in Cina, le donne sono in numero lievemente superiore, anche considerando la loro maggiore vita media XD quindi, la probabilità di avere un figlio maschio non è 50% ma un po' meno *getta il sasso e si dà alla macchia*

    Terra Nova

    RispondiElimina
  15. Come disse Paolo Rossi, se ci sono sette donne per ogni uomo, chi è quello che se ne tiene quattordici?!?

    RispondiElimina
  16. @ mastrociliegia

    mannaggia che anche oggi sono addormentato... e sopratutto avvilito perche' questi giochetti mi mettono in enorme difficolta' e mi sento di aver buttato via tanti anni di studio! :-)

    Mi dai la soluzione??? Io, durante la colazione, ho calcolato una probabilita' di 0.008 (0.8%) ma non so se abbia senso! Help!

    @ Thomas

    ok, forse ho capito il problema di interpretazione del quesito! Questo mi consola perche' quindi vuol dire che quello che ho scritto prima non e' del tutto una baggianata... o no? :-)

    nerd::a

    RispondiElimina
  17. Per l'enigma di Mastrocigliegia: supponiamo che 1000 persone facciano il test: di queste solo l'1% è malata, per ipotesi, ovvero 10, ma di queste risulteranno malate solo 8 mentre il test produrrà 2 falsi negativi.

    Ci saranno poi 990 persone sane, ma il test produrrà 198 falsi positivi.

    In tutto i positivi saranno quindi 198+8= 206, ma di questi solo 8 davvero malati. 8 diviso 206 fa circa 0,04. Quindi se il test è positivo le nostre probabilità di essere malati sono solo del 4%.

    RispondiElimina
  18. Ragionando su questo problema, ho pensato a questa variante:
    Sappiamo che una tale persona ha due figli; un giorno lo vediamo per strada in compagnia di un ragazzo e gli chiediamo "E' tuo figlio?" Risposta "Sì". A questo punto quant'è la possibilità che l'altro figlio sia maschio?
    L'intuizione direbbe il 50% ma allora dov'è l'inghippo?

    RispondiElimina