Modele probabilistyczne (bayesowskie

Download Report

Transcript Modele probabilistyczne (bayesowskie

Marcin Miłkowski
WSTĘP DO KOGNITYWISTYKI
PROBABILISTYCZNE MODELE
RACJONALNOŚCI I POZNANIA
O czym będzie mowa
 Zasady analizy racjonalnej
Andersona
 Reguła Bayesa
 Modele bayesowskie
 Kodowanie predykcyjne
Świat niepewności
 Nasze zmysły dostarczają
informacje, w których jest dużo
szumu (zakłóceń).
 Szum i niepewność wszędzie:
 złudzenia wzrokowe
 grzechy pamięci
 wieloznaczność języka
Probabilizm
 Procesy poznawcze opierają się na
wnioskowaniu probabilistycznym.
 Percepcja, wnioskowanie dedukcyjne i
indukcyjne, kategoryzacja, uczenie,
rozumienie i tworzenie wypowiedzi…
Trzy poziomy Marra jeszcze raz
Obliczeniowy (ekologiczny)
Probabilistyczna
charakterystyka zadania w
ramach tzw. analizy
racjonalnej
Algorytmy i reprezentacja
Algorytmy probabilistyczne
operujące na reprezentacjach
prawdopodobieństw
Implementacja
Hipoteza mózgu
probabilistycznego (zwykle
bayesowskiego)
Probabilizm
 Korzenie: rachunek
prawdopodobieństwa Bernoulliego
 Fizjologia: prace Helmholtza i
hipoteza nieświadomego
wnioskowania
 Współcześnie: bayesizm jako jeden
z najważniejszych paradygmatów
Probabilistyczne wnioskowanie
nieświadome
 Hermann von Helmholtz (1866):
 oczy nie wyczuwają kierunku wzroku,
lecz przewidują go na podstawie tzw.
kopii eferentnej, czyli kopii
polecenia motorycznego do mięśni oka.
 Kopia eferentna to jeden z możliwych
sposobów realizacji tzw. modeli
wyprzedzających (forward models).
Bayesizm
 h – hipoteza
 p(h) – prawdopodobieństwo hipotezy
 H – przestrzeń hipotez
 p(h|d) – prawdopodobieństwo
końcowe (posterior probability)
 p(d) – prawdopodobieństwo
obserwacji (stała!)
 p(h) – prawdopodobieństwo wstępne
(prior probability);
 uwaga: nie a priori!
Racjonalne wnioskowanie
statystyczne (Bayes, Laplace)
Prawdopodobieństwo
końcowe
Wiarygodność
Prawdopodobieństwo
wstępne
p(d | h) p(h)
p(h | d ) 
 p(d | h) p(h)
hH
Suma w przestrzeni
wszystkich hipotez
Reguła Bayesa
Dla danych D i hipotezy H mamy:
P( H ) P( D | H )
P( H | D) 
P( D)
 Prawdopodobieństwo końcowe
P( H | D)
 Prawdopodobieństwo wstępne: P(H )
 Wiarygodność: P( D | H )
 Prawdopodobieństwo danych: P(D)
Hipotezy we wnioskowaniu
bayesowskim
 Hipotezy H to procesy, które mogły
wygenerować dane D
 Wnioskowanie bayesowskie daje
rozkład po tych hipotezach ze
względu na D
 P(D|H) to prawdopodobieństwo
wygenerowania D przez procesy
wskazane przez H
 Hipotezy H wykluczają się wzajemnie:
tylko 1 proces mógł wygenerować D
Analiza racjonalna wg
Johna Andersona (1988)
 Przepis na wyjaśnianie w
kognitywistyce:
1. Określ cele systemu poznawczego.
2. Opracuj model formalny środowiska, do
3.
4.
5.
6.
którego przystosowany jest system.
Załóż minimalne koszty obliczeniowe.
Wyprowadź optymalną funkcję zachowania
ze względu na 1-3.
Sprawdź empirycznie, czy predykcje
funkcji są poprawne.
Jeśli nie, iteruj.
Krytyka analizy racjonalnej
 Herbert Simon (1988):
 Przepis Andersona pomija strukturę
systemu poznawczego, analiza może
dotyczyć tylko struktury środowiska.
 Ludzie nie są optymalni.
 Trudno znaleźć jeden cel systemu.
 J. Bowers i C. Davis (2012):
 To są takie sobie bajeczki!
 Modele bayesowskie dopasowują się do
danych eksperymentalnych i nic nie
wyjaśniają. Są płytkie.
Architektury poznawcze i Bayes
 Anderson jest twórcą architektur
poznawczych (m.in. ACT-R), które
zawierają reguły produkcji.
 Jego metoda dotyczy przede wszystkim
poziomu obliczeniowego w sensie
Marra.
 ACT-R łączy reguły symboliczne z
sieciami neuropodobnymi.
Przykład 1: racjonalna analiza
przeciwko heurystykom
 Gerd Gigerenzer i Daniel Goldstein
(1996):
 Ludzie posługują się heurystykami,
które są omylne, ale błyskawiczne.
 Przykład: heurystyka „weź najlepszy”,
stosowana do określania, które miasto
jest większe.
Dygresja: psychologia ewolucyjna
 Psychologia ewolucyjna korzysta z
wariantu analizy racjonalnej.
 Bada przystosowanie do środowiska
w czasach łowiecko-zbierackich.
 Krytykowana za często zbyt
spekulacyjne wyjaśnienia.
 Wyjaśnia jednak fakty na temat
gwałtów, skłonności do przemocy itp.
 Pinker: Jak działa umysł? – adwokat
podejścia.
Algorytm „Weź najlepszy” (Takethe-Best)
 Jeśli znasz nazwę jednego miasta,
a nie drugiego, pierwsze jest
większe.
 Jeśli nie, to sprawdzaj cechy
miast i jeśli którąkolwiek ma
jedno, a nie drugie, jest większe.
 jest stolicą państwa,
 ma drużynę piłkarską,
 jest stolicą landu,
 ma uniwersytet…
Przykład
 Hanower czy Bielefeld?
 Moguncja czy Hamburg?
 Monachium czy Goerlitz?
Chater i Oaksford (2003)
 De facto stosuje się strategię
racjonalną!
 Sukces w środowisku (efekt
heurystyki) nie wyklucza
racjonalności wg przepisu Andersona.
 Ludzie wcale nie muszą obliczać
optymalnego (=zawsze poprawnego
wyniku), wystarcza skuteczny
algorytm.
 Na poziomie algorytmu jest aproksymacja
wyniku poprawnego (czasem
nieobliczalnego praktycznie).
Chater i Oaksford (2003)
 „Weź najlepszy” to algorytm
zasadny ze względu na analizę
racjonalną, bo prowadzi do
poprawnego wyniku.
 Ale wcale nie jest pewne, że
ludzie właśnie tę zasadę stosują.
Taka sobie bajeczka?
 Ale czy te argumenty nie znaczą,
że bayesizm może przyswoić dowolną
skuteczną strategię poznawczą jako
własną?
 Może jest tylko opakowaniem
cudzego produktu?
Przykład 2: rozumowania
warunkowe
 Weźmy regułę:
 Jeśli ptak jest krukiem, to jest
czarny.
 Przy założeniu, że Ćwirek jest
krukiem, wynika, że jest czarny (MP).
 Przy założeniu, że Ćwirek nie jest
czarny, wynika, że nie jest krukiem.
(MT)
 Dlaczego modus ponens jest łatwiej
przyjąć niż modus tollens?
Rozumowania warunkowe
 A co z rozumowaniami typu:
 Ćwirek nie jest krukiem. A zatem nie
jest czarny? [odrzucenie poprzednika]
 Ćwirek jest czarny. A więc jest
krukiem. [uznanie następnika]
 To błędy logiczne. Ale dlaczego są
popularne?
Cztery reguły
modus ponens
p → q
p
—————
q
modus tollens
p → q
~q
——————
~p
odrzucenie poprzednika uznanie następnika
p → q
p → q
~p
q
—————
——————
~q
p
Pomysł bayesowski
 Kluczowe równanie:
p(p→q) = p(q|p)
 Prawdopodobieństwo warunkowe to
klucz do zrozumienia, dlaczego
ludzie przyjmują chętnie niektóre
wnioskowania mimo ich
niepoprawności (lub odrzucają
wbrew poprawności).
Prosty model Chatera i Oaksforda
 a = P(p)
 b = P(b)
 ϵ = P(~q|p)
tj. wyjątek,
czyli
prawdopobieństwo ~q ze względu na
p
Modele wnioskowań a empiria
 (a) – prosty model prawdopobieństwa
warunkowego
 (b) – logika klasyczna
 (c) – zmodyfikowany model
prawdopodobieństwa warunkowego
(Oaksford i Chater 2008)
Logika klasyczna kontra bayesizm
 Błądzenie nie jest tak
irracjonalne, jak wskazuje logika
klasyczna. Czasem istotne jest
też, czy same przesłanki są
prawdopodobne.
 Ale czy logika normatywna musi być
zawsze taka sama jak opisowa?
Mózg bayesowski
 Karl Friston (ur. 1959):
 hierarchiczne kodowanie
predykcyjne, aproksymacja (?)
trudnego obliczeniowo wnioskowania
bayesowskiego
 mózg minimalizuje tzw. swobodną
energię, czyli zaskoczenie nowymi
informacjami
Teoria hierarchicznego kodowania
predykcyjnego
 Mózgi przewidują przyczyny
aktualnych wejść zmysłowych i
minimalizują błędy takich
przewidywań:
 zmieniając przewidywania na temat
wejść zmysłowych lub
 zmieniając świat.
 Jednolita teoria percepcji i
działania (A. Clark 2013).
Inne warianty
 Daniel Wolpert:
 mózg metodami bayesowskimi tworzy
modele antycypacyjne, aby sterować
ruchem,
 mózg mamy tylko po to, aby się
poruszać.
Dlaczego trudno połaskotać
samego siebie?
 Kiedy łaskoczemy
siebie,
przewidujemy
efekt.
 Za pomocą
robota możemy
wprowadzić błąd
predykcji.
Podsumowanie
 Bayesizm to bardzo żywa
metodologia kognitywistyki.
 Zachowanie jako efekt racjonalnego
wnioskowania probabilistycznego.
 Różne poziomy Marra, wiele zjawisk
 Wątpliwości:
 Czy w ogóle da się go obalić?
 Czy nie jest tylko innym sposobem
opisu?
Do zobaczenia za tydzień!