Modele probabilistyczne (bayesowskie
Download
Report
Transcript Modele probabilistyczne (bayesowskie
Marcin Miłkowski
WSTĘP DO KOGNITYWISTYKI
PROBABILISTYCZNE MODELE
RACJONALNOŚCI I POZNANIA
O czym będzie mowa
Zasady analizy racjonalnej
Andersona
Reguła Bayesa
Modele bayesowskie
Kodowanie predykcyjne
Świat niepewności
Nasze zmysły dostarczają
informacje, w których jest dużo
szumu (zakłóceń).
Szum i niepewność wszędzie:
złudzenia wzrokowe
grzechy pamięci
wieloznaczność języka
Probabilizm
Procesy poznawcze opierają się na
wnioskowaniu probabilistycznym.
Percepcja, wnioskowanie dedukcyjne i
indukcyjne, kategoryzacja, uczenie,
rozumienie i tworzenie wypowiedzi…
Trzy poziomy Marra jeszcze raz
Obliczeniowy (ekologiczny)
Probabilistyczna
charakterystyka zadania w
ramach tzw. analizy
racjonalnej
Algorytmy i reprezentacja
Algorytmy probabilistyczne
operujące na reprezentacjach
prawdopodobieństw
Implementacja
Hipoteza mózgu
probabilistycznego (zwykle
bayesowskiego)
Probabilizm
Korzenie: rachunek
prawdopodobieństwa Bernoulliego
Fizjologia: prace Helmholtza i
hipoteza nieświadomego
wnioskowania
Współcześnie: bayesizm jako jeden
z najważniejszych paradygmatów
Probabilistyczne wnioskowanie
nieświadome
Hermann von Helmholtz (1866):
oczy nie wyczuwają kierunku wzroku,
lecz przewidują go na podstawie tzw.
kopii eferentnej, czyli kopii
polecenia motorycznego do mięśni oka.
Kopia eferentna to jeden z możliwych
sposobów realizacji tzw. modeli
wyprzedzających (forward models).
Bayesizm
h – hipoteza
p(h) – prawdopodobieństwo hipotezy
H – przestrzeń hipotez
p(h|d) – prawdopodobieństwo
końcowe (posterior probability)
p(d) – prawdopodobieństwo
obserwacji (stała!)
p(h) – prawdopodobieństwo wstępne
(prior probability);
uwaga: nie a priori!
Racjonalne wnioskowanie
statystyczne (Bayes, Laplace)
Prawdopodobieństwo
końcowe
Wiarygodność
Prawdopodobieństwo
wstępne
p(d | h) p(h)
p(h | d )
p(d | h) p(h)
hH
Suma w przestrzeni
wszystkich hipotez
Reguła Bayesa
Dla danych D i hipotezy H mamy:
P( H ) P( D | H )
P( H | D)
P( D)
Prawdopodobieństwo końcowe
P( H | D)
Prawdopodobieństwo wstępne: P(H )
Wiarygodność: P( D | H )
Prawdopodobieństwo danych: P(D)
Hipotezy we wnioskowaniu
bayesowskim
Hipotezy H to procesy, które mogły
wygenerować dane D
Wnioskowanie bayesowskie daje
rozkład po tych hipotezach ze
względu na D
P(D|H) to prawdopodobieństwo
wygenerowania D przez procesy
wskazane przez H
Hipotezy H wykluczają się wzajemnie:
tylko 1 proces mógł wygenerować D
Analiza racjonalna wg
Johna Andersona (1988)
Przepis na wyjaśnianie w
kognitywistyce:
1. Określ cele systemu poznawczego.
2. Opracuj model formalny środowiska, do
3.
4.
5.
6.
którego przystosowany jest system.
Załóż minimalne koszty obliczeniowe.
Wyprowadź optymalną funkcję zachowania
ze względu na 1-3.
Sprawdź empirycznie, czy predykcje
funkcji są poprawne.
Jeśli nie, iteruj.
Krytyka analizy racjonalnej
Herbert Simon (1988):
Przepis Andersona pomija strukturę
systemu poznawczego, analiza może
dotyczyć tylko struktury środowiska.
Ludzie nie są optymalni.
Trudno znaleźć jeden cel systemu.
J. Bowers i C. Davis (2012):
To są takie sobie bajeczki!
Modele bayesowskie dopasowują się do
danych eksperymentalnych i nic nie
wyjaśniają. Są płytkie.
Architektury poznawcze i Bayes
Anderson jest twórcą architektur
poznawczych (m.in. ACT-R), które
zawierają reguły produkcji.
Jego metoda dotyczy przede wszystkim
poziomu obliczeniowego w sensie
Marra.
ACT-R łączy reguły symboliczne z
sieciami neuropodobnymi.
Przykład 1: racjonalna analiza
przeciwko heurystykom
Gerd Gigerenzer i Daniel Goldstein
(1996):
Ludzie posługują się heurystykami,
które są omylne, ale błyskawiczne.
Przykład: heurystyka „weź najlepszy”,
stosowana do określania, które miasto
jest większe.
Dygresja: psychologia ewolucyjna
Psychologia ewolucyjna korzysta z
wariantu analizy racjonalnej.
Bada przystosowanie do środowiska
w czasach łowiecko-zbierackich.
Krytykowana za często zbyt
spekulacyjne wyjaśnienia.
Wyjaśnia jednak fakty na temat
gwałtów, skłonności do przemocy itp.
Pinker: Jak działa umysł? – adwokat
podejścia.
Algorytm „Weź najlepszy” (Takethe-Best)
Jeśli znasz nazwę jednego miasta,
a nie drugiego, pierwsze jest
większe.
Jeśli nie, to sprawdzaj cechy
miast i jeśli którąkolwiek ma
jedno, a nie drugie, jest większe.
jest stolicą państwa,
ma drużynę piłkarską,
jest stolicą landu,
ma uniwersytet…
Przykład
Hanower czy Bielefeld?
Moguncja czy Hamburg?
Monachium czy Goerlitz?
Chater i Oaksford (2003)
De facto stosuje się strategię
racjonalną!
Sukces w środowisku (efekt
heurystyki) nie wyklucza
racjonalności wg przepisu Andersona.
Ludzie wcale nie muszą obliczać
optymalnego (=zawsze poprawnego
wyniku), wystarcza skuteczny
algorytm.
Na poziomie algorytmu jest aproksymacja
wyniku poprawnego (czasem
nieobliczalnego praktycznie).
Chater i Oaksford (2003)
„Weź najlepszy” to algorytm
zasadny ze względu na analizę
racjonalną, bo prowadzi do
poprawnego wyniku.
Ale wcale nie jest pewne, że
ludzie właśnie tę zasadę stosują.
Taka sobie bajeczka?
Ale czy te argumenty nie znaczą,
że bayesizm może przyswoić dowolną
skuteczną strategię poznawczą jako
własną?
Może jest tylko opakowaniem
cudzego produktu?
Przykład 2: rozumowania
warunkowe
Weźmy regułę:
Jeśli ptak jest krukiem, to jest
czarny.
Przy założeniu, że Ćwirek jest
krukiem, wynika, że jest czarny (MP).
Przy założeniu, że Ćwirek nie jest
czarny, wynika, że nie jest krukiem.
(MT)
Dlaczego modus ponens jest łatwiej
przyjąć niż modus tollens?
Rozumowania warunkowe
A co z rozumowaniami typu:
Ćwirek nie jest krukiem. A zatem nie
jest czarny? [odrzucenie poprzednika]
Ćwirek jest czarny. A więc jest
krukiem. [uznanie następnika]
To błędy logiczne. Ale dlaczego są
popularne?
Cztery reguły
modus ponens
p → q
p
—————
q
modus tollens
p → q
~q
——————
~p
odrzucenie poprzednika uznanie następnika
p → q
p → q
~p
q
—————
——————
~q
p
Pomysł bayesowski
Kluczowe równanie:
p(p→q) = p(q|p)
Prawdopodobieństwo warunkowe to
klucz do zrozumienia, dlaczego
ludzie przyjmują chętnie niektóre
wnioskowania mimo ich
niepoprawności (lub odrzucają
wbrew poprawności).
Prosty model Chatera i Oaksforda
a = P(p)
b = P(b)
ϵ = P(~q|p)
tj. wyjątek,
czyli
prawdopobieństwo ~q ze względu na
p
Modele wnioskowań a empiria
(a) – prosty model prawdopobieństwa
warunkowego
(b) – logika klasyczna
(c) – zmodyfikowany model
prawdopodobieństwa warunkowego
(Oaksford i Chater 2008)
Logika klasyczna kontra bayesizm
Błądzenie nie jest tak
irracjonalne, jak wskazuje logika
klasyczna. Czasem istotne jest
też, czy same przesłanki są
prawdopodobne.
Ale czy logika normatywna musi być
zawsze taka sama jak opisowa?
Mózg bayesowski
Karl Friston (ur. 1959):
hierarchiczne kodowanie
predykcyjne, aproksymacja (?)
trudnego obliczeniowo wnioskowania
bayesowskiego
mózg minimalizuje tzw. swobodną
energię, czyli zaskoczenie nowymi
informacjami
Teoria hierarchicznego kodowania
predykcyjnego
Mózgi przewidują przyczyny
aktualnych wejść zmysłowych i
minimalizują błędy takich
przewidywań:
zmieniając przewidywania na temat
wejść zmysłowych lub
zmieniając świat.
Jednolita teoria percepcji i
działania (A. Clark 2013).
Inne warianty
Daniel Wolpert:
mózg metodami bayesowskimi tworzy
modele antycypacyjne, aby sterować
ruchem,
mózg mamy tylko po to, aby się
poruszać.
Dlaczego trudno połaskotać
samego siebie?
Kiedy łaskoczemy
siebie,
przewidujemy
efekt.
Za pomocą
robota możemy
wprowadzić błąd
predykcji.
Podsumowanie
Bayesizm to bardzo żywa
metodologia kognitywistyki.
Zachowanie jako efekt racjonalnego
wnioskowania probabilistycznego.
Różne poziomy Marra, wiele zjawisk
Wątpliwości:
Czy w ogóle da się go obalić?
Czy nie jest tylko innym sposobem
opisu?
Do zobaczenia za tydzień!