Obliczenia inspirowane neurologicznie

Download Report

Transcript Obliczenia inspirowane neurologicznie

Marcin Miłkowski

WSTĘP DO KOGNITYWISTYKI OBLICZENIA NEUROPODOBNE. BEZ REGUŁ

O czym będzie mowa     Neurony jako elementy obliczeniowe Perceptron i problemy koneksjonizmu Renesans koneksjonizmu Rumelhart i McClelland o uczeniu się czasowników

McCulloch i Pitts (1943)  Pierwszy model mózgu jako sieci neuronów.

  Neurony to elementy cyfrowe. Albo przewodzą prąd, albo nie.

Neurony jako bramki logiczne: odpowiednio połączone są równie silne jak maszyna Turinga.

Perceptron  F. Rosenblatt (1957): uczące się sieci neuronowe – perceptrony.

  Przez modyfikację połączeń między neuronami można zmienić działanie sieci.

Wystarczy dopasować wagę połączeń tak, aby wejściu odpowiadało odpowiednie wyjście. Wtedy perceptron rozpoznaje wzorce.

Perceptron jako klasyfikator     Wiele wejść (X1... X7) Wiele wag (W1... W7) Jedno wyjście (y), binarne  Perceptron daje odpowiedź „tak” lub „nie”.

Klasyfikacja = rozpoznawanie wzorca

Mark I Perceptron  Wczesne perceptrony były częściowo mechaniczne (potencjometry i silniczki!)  Wielki entuzjazm

Minsky i Papert (1969): koniec wczesnego koneksjonizmu  Perceptrony nie nauczą się nawet prostych funkcji takich jak alternatywa rozłączna (XOR)!

Sieci wielowarstwowe  Sieci z wieloma warstwami neuronów mogą zrealizować każdą obliczalną funkcję matematyczną.

  W 1969 roku nie był znany algorytm ich uczenia, a algorytm perceptronu nie wystarczał.

Lata 80: algorytm propagacji wstecznej. Renesans koneksjonizmu!

Koneksjonizm klasyczny   Sztuczne sieci neuronowe symulują procesy poznawcze.

W latach 1980 były bardzo uproszczone.

 Zwykle trzy warstwy

Koneksjonizm  Sieci nerwowe przekształcają sygnał wejściowy na wyjściowy, a nie symbole.

  Przekształcenie zależy od wag połączeń. Uczenie sieci to ustawianie wag.

Sieci pracują równolegle, a nie sekwencyjnie jak GPS. I nie ma w nich żadnych reguł!

Koneksjonizm klasyczny   James McClelland (Stanford University) David E. Rumelhart (1942 2011)

Nabywanie czasu przeszłego w j. angielskim  Końcówki czasu past simple  Regularne (90%)  talk => talked  pit => pitted  Nieregularne (10%)   hit => hit get => got  go => went  Jak dzieci to opanowują?

Fazy rozwojowe: wizja tradycyjna  Faza 1: Uczenie na pamięć  początkowo bezbłędnie, ale mało czasowników   Faza 2: Wydobywanie reguły  nadmierna regularyzacja (comed jako forma przeszła come) Faza 3: Reguły + pamięć  usuwanie błędów: współistnienie form regularnych i nieregularnych

Nabywanie czasu przeszłego  Tradycyjne modele wyjaśniające postulują reguły: w końcu regularnych jest 90% czasowników!

  Reguły przekształceń wyjaśniają tworzenie czasu przeszłego.

Czy można to wyjaśnić inaczej?

Bez reguł!

 Rumelhart & McClelland (1986) pokazali, że  rozproszone sieci przetwarzające równolegle to konkurencja dla symbolicznych systemów reguł;  wyuczenie sieci odpowiada rozwojowi umiejętności u dzieci i wyjaśnia dynamikę nabywania końcówek.

 Fazy uczenia się odpowiadają fazom rozwojowym dzieci.

Co jest modelowane?

 Newell & Simon gromadzili raporty werbalne, Rumelhart & McClelland opierają się na prawidłowości statystycznej w populacji.

 Też postuluje się etapy przetwarzania tak samo jak w GPS ie i jak u Marra.

Reprezentacja fonemów  Reprezentacja wymowy samych czasowników (bez kontekstu!) zaproponowana przez W. Wickelgrena (1969)   Fonemy jako wzorce strukturalne, tzw. Wickelfeatures Wickelfeatures to wejście i wyjście sieci  Model stanowi idealizację

Wiele zachowań, jedna sieć

Wickelfeature Representation of Past Tense

 Wejście: rdzeń czasownika   Wyjście:

Wickelfeature Representation of Stem

czas przeszły czasownika Wagi określają zachowanie sieci. Nie ma tworzenia czasowników na podstawie reguł i na podstawie zapamiętanych wyjątków.

Wyniki  Wysoka poprawność modelu (zgodność danych o dzieciach i wyjścia sieci): ponad 90%  Jest transfer tworzenia na nowe formy, 92% poprawności dla regularnych, 84% dla nieregularnych  Sieć przewiduje zachowanie dzieci w wieku przedszkolnym znane z badań (Bybee & Slobin 1982)

Wyniki  Rozwój i uczenie są U-kształtne  Występuje nadmierna generalizacja  A potem błędy zanikają 100 95 90 85 80 75 70 65 60 55 50 0 Regul ars Vocabu lary di sco ntin uity 100 Training Epochs Irreg ulars 200

Dowód możliwości  Sieć nabywa czasu przeszłego bez reprezentowania reguł   Ale Rumelhart i McClelland pokazują tylko, że wyuczenie sieci symulującej fazy zachowania jest możliwe (lub wystarczające) Nie ma świadectw empirycznych, że to robi układ nerwowy, nawet w przybliżeniu!

Krytyka Pinkera i Prince’a (1988)  Błędne wyjaśnienie. Fonologia nie wystarcza!

  Np. homofony wring i ring mają zupełnie różne nieregularne formy czasu przeszłego (wrung i rang). Ta sieć się tego nie nauczy.

Sieć gubi strukturalne własności ciągów fonemów (traktuje je jak nieuporządkowane zbiory, worki!)

Rozwój badań    W kolejnych modelach odrzucono Wickelfeatures.

Wprowadzono warstwę ukrytą.

Sam Pinker zaproponował teorię hybrydową „wyrazy i reguły”:  reguły – czasowniki regularne;  sieć neuronowa – pamięć nieregularnych.

 Ale nie istnieje pełen komputerowy model.

Problem z frekwencją  Rumelhart i McClelland badali prawidłowości statystyczne: ich model korzystał z listy frekwencyjnej czasowników.

 Najpierw podawano czasowniki najczęstsze, potem rzadsze.

 I takie etapy uczenia mogły stwarzać wrażenie podobieństwa do dzieci.

 Ale dzieci słyszą rzadsze czasowniki od razu! Tylko rzadziej...

Nabywanie czasu przeszłego  Metodologia:  Analiza zdolności, w tym możliwych reprezentacji wejścia i wyjścia (Wickelfeatures)  Gromadzenie danych o zachowaniu (wcześniejsze badania)  Zbudowanie i wytrenowanie sieci za pomocą informacji wejściowych i wyjściowych  Przetestowanie na danych behawioralnych

Pojedynczy badany kontra populacja  Wyjście sieci uśrednia wyniki w populacji. Żadne konkretne dziecko może tak nie mówić.

 Niebezpieczeństwo, że u różnych badanych występują różne mechanizmy psychologiczne!

 To niebezpieczeństwo jest nawet w modelach neurologicznych, bo mózgi się różnią  Newell i Simon badali pojedynczych ludzi. Bezpieczny konserwatyzm.

Symbole i sieci

Newell & Simon

1.

2.

3.

4.

Analiza zadania, w tym możliwych reprezentacji rozwiązywanego zadania Zgromadzenie danych o zachowaniu Zbudowanie reguł produkcji (reguły przepisywania symboli) do szukania rozwiązania Test na danych

Rumelhart & McClelland

1.

2.

3.

4.

Analiza zadania, w tym reprezentacji wejścia i wyjścia (Wickelfeatures) Zgromadzenie danych o zachowaniu Zbudowanie i wytrenowanie sieci za pomocą informacji WE i WY Test na danych

Kompetencja i wykonanie (Chomsky)  Kompetencja językowa: znajomość języka  Wykonanie językowe: zachowanie użytkowników języka  U Chomsky’ego kompetencja jest (prawie) bezbłędna. Badanie wykonania jest nieinteresujące.

 Koneksjoniści badają zmiany kompetencji.

Swoistość koneksjonizmu  Zrealizowanie całej sieci w komputerze pozwala badać bardzo złożone zjawiska, których nie sposób sobie wyobrazić. Modele werbalne (np. Pinkera „wyrazy i reguły”) nie mają tej zalety.

 Koneksjoniści często modyfikują sieci i badają ich własności.

Niebezpieczeństwo koneksjonizmu  Bardzo złożone sieci neuronowe są trudne do zrozumienia.

  Paradoks Boniniego: zjawisko wyjaśniane może być równie trudne do pojęcia, jak jego wyjaśnienie.

Wypracowano metody badania struktury sieci neuronowych, aby sobie z tym poradzić. Analiza sieci po treningu...

Koneksjonizm : mity i rzeczywistość  Sztuczne sieci neuropodobne są bliższe mózgowi niż maszyna Turinga.

 Ale i tak są boleśnie uproszczone.

 Sieci łagodnie obniżają poziom działania, a maszyna Turinga po prostu nie może działać po uszkodzeniu reguły.

 Systemy klasyczne też to potrafią, ale muszą mieć odpowiednią strukturę.

Koneksjonizm : mity i rzeczywistość  Sieci neuronowe działają w czasie rzeczywistym, a maszyna Turinga – w dyskretnym czasie kroków obliczania.

 W rzeczywistości sieci neuronowe stosują ograniczenie „100 kroków na sekundę”, bo koneksjoniści zakładają, że mózg nie może wykonać więcej operacji.

 Mocno kontrowersyjne założenie. Do czasu rzeczywistego stąd daleko...

Koneksjonizm : mity i rzeczywistość  Sieci świetnie rozpoznają wzorce i generalizują.

 W istocie to potrafi wiele innych algorytmów uczenia maszynowego. Ale szybciej (np. Support Vector Machines, SVM).

W następnym odcinku  Układy dynamiczne i raczkujące dzieci