Andrzej Bielecki

Download Report

Transcript Andrzej Bielecki

Metody matematyczne w systemach sztucznej
inteligencji
Topologiczne sprzężenie kaskad i własność shadowing w
zastosowaniu do badania stabilności procesu nauki
warstwowych sieci neuronowych.
Andrzej Bielecki
AGH
Wydział EAIiIB
Katedra Informatyki Stosowanej
Plan wykładu
1. Systemy sztucznej inteligencji – podstawy.
2. Zagadnienia matematyczne w warstwowych sieciach
neuronowych.
3. Zagadnienie stabilności procesu nauki warstwowych sieci
neuronowych czyli:
Topologiczne sprzężenie kaskad i własność shadowing
w zastosowaniu do badania stabilności procesu nauki
warstwowych sieci neuronowych
Systemy sztucznej inteligencji – podstawy
•
Własności systemu przejawiającego inteligencję
•
Rodzaje zadań rozwiązywanych przez systemy
inteligentne
•
Obszary zastosowań
•
Rodzaje systemów sztucznej inteligencji:
1. Sieci neuronowe
• Podstawy biologiczne
• Model neuronu
• Taksonomia metod nauki
2. Systemy ekspertowe
• Systemy regułowe
• Systemy ramowe
• Sieci semantyczne
• Model obliczeniowy
3. Algorytmy ewolucyjne
•
Podstawy biologiczne
• Operatory genetyczne
• Podstawowe algorytmy genetyczne
4. Liczne inne.
Monografia przeglądowa:
Flasiński M.,
Wstęp do sztucznej inteligencji,
PWN, Warszawa, 2011
Własności sytemu przejawiającego
inteligencję
• zdolność uczenia się
• zdolność generalizacji, w tym umiejętność
ekstrahowania
cech
ważnych
w
analizowanym zjawisku oraz kreacja modeli
• zdolność przewidywania przyszłości
• zdolność rozwiązywania nowych zadań
• zdolność rozwiązywania złożonych zadań
Rodzaje zadań rozwiązywanych przez
systemy inteligentne
•
•
•
•
•
Diagnostyka
Rozpoznawanie wzorców – klasyfikacja
Predykcja
Sterowanie ( w czasie rzeczywistym)
Optymalizacja (w tym kompresja danych)
Zastosowania
• W technice:
– diagnostyka układów technicznych
– rozpoznawanie wzorców w systemach
wizyjnych
– sterowanie(np. linią produkcyjną,
manipulatorami robota, ruchem
samochodowym)
W medycynie:
• diagnostyka i rozpoznawanie obrazów i
wzorców
W ekonomii:
• predykcja popytu i podaży, cen,
trendów(szeregi czasowe- met.
statystyczne)
• ocena np.. wycena nieruchomości
– wybór strategii inwestycyjnej
Cybernetyczny model neuronu
• neuron jest jednostką przetwarzającą impulsy;
• posiada wiele wejść (dendryty) i jedno wyjście
(akson)-chociaż akson jest rozgałęziony, to do
każdej kolbki doprowadzany jest ten sam sygnał i
stąd możemy przyjąć, że wyjście jest jedno;
• wejścia neuronu są ważone – w różnych
synapsach mogą się uwolnić różne rodzaje
neurotransmiterów pod wpływem takiego
samego impulsu; w różnych synapsach mogą
się uwolnić różne ilości tego samego
neurotransmitera pod wpływem tego samego
impulsu;
• wagi wejść zmieniają się w czasie – w tej
samej synapsie w różnych chwilach
czasowych pod wpływem takiego samego
impulsu mogą się wyzwolić różne ilości
neurotransmitera;
Neuron biologiczny
Cybernetyczny model neuronu McCullocha-Pittsa
Przykład warstwowej sztucznej sieci neuronowej (perceptronu)
Systemy ekspertowe
Ze względu na organizację bazy wiedzy można wyróznić:
1. Systemy regułowe – oparte na logice.
2. Sieci semantyczne i mapy przyczynowe – oparte na grafach.
3. Systemy ramowe.
4. Modele obliczeniowe.
Systemy regułowe
Systemy regułowe są oparte na logice matematycznej, w
najprostszej wersji na klasycznym rachunku zdań.
Algorytm wnioskowania wykorzystuje logiczne reguły
wnioskowania. W wersji opartej na rachunku zdań jest to
modus ponens i przechodniość implikacji. Wyróżniamy
trzy podstawowe rodzaje algorytmów wnioskowania w
systemach regułowych:
• wnioskowanie wstecz
• wnioskowanie w przód
• drzewo wywodu
Reguły wnioskowania
Niech A1,...An będzie dowolnym ciągiem skończonym
schematów logicznych (tzn. zdań prostych lub złożonych
zbudowanych
ze
zmiennych
zdaniowych,
funktorów
logicznych).
Mówimy, że schemat B jest logiczną konsekwencją schematów
A1,...An i piszemy
A1,...An
B
jeśli spełniony jest warunek: Przy każdym układzie wartości
logicznych takim, że prawdziwe są wszystkie zdania A1,...An
prawdziwe jest też zdanie B.
Reguły wnioskowania to operacje, które skończonym ciągom
schematów A1,...An przypisują schemat B w taki sposób, że B
jest logiczną konsekwencją A1,...An .
A1,...An nazywamy przesłankami a B wnioskiem
Reguła modus ponens:
A, AB
B
czyli
[A  (A  B)]  B
oraz przechodniość implikacji
[(A  B)  (B  C)]  (A  C)
Wnioskowanie wstecz
Załóżmy, że mamy następującą regułową bazę wiedzy zawierającą
5 reguł:
R1: IF p AND q THEN s
R2: IF r THEN t
R3: IF s AND t THEN u
R4: IF w AND u THEN v
R5: IF q THEN w
wejście: q, r, p
czy na podstawie bazy wiedzy można wywnioskować v?
Wnioskowanie: BF={q, r, p}
• R4 reguła z wnioskiem v
• czy u, wBF ? nie
• czy da się wywnioskować u?
• R3 reguła z wnioskiem u
• czy s, tBF ? nie
• czy da się wywnioskować t?
• R2 reguła z wnioskiem t
• czy r BF ? tak
• BF=BF  {r}={q, r, p, t}
• czy da się wywnioskować s?
• R1 reguła z wnioskiem s
•
•
•
•
•
•
•
•
czy p, q BF ? tak
BF=BF{s}={q, r, p, t, s}
BF={q, r, p, t, s, u}
czy da się wywnioskować w?
R5 reguła z wnioskiem w
czy q BF ? tak
BF=BF {w}={q, r, p, t, s, u, w}
v=TRUE
Wnioskowanie w przód
Przy tej samej bazie reguł załóżmy, że na wejście podajemy
fakty q, s, t.
zadanie: wywnioskować wszystko co się da
Wnioskowanie: BF={q, s, t}
1 iteracja ( przechodzę wszystkie reguły i sprawdzam czy na
podstawie mojej bazy faktów dana reguła może zostać
wykorzystana)
R1: nie
R2: nie
R3: mogę zastosować tzn. że rozszerzam bazę faktów
BF={q, s, t,u}
R4: nie
R5: mogę zastosować tzn. że rozszerzam bazę faktów
BF={q, s, t, u, w}
2 iteracja
R1: nie
R2: nie
R4: mogę zastosować tzn. że rozszerzam bazę faktów
BF={q, s, t, u, w, v}
3 iteracja
R1: nie
R2: nie
stop ( więcej reguł nie ma)
Drzewo wywodu
kwota do zainwestowania
do 5000
od 5000 do
30000
dochód na osobę
poniżej śred.
lokata
powyżej śr
obligacje
powyżej 30000
wiek
<35 lat
fundusz
wiek
>35lat
obligacje
<35lat
akcje
>35lat
nieruch.
Każda ścieżka w drzewie utworzy nam jedną regułę w bazie
wiedzy.
R1: If
kwota do zainwestowania = do 5000
and dochód na osobę =poniżej średniej
then inwestycja = lokata w banku
R2: If
kwota do zainwestowania = do 5000
and dochód na osobę =powyżej średniej
then inwestycja = obligacje
R3: If
kwota do zainwestowania = do 5000 do 30000
and wiek =do 35 lat
then inwestycja = fundusz powierniczy
R4: If
kwota do zainwestowania = od 5000 do 30000
and wiek = powyżej 35 lat
then inwestycja = obligacje
R5: If
kwota do zainwestowania = powyżej 30000
and wiek = do 35 lat
then inwestycja = akcje
R6: If
kwota do zainwestowania = powyżej 30000
and wiek = powyżej 35 lat
then inwestycja = nieruchomości
Sieci semantyczne
Sieci semantyczne są wzorowane na modelu ludzkiej pamięci w
sensie psychologicznym. Zostały wprowadzone przez Quilliana
(1968). Tworząc sieć semantyczną tworzymy pewien graf, którego
węzłami są obiekty lub zbiory obiektów a gałęziami są relacje.
Relacje mogą być różnego typu na przykład strukturalne,
funkcjonalne lub przestrzenne.
Wnioskowanie w sieci semantycznej oznacza przeszukiwanie grafu.
Przykład sieci semantycznej
jest
jest
Lokomotywa
Kalkulator
Maszyna
jest typem
jest
jest
częścią
Procesor
Abakus
jest
Komputer
jest częścią
VAX
Zastosowanie sieci
semantycznych
Sieci semantyczne są często stosowane w systemach analizy i
rozumienia języka naturalnego. Są również przydatne do
tłumaczenia z jednego języka na inny oraz wspomagania
uczenia.
Model obliczeniowy
W modelu obliczeniowym baza wiedzy ma postać
wzorów
matematycznych
natomiast
algorytm
wnioskowania polega na odpowiednim przekształcaniu
tych wzorów aby obliczyć zmienną szukaną. W
związku z potrzebą przekształcania wzorów muszą one
być reprezentowane przy pomocy dynamicznych
struktur danych co oznacza, że na poziomie
implementacyjnym reprezentowane są za pomocą list.
Zagadnienia matematyczne
w sieciach neuronowych
1. Problemy optymalizacyjne
a) Zadania optymalizacyjne rozwiązywane przy pomocy ANNs
b) Optymalizacja ANNs, np. procesu nauki
2. Problemy aproksymacyjne
3. Problemy związane z dynamiką
a) Badanie dynamiki nauczonej sieci rekurencyjnej
b) Badanie dynamiki procesu nauki sieci neuronowej
Publikacja przeglądowa:
Bielecki A.,
Matematyczne podstawy sztucznych sieci neuronowych,
Matematyka Stosowana, vol.4, 2003, 25-55.
Zagadnienie stabilności procesu nauki
warstwowych sieci neuronowych
czyli:
Topologiczne sprzężenie kaskad
i własność shadowing
w zastosowaniu do badania stabilności
procesu nauki
warstwowych sieci neuronowych
Bielecki A., Ombach M.,
Dynamical properties of a perceptron learning process –
structural stability under numerics and shadowing ,
Journal of Nonlinear Science, vol.21, 2011, 579-593.
Bielecki A., Ombach J.,
Shadowing property in analysis of neural network dynamics,
Journal of Computational and Applied Mathematics,
vol.164-165, 2004, 107-115.
Bielecki A., Jabłoński D., Kędzierski M.,
Properties and applications of weakly nonlinear neurons,
Journal of Computational and Applied Mathematics,
vol.164-165, 2004, 93-106.
Bielecki A.,
Dynamical properties of learning process of weakly nonlinear
and nonlinear neurons,
Nonlinear Analysis: Real World Applications, vol.2, 2001, 249-258.
Podstawy Matematyczne
Topologiczne sprzężenie
Definicja
Niech
M
będzie
rozmaitością
riemanowską.
Mówimy,
że
dyfeomorfizmy f,g: MM są topologicznie sprzężone jeśli istnieje
homeomorfizm : MM taki, że f °= °g.
Uwaga.
Kaskady generowane przez topologicznie sprzężone dyfeomorfizmy
mają taką samą dynamikę.
Twierdzenie
Z: M – gładka, skończenie wymiarowa rozmaitość riemanowska bez
brzegów z metryką ;
F – pole wektorowe klasy C2 na M;
: MℝM - potok generowany przez: dx/dt = F(x);
h: MM jest dyskretyzacją czasową , tzn. h(x) = (x,h);
h,p – dyfeomorfizm generowany przez metodę R-K rzędu p=1,2,…
T > 0 jest ustalone.
T: Dla dostatecznie dużego m i dla każdego p istnieje homeomorfizm
m: MM taki, że
(T/m,p)m ° m = m ° T
Ponadto limm∞ (m(x), x) = 0.
Definicja
Niech h: MM oznacza operator generowany przez metodę
numeryczną z krokiem h zastosowaną do równania różniczkowego
generującego potok . Mówimy, że potok  jest numerycznie
stabilny względem h jeśli operator h oraz dyskretyzacja h potoku
 są topologicznie sprzężone dla dostatecznie małych h.
Definicja
Mówimy, że dana własność jest generyczna w przestrzeni
topologicznej X jeśli posiada ją pewien zbiór otwarty i gęsty w X.
Własność shadowing
Definicja
Mówimy, że ciąg {yk}k∈ℤ jest -pseudoorbitą dyfeomorfizmu
f: MM jeśli (f(yk), yk+1) ≤ .
Definicja
Mówimy, ze kaskada generowana przez dyfeomorfizm f: MM ma
własność shadowing jeśli dla każdego >0 istnieje >0 taka, że dla
każdej -pseudoorbity {yk}k∈ℤ dyfeomorfizmu f istnieje x∈M takie,
że dla każdej liczby całkowitej k zachodzi (yk, f k(x)) ≤ .
Własność inverse shadowing
Niech Mℤ oznacza zbiór wszystkich ciągów punktów należących do
M indeksowanych zbiorem liczb calkowitych.
Definicja
Odwzorowanie f nazywamy -metodą dyfeomorfizmu f jeśli:
f(y)0 = y dla każdego y∈M;
f(y) jest -pseudoorbitą dyfeomorfizmu f.
Definicja
Rodzinę T(f) -metod dyfeomorfizmu f”: MM taką, że dla
każdego >0 istnieje -metoda należąca do T(f) nazywamy klasą.
Niech k, k∈ℤ oznacza rodzinę ciągłych odwzorowań na M taką, że
0=idM oraz, dla każdego k∈ℤ, zachodzi D∞(f ° k, k+1) ≤, gdzie
D∞(f, g) := supx∈M (f(x),g(x)).
Zdefiniujmy następujące klasy:
c składa się z metod postaci f(y) = {k(y)}k∈ℤ, y∈M.
s składa się z metod postaci f(y) = {yk}k∈ℤ, y0=y, yk+1= k(yk).
 := c ∪ s.
Definicja
Niech T(f) będzie klasą. Mówimy, że f ma własność T-inverse
shadowing jeśli dla dowolnego >0 istnieje >0 taka, że dla każdej
orbity {xk}k∈ℤ oraz dowolnej -metody f ∈T(f) istnieje y∈M taki, że
dla wszystkich całkowitych k zachodzi (xk, f (y)k ) ≤ .
Definicja
Mówimy, że kaskada generowana przez dyfeomorfizm f ma własność
T – bishadowing jeśli ma własnosć shadowing oraz T – inverse
shadowing.
Proces nauki perceptronów
Załóżmy, że w∈ℝn jest wektorem wszystkich wag
perceptronu oraz że dany jest ciąg uczący i funkcja kryterialna
E: ℝnℝ. Niech nauka perceptronu będzie metodą h,p
zastosowaną do równania dw/dt = -grad E(w).
Ustalmy T>0 oraz r>0.
Twierdzenie
Istnieją zwarta, gładka, n-wymiarowa rozmaitość bez brzegów M oraz
funkcja V: ℝnℝ takie, że B(0,2r)⊂M oraz V|B(0,r) = E takie, że
potok  generowany przez równanie dw/dt = -grad V(w) jest
generycznie numerycznie stabilny względem operatora h,p
zastosowanego do powyższego równania rózniczkowego. Ponadto,
kaskada generowana przez dyskretyzację oraz kaskada generowana
przez operator numeryczny mają, generycznie, własność
T – bishadowing, gdzie T=.