prezentacja

Transcript prezentacja

Masowe Przetwarzanie Danych
a Bezpieczeństwo Ruchu
Andrzej P. Wierzbicki
Instytut Łączności – PIB
1. Wstęp: prawo Moore’a jako megatrend
2. Złożoność obliczeniowa jako ograniczenie
poznawcze
3. Masowość danych a prawo Moore’a
4. Masowość danych a bezpieczeństwo
ruchu
5. Wnioski i zalecenia
1
1. Wstęp: prawo Moore’a jako megatrend
• Gordon E. Moore (Moore 1965) sformułował już niemal 50
lat temu prawo empiryczne, t.zw. prawo Moore’a, wynikłe z
obserwacji rozwoju liczby elementów elektronicznych –
np. tranzystorów – które można zmieścić na pojedynczym
układzie scalonym przeciętnych rozmiarów, np. na calu
kwadratowym: otóż liczba elementów upakowanych w
układzie scalonym podwaja się co 18-24 miesięcy.
• Później okazało się to nie tylko prawdziwą obserwacją, ale
podtrzymującą się przez ostatnie niemal 50 lat, w
następującej wersji: liczba ta zwiększa się przeciętnie
dziesięciokrotnie co każde 5 lat, lub stukrotnie co dekadę;
stanowi to zatem dobrze obserwowany i udokumentowany
megatrend.
• Jego powodem jest stały rozwój technologii produkcji
układów scalonych. Chociaż można sądzić, że możliwości
technologiczne techniki krzemowej wkrótce się wyczerpią,
to wspomniane wyżej możliwości nowych tranzystorów,
włącznie z możliwością nowych odkryć takich jak grafen,
2
podtrzymają zapewne jeszcze prawo Moore’a przez
następne kilka dekad.
1. Wstęp: prawo Moore’a jako megatrend, 2
• Oznacza to możliwość zwiększenia liczby tranzystorów w
pojedynczym układzie scalonym, a tym samym mocy
obliczeniowej komputerów, jeszcze 106-1010 razy.
• W analogiczny sposób zmienia się dostępna moc
obliczeniowa komputerów, chociaż pojęcie mocy
obliczeniowej nie jest w pełni precyzyjne (składa się na nią
zarówno pojemność różnych typów pamięci w
komputerze, jak i szybkość – liczba podstawowych
operacji na sekundę – podstawowego procesora czy
równolegle połączonych procesorów, itp.).
• Tym niemniej rozwija się ona – zarówno w sensie średniej
mocy obliczeniowej typowego dzisiaj komputera
osobistego, jak i w sensie łącznej mocy obliczeniowej
dostępnej dzisiaj w sieci dla t.zw. obliczeń chmurowych,
czyli właśnie obliczeń sieciowych bez specyfikacji
wykorzystywanych komputerów – także w przybliżeniu
zgodnie z prawem Moore’a. Wynika stąd wiele wniosków,
3
które przedstawimy w dalszych punktach.
2. Złożoność obliczeniowa jako ograniczenie
poznawcze
• Z jednej strony, niezwykle szybki rozwój możliwości
sprzętowych komputerów wywołuje często naiwną wiarę,
że załatwi on wszystko: po co uczyć się skomplikowanych
metod matematycznych, rozwijać oprogramowanie i
techniki obliczeniowe, skoro za dziesięć lat komputery
będą i tak stokrotnie szybsze? Wiara ta jest bezpodstawna,
a nawet groźna, z wielu powodów.
• Wynika to z wiedzy o złożoności obliczeniowej problemów
do rozwiązania przez komputer. Teoria złożoności
obliczeniowej to obszerny dział informatyki, sam w sobie
dość złożony, przedstawię ją tu w największym tylko
uproszczeniu.
• Otóż problemy do rozwiązania przez komputer
charakteryzują się przez swój charakter czy typ, oraz przez
swój wymiar.
4
2. Złożoność obliczeniowa jako ograniczenie
poznawcze, 2
•
Typ to, na przykład, problem routingu w sieci czyli
problem znajdowania najkrótszej czy najtańszej ścieżki
łączącej dwa punkty sieci, a problem podróżującego
sprzedawcy w teorii systemów zaopatrzenia jest podobny do
problemu routingu, ale wymaga, żeby po drodze odwiedzić
szereg określonych z góry punktów sieci.
•
Drugi ważny aspekt charakterystyki problemu to jego
wymiar, określany jako albo ilość danych wejściowych do
przetworzenia przy rozwiązywaniu problemu, albo też jako
ilość zmiennych niezbędna do matematycznej
charakterystyki problemu.
•
Zasadniczym rezultatem teorii złożoności obliczeniowej
jest stwierdzenie, że – za wyjątkiem problemów szczególnie
prostego typu – zależność nakładu obliczeń od wymiaru jest
nieliniowa, i to o stosunkowo łagodnym charakterze
wielomianowym tylko dla problemów prostszych typów,
zazwyczaj natomiast (dla problemów bardziej złożonych
typów) nie-wielomianowa, czyli wykładnicza lub
5
kombinatoryczna, bardzo szybko rosnąca z wymiarem
problemu.
2. Złożoność obliczeniowa jako ograniczenie
poznawcze, 3
• Każdy przedstawiciel stosowanych nauk obliczeniowych –
technik, biolog, genetyk, meteorolog, fizyk itp., który
stosuje komputery do rozwiązywania złożonych symulacji
czy optymalizacji badawczych lub konstrukcyjnych – wie
doskonale z doświadczenia, że nie może stosować modelu
rozważanego problemu wyrażającego najbardziej
dokładną, pełną wiedzę swej dziedziny, musi stosować
uproszczenia, bo inaczej nie uda mu się wykonać
niezbędnych obliczeń w rozsądnym czasie.
• Nauki obliczeniowe są zatem także sztuką kompromisu
pomiędzy możliwie największą dokładnością a rozsądnym
czasem obliczeń; oczywiście kompromis ten modyfikuje
się ze zwiększeniem możliwości obliczeniowych
komputerów, ale zawsze pozostaje kompromisem.
6
•
2. Złożoność obliczeniowa jako ograniczenie
poznawcze, 4
Wynika stąd także, że nie ma algorytmów uniwersalnych
a jednocześnie skutecznych obliczeniowo: dla każdej
dziedziny nauk obliczeniowych i dla każdego typu problemu
obliczeniowego trzeba intensywnie pracować nad
algorytmami specjalistycznymi, które ten typ problemu
rozwiążą w możliwie najkrótszym czasie. Dotyczy to także
obliczeń równoległych i chmurowych.
• I nie pomaga tu prawo Moore’a: to, że możliwości
obliczeniowe komputerów rosną wykładniczo z czasem, nie
pomaga jednak, gdyż nakład obliczeń też rośnie wykładniczo
z wymiarem rozwiązywanych problemów.
• Oznacza to dodatkowo, że problem złożoności
obliczeniowej ma ważkie implikacje epistemiczne,
naukoznawcze. Z przytoczonej wyżej dyskusji wynika, że
możliwości poznawcze człowieka ograniczone są nie tylko
przez jego cechy podmiotowe, lecz także przez
niedoskonałość narzędzi które stosuje w procesach
7
poznawczych.
3. Masowość danych a prawo Moore’a
• Z drugiej strony, rozwój pojemności pamięci
komputerowych zgodnie z prawem Moore’a stymuluje inny
megatrend: masowe zwiększanie objętości
przechowywanych i analizowanych danych, i to niemal w
każdej dziedzinie badawczej czy społeczno-ekonomicznej.
Łącznie, liczba dostępnych danych rośnie podobnie do
prawa Moore’a, zwiększa się w przybliżeniu stukrotnie co
dziesięciolecie. Co więcej, dane takie rosną szybko w
wymiarowości: rośnie (być może, nieco tylko wolniej) liczba
parametrów, których te dane dotyczą.
• Stąd też wzrost zapotrzebowania na moc obliczeniową
faktycznie wyprzedza prawo Moore’a, co wywołuje często
wręcz niemożliwość pomieszczenia wszystkich
przetwarzanych danych w pamięci operacyjnej komputera, a
więc konieczność przetwarzania strumieniowego:
stosowania tylko takich algorytmów przetwarzania danych,
które poradzą sobie z masą danych napływającą stopniowo,
czy to w specjalnie zorganizowany sposób z określonej
składnicy czy repozytorium danych (data warehouse), czy
też w miarę ich pozyskiwania w czasie rzeczywistym.
8
3. Masowość danych a prawo Moore’a, 2
• To właśnie zjawisko jest nazywane potocznie nadmiarem
danych lub masowością danych. Ze zjawiska tego wynika, że
nie należy zbytnio ufać inteligencji komputerów czy ich
oprogramowania, które rzekomo powinno sobie poradzić z
każdym problemem. Potrzebna jest raczej inteligencja ludzi,
programistów, którzy skonstruują specyficzne algorytmy
radzące sobie ze wciąż nowymi typami problemów przy
szybko rosnących ilościach i wymiarowości danych. Nie
można przy tym wierzyć w uniwersalne algorytmy
inteligentne – np. ewolucyjne, wzorujące się na
uproszczonych zasadach ewolucji biologicznej – gdyż
złożoność obliczeniowa właśnie takich algorytmów najsilniej
zależy od wymiarowości danych.
• Pojawia się zatem szereg specjalnych metod inżynierii
wiedzy, czyli wydobywania wiedzy z dużych zbiorów danych,
data mining – czy to metodami statystycznymi, czy
logicznymi i sztucznej inteligencji, czy też w oparciu o
optymalizację i wielokryterialną teorię decyzji. Dane mogą
być często pozornie niezwiązane ze sobą, ale pozwalające
wykrywać różnorodne zależności pomiędzy nimi oraz
prognozować różnorodne zdarzenia. Wiedza jest przy tym
9
interpretowana dość wąsko, jako informacja zorganizowana
w określonym celu.
4. Masowość danych a bezpieczeństwo ruchu
• Zastosowania takich nowych podejść może mieć ogromne
znaczenie w logistyce, planowaniu ruchu oraz systemach
bezpieczeństwa w transporcie drogowym i kolejowym. Na
przykład, wiele referatów niedawnej konferencji IFIP
Working Group on Advanced Analytics w Akwizgranie
dotyczyło właśnie tych zagadnień; tematyka konferencji
określona była jako: Integration of Modelling, Optimization,
Data Analysis and Knowledge Management for Solving
Real World Problems. Kilka referatów (np. Hu 2012)
poświęcone było bezpieczeństwu ruchu w portach
morskich; jednym z wniosków było stwierdzenie, że port
dysponuje masowymi, strumieniowo napływającymi
danymi (np. z satelitarnych namiarów pozycji statków i
łodzi), a więc można konstruować algorytmy wykrywające
sytuacje niebezpieczne bądź zbliżanie się jednostek
nieznanych, w tym np. terrorystycznych.
• Na tym tle szczególnego znaczenia nabierają algorytmy
wykrywania zdarzeń (zob. np. Granat et al. 2009).
Modelowanie zdarzeń to tradycyjny obszar badawczy w
informatyce, tu jednak chodzi o wykrywanie zdarzeń na
podstawie masowych, strumieniowo napływających 10
danych.
4. Masowość danych a bezpieczeństwo ruchu
• Zdarzeniem może być np. awaria pojazdu wywołująca
zakłócenie ruchu, problemem jest rozpoznanie takiego
zdarzenia np. ze strumienia danych z obserwacji ruchu
wzdłuż inteligentnej drogi (t.j. drogi wyposażonej w sieć
sensorów zbierających dane); istnieją już jednak specjalnie
w tym celu konstruowane algorytmy wykrywania zdarzeń.
• Algorytmy takie, ze względu na wielką liczbę
napływających danych, których całości nie pomieści typowa
pamięć operacyjna, muszą mieć charakter nieklasyczny,
dostosowany do przetwarzania strumieniowego, muszą
wykorzystywać też moc obliczeniową równolegle lub
chmurowo.
• Wszystko to oznacza, że możliwe są dzisiaj zupełnie nowe
podejścia do wykorzystania danych o pozycjach i
prędkościach pojazdów (czy to uzyskiwanych z systemu
GPS, czy z sensorów inteligentnej drogi) wraz z danymi o
stanie urządzeń zabezpieczenia ruchu do ich masowej i
strumieniowej analizy, co może w decydującym stopniu
wspomóc bezpieczeństwo ruchu.
11
5. Wnioski i zalecenia
• Z tych nader ogólnych rozważań wynikają jednak dość
konkretne wnioski i zalecenia.
• Po pierwsze, instytucje i organizacje związane z
bezpieczeństwem ruchu kolejowego i drogowego powinny
tworzyć repozytoria (składnice, data warehouses) danych
związanych z tym ruchem oraz stosować nowoczesne
narzędzia ich analizy.
• Po drugie, ważnym kierunkiem badawczym są algorytmy
strumieniowego lub chmurowego przetwarzania danych
masowych, zwłaszcza przeznaczone do wykrywania
zdarzeń mających związek z bezpieczeństwem ruchu;
prace w tym kierunku należy zintensyfikować.
12

prezentacja

Transcript prezentacja

Directory