Презентация №3

Download Report

Transcript Презентация №3

Базы
данных
Лекция №03
Технология добычи данных
(Data Mining)
1. Введение
Сегодня на рынке представлено множество
инструментов, которые делают Data
Mining прибыльным делом.
Поиск ценной информации в большой базе
данных (data) и добычи горной руды
(mining)
Data Mining - мультидисциплинарная
область (прикладная статистика,
распознавание образов, искусственный
интеллект, теория баз данных и др.)
2
1. Введение
3
1. Введение
Сравнение статистики, машинного обучения и
Data Mining:
• Статистика
– Более, чем Data Mining, базируется на теории
– Более сосредотачивается на проверке гипотез
• Машинное обучение
– Более эвристично
– Концентрируется на улучшении работы агентов
обучения
• Data Mining
– Интеграция теории и эвристик
– Сконцентрирована на едином процессе анализа
данных (очистка данных, обучение, интеграция,
визуализация)
4
1. Введение
Цель Data Mining - это поиск в больших объемах
данных закономерностей:
– Неочевидных
– Объективных
– Полезных на практике
Специфика требований к переработке данных:
– Неограниченность объема
– Разнородность
– Результаты должны быть конкретны и понятны
– Инструменты должны быть просты в
использовании
5
1. Введение
OLAP
Каковы средние показатели
травматизма для курящих и
некурящих?
Каковы средние размеры
телефонных счетов,
существующих клиентов в
сравнении со счетами бывших
клиентов, отказавшихся от
услуг телефонной компании?
Какова средняя величина
ежедневных покупок по
украденной и не украденной
кредитной карточке?
Data Mining
Встречаются ли точные
шаблоны в описаниях людей,
подверженных повышенному
травматизму?
Имеются ли характерные
портреты клиентов, которые,
по всей вероятности,
собираются отказаться от
услуг телефонной компании?
Существуют ли стереотипные
схемы покупок для случаев
мошенничества с кредитными
карточками?
6
1. Введение
7
1. Введение
В основу технологии Data Mining
положена концепция шаблонов
Положение Data Mining —
нетривиальность разыскиваемых
шаблонов
Сырые данные содержат глубинный пласт
знаний
8
2. ИТ-технологии анализа данных
Business Intelligence (BI) – программные
средства, функционирующие в рамках
предприятия:
– Средства построения хранилищ данных (DW)
– Системы оперативной аналитической
обработки (OLAP)
– Информационно-аналитические системы
(EIS)
– Средства интеллектуального анализа
данных (Data Mining)
– Инструменты для выполнения запросов и
9
построения отчетов
2. ИТ-технологии анализа данных
Первичная обработка источников информации
• Структурированные источники:
• Неструктурированные источники:
10
2. ИТ-технологии анализа данных
• Первичная обработка источников информации
• Идентификация информационных объектов
• Извлечение знаний
– Контекстный анализ
– Ситуативный анализ
– Поиск цепочек связей
– Нечёткий поиск
– Полнотекстовый поиск
• Мониторинг фактографической информации
– Автоматизированное ведение досье
– Мониторинг ситуации
11
3. Технология добычи данных
Задачи, решаемые Data Mining:
– Классификация
– Регрессия, прогнозирование
– Кластеризация
– Ассоциация
– Последовательные шаблоны
– Анализ отклонений
12
4. Классы систем Data Mining
Классы Data Mining:
– Предметно-ориентированные аналитические
системы
– Статистические пакеты
– Нейронные сети
– Системы рассуждений на основе аналогичных
случаев
– Деревья решений
– Эволюционное программирование
– Генетические алгоритмы
– Алгоритмы ограниченного перебора
– Системы для визуализации многомерных данных
13
4. Классы систем Data Mining
Нейронные сети
14
4. Классы систем Data Mining
Деревья решений
15
4. Классы систем Data Mining
Визуализация многомерных данных
16
5. Перспективы систем Data Min
Возможные направления развития:
– Выделение типов предметных областей
– Создание формальных языков и логических
средств
– Формирование теорий
– Преодоление отставания инструментальных
средств от теоретических достижений
Области успешного применения Data Mining:
–
–
–
–
Решения, основанные на знаниях
Изменяющаяся окружающая среда
Доступные, достаточные и значимые данные
Высокие дивиденды от правильных решений
17