Hadoop & Wikimart Роман Зыков Moscow, BI trends, 11

Download Report

Transcript Hadoop & Wikimart Роман Зыков Moscow, BI trends, 11

Hadoop & Wikimart
Роман Зыков
http://wikimart.ru
Moscow, BI trends, 11th October 2012
Введение
Быть или не быть….
Hadoop
Задачи Wikimart
Что
• BI задачи
• Веб аналитика (внутреннее решение)
• Рекомендации на сайте
• Сервисы для маркетинга
Кто
• Аналитический отдел
• Аналитики других отделов
• IT
Проблема
Ждать или платить?
• Объем данных
• # сервисов
Map Reduce
Standalone
DATA
Map Reduce
Наша идея
Новая платформа только для “больших”
задач
• Исследовать Map Reduce ПО
• Первый пациент – алгоритмы рекомендаций
Сложности
- нет бюджета
- нет экспертов
- нет железа
->
->
->
Hadoop бесплатен
изучили
виртуальный кластер
Требования
•
•
•
•
•
Масштабируемость
Инсталляция
Интеграция
Без Java
SQL запросы
Схема данных
DWH
Сервисы данных
Результаты
Рекомендации
• Коллаборативная фильтрация (веб данные, PIG)
• Товары аналоги (атрибуты товаров, PIG)
• Популярные товары (веб данные, HiveQL)
• Поисковые рекомендации (HiveQL)
1 год эксплуатации
• >10% доходов
• 3 месяца на запуск
• Десятки гигабайт обрабатываются за 2 часа
• 1 авария из-за полного отключения питания
Решение: Вложить деньги в железо
Конечный пользователь
Внутренние ЯП
• HiveQL
• Pig
BI задачи
• Агрегация данных для OLAP
• RDBMS как витрина
• OLAP и BI должны поддерживать HiveQL
Интеграция данных
• SQOOP
• Параллельный обмен с RDBMS
(MS SQL, MySQL, Oracle, Teradata… )
• Инкрементальное обновление
• HDFS, Hive, HBASE
• Talend Open Studio
Hadoop и RDBMS
• Не заменят RDBMS:
• Задержка
• Слабые возможности HiveQL отн. SQL
• Задачи по оффлайн вычислениям:
• Машинное обучение
• Запросы к «большим» таблицам
• ….
• Онлайн запросы: NOSQL
Миф
Терабайты?
Петабайты?
Big tasks!
Выводы
• Hadoop это не квантовая физика
• Вычислительные данные могут быть большими
Starter kit
• Система управления Hadoop
• Виртуальное железо (облако и т.д.)
• Оффлайн вычисления
• Pig или HiveQL
• Sqoop: импорт/экспорт данных из БД
Спасибо!!!