Часть 1.

Download Report

Transcript Часть 1.

Методы обработки экспериментальных данных

Кузнецов Алексей Владимирович

Введение

1.1. Введение

Окружающий нас мир насыщен информацией… Ее НЕОБХОДИМО обрабатывать для принятия управленческих решений.

Существует множество мат. пакетов: MatLab, Statistica, Statgraphics… НО ЕСТЬ проблема…. понимание и интерпретация результатов!

НЕОБХОДИМО ЗНАТЬ И ПОНИМАТЬ КАК И ЧТО ПРОИСХОДИТ ВНУТРИ МАТ. ПАКЕТОВ!

Области применения анализа экспериментальных данных

Экономика Менеджмент Медицина Социология Геология Контроль качества Концепция «Шесть сигм» – система управления компанией или ее подразделениями на основе интенсивного использования методов анализа разнообразных данных о деятельности компании

1.2.

Основные этапы анализа данных

1. Планирование и сбор данных 4. Построение моделей и проверка гипотез 2. Предварительное исследование данных 3. Оценка неизвестной величины

1.3. Структуры данных

Одномерные наборы

только один признак, элементарной единицы.

данных (одна переменная) содержат зарегистрированный для каждой

Двумерные наборы данных

содержат информацию о двух признаках для каждого из объектов. В дополнение к обобщению свойств каждой из этих двух переменных, рассматриваемых как отдельные наборы одномерных данных,

Наборы многомерных данных

или более признаках для каждого объекта. В дополнение к обобщению свойств каждой содержат информацию о трех из при анализе набора двумерных данных) этих переменных (рассматриваемых как отдельные наборы одномерных данных) и установлению зависимости между парами переменных (как

1.3. Структуры данных

Количественные данные Дискретные Непрерывные Качественные данные Порядковые Номинальные Временные ряды

1.3. Структуры данных

Источники данных Первичные Планирование и сбор данных Маркетинговые исследования Социологические опросы Проведение экспериментов на производстве Вторичные Поиск в Internet Специальные издания и журналы Покупка готовых данных у специализирующихся компаний

1.4. Что такое переменная

?

Переменная

(английский термин variable) — это то, что можно измерять, контролировать или чем можно манипулировать в исследованиях. Иными словами, переменная — это то, что варьируется, изменяется, а не является постоянным (от английского корня var).

ПРИМЕРЫ:

анкетные масса в (физике) и т. д.

данные, систолическое давление пациентов, количество лейкоцитов в крови, цена акций, товаров, услуг, потребление, инвестиции, доход, государственные закупки товаров и услуг, инструмент государственного регулирования (в экономике); рейтинг программ, доля зрителей, количество посещений сайта (в рекламе); скорость, температура, объем,

1.4. Что такое переменная

?

Так как значения переменных не постоянны, нужно научиться описывать их изменчивость.

Для этого статистики.

придуманы описательные или дескриптивные Минимум и максимум — это минимальное и максимальное значения переменной.

Среднее — сумма значений переменной, деленная на n (число значений переменной).

Дисперсия и стандартное отклонение — наиболее часто используемые меры изменчивости переменной.

Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.

1.4. Что такое переменная

?

Медиана разбивает выборку на две равные части. Половина значений переменной лежит ниже медианы, половина — выше.

Медиана дает общее представление о том, где сосредоточены значения переменной, иными словами, где находится ее центр. В некоторых случаях, например при описании доходов населения, медиана более удобна, чем среднее.

Мода представляет собой максимально часто встречающееся значение переменной (иными словами, наиболее «модное" значение переменной), например популярная передача на телевидении, модный цвет платья или марка автомобиля и т. д.

А так же есть еще множество других статистик: квартили, коэффициент асимметрии, эксцесс, коэффициент корреляции и др.

1.5. Основные законы распределения случайных величин и их назначение

Законы распределения случайных величин служат математическими моделями для реальных объектов и явлений, что позволяет в некоторых случаях применять их для расчетов и анализа ситуации.

1.5. Основные законы распределения случайных величин и их назначение

Нормальное распределение

Нормальное распределение дает хорошую модель для реальных явлений, в которых: особенно часто используется при анализе данных.

1) имеется сильная тенденция данных группироваться вокруг центра; 2) положительные и отрицательные отклонения от центра равновероятны; 3) частота отклонений быстро падает, когда отклонения от центра становятся большими.

f

(

x

)  1 2  

e

 (

x

m

) 2 2  2

1.5. Основные законы распределения случайных величин и их назначение

Равномерное

иными

распределение

словами, значения полезно переменной при описании переменных, у которых каждое значение равновероятно, равномерно распределены в некоторой области.

f

(

x

)     0 , 1   ,

x

x

 [  ,  ] [  ,  ]

1.5. Основные законы распределения случайных величин и их назначение

Экспоненциальное распределение

распределение часто .

Имеют место события, которые на обыденном языке можно назвать редкими. Если используется

T

– время между наступлениями редких событий, происходящих в среднем с интенсивностью экспоненциальное распределение с параметром λ (лямбда). Экспоненциальное для λ, то величина описания интервалов имеет между последовательными заходами на непопулярный сайт, так как эти посещения являются редкими событиями.

случайными событиями, например интервалов между

f

(

x

)  

e

 

x

,

x

 0

1.5. Основные законы распределения случайных величин и их назначение

Распределение Лапласа

, или, ошибок в моделях регрессии.

как его еще называют, двойного экспоненциального, используется, например, для описания распределения

f

(

x

)  1 2 

e

 

x

, (  

x

  )

1.5. Основные законы распределения случайных величин и их назначение

Случайная величина

h

называется

логарифмически нормальной

, логнормальной, если ее натуральный логарифм ( ln

h

) нормальному закону распределения. Логнормальное распределение используется, например, при моделировании таких переменных, как доходы, возраст новобрачных или допустимое отклонение от стандарта вредных веществ в продуктах питания. Итак, если величина подчинен

x

имеет нормальное распределение, то величина распределение.

y=e x

или имеет логнормальное

f

(

x

)  1 2  

x e

 (ln

x

 ln

a

) 2 2  2

1.5. Основные законы распределения случайных величин и их назначение

Распределение

событий. Примерами переменных, распределенных по закону Пуассона, могут

Пуассона

служить: число иногда называют несчастных распределением случаев, число редких дефектов в производственном процессе и т д.

f

(

x

)  

x e

 

x

!

1.6. Краткий обзор современных программных средств для проведения анализа данных.

MATLAB

– это высокопроизводительный язык для технических расчетов. Он включает в себя вычисления, визуализацию и программирование в удобной среде, где задачи и решения выражаются в форме, близкой к математической. Типичное использование MATLAB – это: • математические вычисления • создание алгоритмов • моделирование • анализ данных, исследования и визуализация • научная и инженерная графика • разработка интерфейса приложений, включая создание графического

1.6. Краткий обзор современных программных средств для проведения анализа данных.

Mathcad

– программное средство, среда для выполнения на компьютере разнообразных математических и технических расчетов, снабженная простым в освоении и в работе графическим интерфейсом, которая предоставляет пользователю инструменты для работы с формулами, числами, графиками и текстами.

В среде Mathcad доступны более сотни операторов и логических функций, предназначенных для численного и символьного решения математических задач различной сложности и применения этих функций для анализа данных.

1.6. Краткий обзор современных программных средств для проведения анализа данных.

STATISTICA

предназначенная для статистического анализа и визуализации данных, – это универсальная интегрированная система, управления базами данных и разработки пользовательских приложений, содержащая широкий набор процедур анализа для применения в научных исследованиях, технике, бизнесе, а также специальные методы добычи данных.

С помощью реализованных в системе STATISTICA мощных языков программирования, снабженных специальными средствами поддержки, легко создаются решения и встраиваются в различные другие приложения или вычислительные среды.

законченные пользовательские

1.6. Краткий обзор современных программных средств для проведения анализа данных.

Deductor

Аналитическая платформа Deductor реализует практически все современные подходы к анализу структурированной табличной информации: хранилища данных (Data Warehouse), многомерный анализ (OLAP), добыча данных (Data Mining), обнаружение знаний в базах данных (Knowledge Discovery in Databases). Лучшим способом изучить и понять целесообразность использования современных технологий анализа - это испытать все на практике.

1.6. Краткий обзор современных программных средств для проведения анализа данных.

STATGRAPHICS

данных. Отличительной особенностью пакета является наличие такого инструмента – это универсальный пакет для анализа и визуализации как

StatAdvisor

, который помогает пользователям интерпретировать полученные результаты, обеспечивает возможность объединения в одном окне нескольких текстовых и графических подокон.

StatAdvisor

дает пользователям понятные разъяснения полученных результатов, определяет, являются ли эти результаты существенными, и обращает особое внимание на любые возможные ошибки в анализе.

Пользователи получают немедленную интерпретацию результатов в процедурах, доступных в как основной системе, так и в четырех специальных модулях, поставляемых по выбору: Quality Control (контроль качества), Experimental Design (планирование эксперимента), Time-Series Analysis (анализ временных рядов) и Advanced Multivariate Method (анализ вариаций).

Вопросы ?