Процедуры разведочного анализа данных ящичные диаграммы. Лабораторная «Применение методов первичного разведочного анализа данных в решении задач интеллектуального анализа данных (ИАД) средствами интегрированной системы Statistica. Главные компоненты и фак


Обновлено 29.07.2008

Мои достаточно сумбурные мысли на тему применения статистических методов при обработке протеомных данных.

ПРИМЕНЕНИЕ СТАТИСТИКИ В ПРОТЕОМИКЕ

Обзор методов для анализа экспериментальных данных

Пятницкий М.А.

ГУ НИИ биомедицинской химии им. В.Н. ОреховичаРАМН

119121, Москва, Погодинская ул. д.10,

e -mail : mpyat @ bioinformatics . ru

Протеомные эксперименты требуют тщательной продуманной статистической обработки результатов. Существует несколько важных черт, характеризующих протеомные данные:

  • имеется большое количество переменных
  • сложные взаимосвязи между этими переменными. Подразумевается, что эти взаимосвязи отражают биологические факты
  • число переменных много больше числа образцов. Это очень затрудняет работу многих статистических методов

Впрочем, подобные признаки присущи и многим другим данным, полученных с помощью high-throughput технологий.

Типичными задачами протеомного эксперимента являются:

  • сравнение профилей экспрессии белков между разными группами (например, рак/норма). Обычно задачей является построение решающего правила, позволяющего отделить одну группу от другой. Также представляют интерес переменные, обладающие наибольшей дискриминаторной способностью (биомаркеры).
  • изучение взаимосвязей между белками.

Здесь я сосредоточусь в основном на применении статистики для анализа масс-спектров. Однако многое из сказанного относится и к другим типам экспериментальных данных. Здесь почти не рассматриваются сами методы (за исключением более подробного описания ROC -кривых), а скорее очень кратко обрисован арсенал методов для анализа данных и даются наметки к осмысленному его применению.

Разведочный анализ

Важнейшим шагом при работе с любым массивом данных является разведочный анализ, exploratory data analysis (EDA). На мой взгляд, это едва ли не самый главный момент при статистической обработке данных. Именно на этом этапе нужно получить представление о данных, понять какие методы лучше применять и, что более важно, каких результатов можно ожидать. В противном случае, это будет игра “вслепую” (а давайте попробуем такой-то метод), бессмысленный перебор арсенала статистики, data dredging. Статистика тем и опасна, что всегда выдаст какой-либо результат. Сейчас, когда запуск сложнейшего вычислительного метода требует всего пары щелчков мышью, это особенно актуально.

Согласно Tukey, целями разведочного анализа являются:

  • maximise insight into a data set;
  • uncover underlying structure;
  • extract important variables;
  • detect outliers and anomalies;
  • test underlying assumptions;
  • develop parsimonious models; and
  • determine optimal factor settings.

На этом этапе разумно получить как можно больше информации о данных, используя в первую очередь графические средства. Постройте гистограммы для каждой переменной. Как это не банально, взгляните на описательную статистику. Полезно посмотреть на графики рассеяния (при этом рисуя точки различными символами, индицирующими принадлежность к классам). Интереснопосмотретьнарезультаты PCA (principal component analysis) и MDS(multidimensional scaling). Итак, EDA - это в первую очередь широкое применение графической визуализации.

Перспективно применение методов projection pursuit для поиска наиболее “интересной” проекции данных. Обычно, возможна некоторая степень автоматизации этой работы (GGobi ). Произволом является выбор индекса для поиска интересных проекций.

Нормировка

Обычно, данные не являются нормально распределенными, что не удобно для статистических процедур. Часто встречается лог-нормальное распределение. Простым логарифмированием можно сделать распределение куда более приятным. Вообще не стоит недооценивать такие простые методы как логарифмирование и другие преобразования данных. На практике не раз встречаются случаи, когда после логарифмирования начинают получаться осмысленные результаты, хотя до предобработки результаты были малосодержательными (здесь пример про масс-спектрометрию вин).

Вообще, выбор нормировки - это отдельная задача, которой посвящены многие работы. Выбор метода предобработки и шкалирования может существенным образом повлиять на результаты анализа (Berg et al, 2006). На мой взгляд, лучше всегда по умолчанию проводить простейшую нормировку (например , если распределение симметрично или логарифмирование в другом случае), чем вообще не пользоваться этими методами.

Приведем несколько примеров графической визуализации и применения простых методов статистики для разведочного анализа данных.

Примеры

Ниже приведены примеры графиков, которые, возможно, имеет смысл строить для каждой переменной. Слева показаны оценки плотности распределения для каждого из двух классов (красный - рак, синий - контроль). Обратите внимание, что под графиками представлены и сами значения, по которым строится оценка плотности. Справа приведена ROC -кривая, и показана площадь под ней. Тем самым сразу можно видеть потенциал каждой переменной как дискриминаторной между классами. Ведь именно дискриминация между классами обычно является конечной целью статистического анализа протеомных данных.

На следующем рисунке показана иллюстрация нормировки: типичное распределение интенсивности пика на масс-спектре (слева) при логарифмировании дает распределение близкое к нормальному (справа).

Далее покажем применение heatmap для разведочного анализа данных. По столбцам - пациенты, по строкам - гены. Цвет показывает численное значение. Видно четкое разделение на несколько групп. Это отличный пример применения EDA , который сразу дает наглядную картину о данных.

На следующей картине показан пример gel -view графика. Это стандартный прием для визуализации большого набора спектров. Каждая строка - образец, каждый столбец - пик. Цветом закодирована интенсивность значения (чем ярче тем лучше). Такие картинки можно получить, например, в ClinProTools . Но там имеется большой недостаток - строки(образцы) идут в том порядке, в котором они были загружены. Гораздо правильнее переставлять строки(образцы) таким образом, что близкие образцы располагаются рядом и на графике. Фактически это heatmap без сортировки столбцов и дендрограмм по бокам.

На следующей картинке приведен пример применения многомерного шкалирования. Кружки - контроль, треугольники - рак. Видно, что рак имеет существенно большую дисперсию и построение решающего правила вполне возможно. Такой любопытный результат достигается всего для двух первых координат! Глядя на такую картинку, можно преисполнится оптимизмом относительнорезультатов дальнейшей обработки данных.

Проблема пропущенных значений

Следующей проблемой, с которой сталкивается исследователь, является проблема пропущенных значений. Опять-таки, этой теме посвящено множество книг, в каждой из которых описаны десятки способов решения этой задачи. Пропущенные значения часто встречаются в данных, которые получают путемhigh -throughput экспериментов. Многие же статистические методы требуют полных данных.

Приведу основные способы решения проблемы пропущенных значений:

. убрать строки/столбцы с пропущенными значениями. Оправдано, если пропущенных значений относительно немного, иначе придется убирать все

. генерировать новые данные взамен пропущенных (заменять на среднее, получать из оцененного распределения)

. использовать методы нечувствительные к пропущенным данным

. поставить эксперимент еще раз!

Проблема выбросов

Выброс - это образец с резко отличающимися показателями от основной группы. Опять,эта теме глубоко и обширно разработана в соответствующей литературе.

В чем опасность наличия выбросов? В первую очередь, это может существенным образом повлиять на работу неробастных (не устойчивых к выбросам) статистических процедур. Наличие даже одного выброса в данных может существенно изменить оценки среднего и дисперсии.

Выбросы трудно заметны в многомерных данных, поскольку могут проявляться только в значениях одной-двух переменных (напомню, что в типичном случае протеомный эксперимент описывается сотнями переменных). Здесь и пригодится анализ каждой переменной в отдельности - при просмотре описательных статистик или гистограмм (вроде тех, которые были приведены выше) такой выброс легко обнаружить.

Возможны две стратегии для поиска выбросов:

1) вручную - анализ графиков рассеяния, PCA ,и другие методы разведочного анализа. Попробуйте построить дендрограмму - на ней выброс будет виден в виде отдельной ветки, которая рано отходит от корня.

2) 2) разработано множество критериев для обнаружения (Yang , Mardia , Schjwager ,…)

Средства борьбы с выбросами

. удаление выбросов

. применять устойчивые к выбросам(робастные) статистические методы

При этом нужно держать в голове, что возможно выброс - это не ошибка эксперимента, а некий существенно новый биологический факт. Хотя такое, конечно, случается крайне редко, но все же…

На следующем рисунке показаны возможные типы выбросов по типу их влияния на статистики.

Проиллюстрируем, как влияют выбросы на поведение коэффициентов корреляции.

Нас интересует случай (f ) . Видно, как наличие всего 3 выбросов дает значение коэффициента корреляции Пирсона равным 0.68, в то время как коэффициенты Спирмена и Кендалла дают гораздо более разумные оценки (корреляции нет). Правильно, коэффициент корреляции Пирсона - неробастная статистика.

Покажем применение метода PCA для визуального обнаружения выбросов.

Конечно, всегда полагаться на такие “кустарные” методы обнаружения не стоит. Лучше обратиться к литературе.

Классификация и снижение размерности

Обычно, основной целью анализа протеомных данных является построение решающего правила для отделения одной группы образцов от другой (например, рак/норма). После проведения разведочного анализа и нормировки обычно следующим шагом является уменьшение размерности пространства признаков (dimensionality reduction ).

Отбор переменных

Большое число переменных (а это стандартная ситуация в протеомных экспериментах):

. усложняет анализ данных

. обычно не все переменные имеют биологическую интерпретацию

. часто целью работы является отбор “интересных” переменных (биомаркеры)

. ухудшает работу алгоритмов классификации. Из-за этого - переобучение (overfitting ).

Поэтому стандартным шагом является применение dimensionality reduction перед классификацией

Методы dime nsionality reduction можно разделить на 2 типа:

1) Filter

Задачами этой группы методов является либо удаление уже существующих “малоинтересных” переменных, либо создание новых переменных как линейных комбинаций старых. Сюда относятся

PCA , MDS ,

методы теории информации и т.д.

Другой идеей является направленный отбор “интересных переменных”: например, бимодальные переменные всегда интересны для просмотра (в идеале каждый пик соответствует своему классу для бинарной классификации). Впрочем, это можно отнести к разведочному анализу.

Еще одним подходом является исключение сильно скоррелированных между собой переменных. При таком подходе переменные группируются используя коэффициенты корреляции в качестве меры расстояния. Можно использовать не только корреляцию Пирсона, но и другие коэффициенты. Из каждого кластера скорреллированных переменных оставляется только одна (например, по критерию наибольшей площади под ROC -кривой).

На рисунке приведен примервизуализации такого кластерного анализа пиков с помощью heatmap . Матрица симметрична, цвет показывает значения коэффициента корреляции Пирсона (синий - высокие значения корреляции, красный - низкие значения). Четко выделяется несколько кластеров сильно зависимых между собой переменных.



2) Wrapper

Здесь используются алгоритмы классификации в качестве меры качества набора отобранных переменных. Оптимальным решением является полный перебор всех сочетаний переменных, поскольку при сложных взаимосвязях между переменными

вполне возможны ситуации, когда две переменные по отдельности не являющиеся дискриминаторными при добавлении третьей становятся таковыми. Очевидно, что полный перебор вычислительно не возможен при сколько-нибудь значительном числе переменных.

Попыткой преодолеть это “проклятие размерности” является применение генетических алгоритмов для поиска оптимального набора переменных. Другой стратегией является включение/исключение переменных по одной с одновременным контролем значения Akaike Information Criteria или Bayes Information Criteria .

Для этой группы методов обязательно применение кросс-валидации. Подробнее об этом написано в разделе о сравнении классификаторов.

Классификация

Задача - построить решающее правило, которое позволит относить вновь обработанный образец в тот или иной класс.

Обучение без учителя - кластерный анализ. Это поиск наилучших (в некотором смысле) группировок объектов. К сожалению, обычно нужно задавать число кластеров a priori, либо выбирать порог отсечения (для иерархической кластеризации). Это всегда вносит неприятный произвол.

Обучение с учителем : нейронные сети, SVM, decision trees, …

Требуется большая выборка с заранее отклассифицированными объектами.

Обычно работает лучше, чем обучение без учителя.Кросс-валидация - при отсутствии тестовой выборки. Возникает проблема переобучения (overfitting)

Важным и простым тестом, который редко проводят, является запуск обученного классификатора на случайных данных. Сгенерируйте матрицу с размером равным размеру исходной выборки, заполните случайным шумом или нормальным распределением, проведите все методики, включая нормализацию, отбор переменных и обучение. В случае, если получаются разумные результаты (т.е. вы научились распознавать случайный шум) - будет меньше оснований верить и в построенный классификатор.

Есть и более простой способ - просто измените случайным образом метки классов для каждого объекта, не трогая при этом остальные переменные. Тем самым опять получится бессмысленный набор данных, на котором стоит прогнать классификатор.

Мне кажется, что доверять построенному классификатору можно лишь в том случае, если был выполнен хотя бы один из приведенных тестов на распознавание случайных данных.

ROC - кривая

Receiver-Operating Characteristic curve

. Используется для представления результатов классификации на 2 класса при условии, что известен ответ, т.е. известно правильное разбиение.

. Предполагается, что у классификатора имеется параметр(точка отсечения), варьируя который получается то или иное разбиение на два класса.

При этом определяется доля ложно положительных (FP ) и ложноотрицательных результатов (FN ). Рассчитывается чувствительность и специфичность, строиться график в координатах (1-специфичность, чувствительность). При варьировании параметра классификатора получаются различные значения FP и FN , и точка перемещается по ROC -кривой.

. Точность = (TP +TN ) / (TP +FP +FN +TN )

. Чувствительность = TP / TP+FN

. Специфичность = TN / TN+FP

Что является “положительным” событием - зависит от условий задачи. Если прогнозируется вероятность наличия заболевания, то положительный исход - класс “больной пациент”, отрицательный исход - класс “здоровый пациент”

Самое наглядное объяснение (с отличными java -апплетами иллюстрирующими суть идеи ROC ) я видел на http://www.anaesthetist.com/mnm/stats/roc/Findex.htm

ROC-curve:

. Удобно использовать для анализа сравнительной эффективности двух классификаторов.

. Чем ближе кривая к левому верхнему углу, тем выше предсказательная способность модели.

. Диагональная линия соответствует “бесполезному классификатору”, т.е. полной неразличимости классов

. Визуальное сравнение не всегда позволяет точно оценить какой классификатор предпочтительнее.

. AUC - Area Under Curve -численная оценка, позволяющая сравнивать кривые ROC .

. Значения от 0 до 1.

Сравнение двух ROC- кривых

Площадь под кривой (AUC ) как мера для сравнения классификаторов.

Другие примеры ROC -кривых приведены в разделе посвященном разведочному анализу.

Сравнительный анализ классификаторов

Существует множество вариантов в применении методов распознавания образов. Важной задачей является сравнение между собой различных подходов и выбор наилучшего.

Наиболее распространенный сегодня способ сравнения классификаторов в статьях по протеомике (и не только) - это кросс-валидация. На мой взгляд, смысла в однократном применении процедуры кросс-валидации немного. Более разумный подход состоит в запуске кросс-валидации несколько раз (в идеале чем больше - тем лучше) и построении доверительных интервалов для оценки точности классификации. Наличие доверительных интервалов позволяет обоснованно решать является ли, например, улучшение качества классификации на 0.5% статистически значимым или нет. К сожалению, только в малом числе работ встречаются доверительные интервалы для точности, чувствительности и специфичности. Цифры же приводимые в других работах по этой причине трудно сравнивать между собой, поскольку не указан размах возможных значений.

Другим вопросом является выбор типа кросс-валидации. Мне больше нравится 10-fold или 5-fold кросс-валидация вместо leave -one -out .

Конечно, использование кросс-валидации это “акт отчаяния”. В идеале, выборка должна быть разбита на 3 части: на первой части строится модель, на второй части оптимизируются параметры этой модели, на третьей части производится проверка. Кросс-валидация - это попытка избежать этих построений, и оправдана лишь при малом числе образцов.

Из многочисленных запусков процедуры кросс-валидации можно почерпнуть и другую полезную информацию. Например, интересно посмотреть на каких объектах процедура распознавания ошибается чаще. Возможно, это ошибки в данных, выбросы или другие интересные случаи. Изучив на характерные свойства этих объектов иногда можно понять, в каком направлении стоит улучшать вашу процедуру классификации.

Ниже приведена таблица сравнения классификаторов для работы Moshkovskii et al , 2007. В качестве классификаторов использовались SVM и логистическая регрессия (LR ). Методамиотборапризнаковявлялись RFE (Re сursive Feature Elimination) и Top Scoring Pairs(TSP). Использование доверительных интервалов позволяет обоснованно судить о значимых преимуществах различных схем классификаций.

Литература

Здесь приведены некоторые книги и статьи, которые могут оказаться полезными при анализе протеомных данных.

C. Bishop, Neural Networks for Pattern Recognition

* Berrar, Dubitzky, Granzow. Practical approach to microarray data analysis (Kluwer, 2003). Книга посвящена обработке microarray (хотя я бы не стал рекомендовать ее для знакомства с предметом), но есть и пара интересных глав. Иллюстрация с влиянием выбросов на коэффициенты корреляции взята оттуда.

Литература, обозначенная знаками * есть в электронном виде, и автор делится ею безДвозДмездно (т.е. даром)

В книге, написанной в 1977 г. известным американским специалистом по математической статистике, изложены основы разведочного анализа данных, т.е. первичной обработки результатов наблюдений, осуществляемой посредством простейших средств - карандаша, бумаги и логарифмической линейки. На многочисленных примерах автор показывает, как представление наблюдений в наглядной форме с помощью схем, таблиц и графиков облегчает выявление закономерностей и подбор способов более глубокой статистической обработки. Изложение сопровождается многочисленными упражнениями с привлечением богатого материала из практики. Живой, образный язык облегчает понимание излагаемого материала.

Джон Тьюки. Анализ результатов наблюдений. Разведочный анализ. – М.: Мир, 1981. – 696 с.

Скачать конспект (краткое содержание) в формате или , примеры в формате

На момент публикации заметки книгу можно найти только в букинистических магазинах.

Автор подразделяет статистический анализ на два этапа: разведочный и подтверждающий. Первый этап включает преобразование данных наблюдений и способы их наглядного представления, позволяющие выявить внутренние закономерности, проявляющиеся в данных. На втором этапе применяются традиционные статистические методы оценки параметров и проверки гипотез. Настоящая книга посвящена разведочному анализу данных (о подтверждающем анализе см. ). Для чтения книги не требуется предварительных знаний по теории вероятностей и математической статистике.

Прим. Багузина. Учитывая год написания книги, автор сосредотачивается на наглядном представлении данных с помощью карандаша, линейки и бумаги (иногда миллиметровой). На мой взгляд, сегодня наглядное представление данных связано с ПК. Поэтому я попытался совместить оригинальные идеи автора и обработку в Excel. Мои комментарии набраны с отступом.

Глава 1. КАК ЗАПИСЫВАТЬ ЧИСЛА («СТЕБЕЛЬ С ЛИСТЬЯМИ»)

График имеет наибольшую ценность тогда, когда он вынуждает нас заметить то, что мы совсем не ожидали увидеть. Представление чисел в виде стебля и листьев позволяет выявить закономерности. Например, приняв основанием стебля десятки, число 35 можно отнести к стеблю 3. Лист будет равен 5. Для числа 108 стебель – 10, лист – 8.

В качестве примера я взял 100 случайных чисел, распределенных по нормальному закону со средним 10 и стандартным отклонением 3. Чтобы получить такие числа я воспользовался формулой =НОРМ.ОБР(СЛЧИС();10;3) (рис. 1). Откройте приложенный файл Excel. Нажимая F9, вы будете генерировать новый ряд случайных чисел.

Рис. 1. 100 случайных чисел

Видно, что числа в основном распределены в диапазоне от 5 до 16. Однако заметить какую-либо интересную закономерность сложно. График «стебель и листья» (рис. 2) выявляет нормальное распределение. В качестве ствола были взяты пары соседних чисел, например, 4-5. Листья отражают число значений в этом диапазоне. В нашем примере таких значений 3.

Рис. 2. График «стебель и листья»

В Excel есть две возможности, позволяющие быстро изучить частотные закономерности: функция ЧАСТОТА (рис. 3; подробнее см. ) и сводные таблицы (рис. 4; подробнее см. , раздел Группировка числовых полей ).

Рис. 3. Анализ с помощью функции массива ЧАСТОТА

Рис. 4. Анализ с помощью сводных таблиц

Представление в виде стебля с листьями (частотное представление) позволяет выявить следующие особенности данных:

  • разделение на группы;
  • несимметричное спадание к концам - один «хвост» длиннее другого;
  • неожиданно «популярные» и «непопулярные» значения;
  • относительно какого значения «центрированы» наблюдения;
  • как велик разброс данных.

Глава 2. ПРОСТЫЕ СВОДКИ ДАННЫХ – ЧИСЛОВЫЕ И ГРАФИЧЕСКИЕ

Представление чисел в виде стебля с листьями позволяет воспринять общую картину выборки. Перед нами стоит задача научиться выражать в сжатом виде наиболее часто встречающиеся общие особенности выборок. Для этого используются сводки данных. Однако, несмотря на то, что сводки могут быть очень полезными, но они не дают всех подробностей выборки. Если этих подробностей не так много, чтобы в них запутаться, лучше всего иметь перед глазами полные данные, размещенные отчетливо удобным для нас способом. Для больших массивов данных сводки необходимы. Мы не предполагаем и не ожидаем, что они заменят полные данные. Разумеется, нередко бывает, что добавление подробностей мало что дает, но важно осознать, что иногда подробности дают многое.

Если для характеристики выборки как целого нам нужно выбрать несколько чисел, которые легко найти, то нам наверняка понадобятся:

  • крайние значения - наибольшее и наименьшее, которые мы пометим символом «1» (в соответствии с их рангом или глубиной);
  • какое-то срединное значение.

Медиана = срединное значение.

Для ряда, представленного в виде стебля с листьями, срединное значение легко найти подсчетом вглубь от любого из концов, приписывая крайнему значению ранг «1». Таким образом, каждое значение в выборке получает свой ранг . Счет можно начинать с любого конца. Наименьший из двух получаемых таким образом рангов, которые можно приписать одному и тому же значению, мы назовем глубиной (рис. 5). Глубина крайнего значения всегда 1.

Рис. 5. Определение глубины на основе двух направлений ранжирования

глубина (или ранг) медианы = (1 + число значений)/2

Если мы хотим добавить еще два числа, чтобы образовать 5-числовую сводку, то естественно определять их подсчетом до половины расстояния от каждого из концов к медиане. Процесс нахождения медианы, а затем и этих новых значений можно представить себе, как складывание листа бумаги. Поэтому эти новые значения естественно назвать сгибами (сейчас чаще используется термин квартиль ).

В свернутом виде ряд из 13 значений может выглядеть, например, так:

Пять чисел для характеристики ряда в порядке возрастания будут: –3,2; 0,1; 1,5; 3,0; 9,8 - по одному в каждой точке перегиба ряда. Пять чисел (крайние значения, сгибы, медиана), из которых состоит 5-числовая сводка, мы будем изображать в виде следующей простой схемы:

где слева мы показали количество чисел (отмечено знаком #), глубину медианы (буквой М), глубину сгибов (буквой С) и глубину крайних значений (всегда 1, больше ничем отмечать не надо).

На рис. 8 показано, как изобразить 5-числовую сводку графически. Такого типа график называется «ящик с усами».

Рис. 8. Схематическая диаграмма или ящик с усами

К сожалению, Excel стандартно строит биржевые диаграммы, основанные только на трех или четырех значениях (рис. 9; как обойти это ограничение см. ). Для построения 5-числовой сводки можно воспользоваться статистическим пакетом R (рис. 10; подробнее см. Базовые графические возможности R: диаграммы размахов ; если вы не знакомы с пакетом R, можно начать с ). Функция boxplot() в R помимо 5 чисел отражает также выбросы (о них чуть позже).

Рис. 9. Возможные типы биржевых диаграмм в Excel

Рис. 10. Ящичная диаграмма в R; для построения такого графика достаточно выполнить команду boxplot(count ~ spray, data = InsectSprays), будут загружены данные, хранящиеся в программе, и построен представленный график

При построении диаграммы «ящик с усами» мы будем придерживаться следующей простой схемы:

  • «С-ширина» = разность между значениями двух сгибов;
  • «шаг» - величина, в полтора раза большая, чем С-ширина;
  • «внутренние барьеры» находятся снаружи сгибов на расстоянии одного шага;
  • «наружные барьеры» - снаружи на один шаг дальше внутренних;
  • значения между внутренним и соседним наружным барьерами будут «внешними»;
  • значения за наружными барьерами будем называть «отскакивающими» (или выбросы);
  • «размах» = разность между крайними значениями.

Рис. 19. Вычисление скользящей медианы: (а) подробно для части данных; (б) для всей выборки

Рис. 20. Сглаженная кривая

Глава 10. ИСПОЛЬЗОВАНИЕ ДВУХФАКТОРНОГО АНАЛИЗА

Наступило время рассмотреть двухфакторный анализ - как вследствие его важности, так и потому, что он является введением в разнообразные методы исследования. В основе двухфакторной таблицы (таблицы «откликов») лежат:

  • один вид откликов;
  • два фактора - и каждый из них проявляется в каждом наблюдении.

Двухфакторная таблица остатков. Анализ «строка-плюс-столбец». На рис. 21 приведены среднемесячные значения температуры для трех мест в Аризоне.

Рис. 21. Среднемесячные температуры в трех городах Аризоны, °F

Определим медиану по каждому месту, и вычтем ее из отдельных значений (рис. 22).

Рис. 22. Значения аппроксимации (медианы) для каждого города и остатки

Теперь определим аппроксимацию (медиану) по каждой строке, и вычтем ее из значений строки (рис. 23).

Рис. 23. Значения аппроксимации (медианы) для каждого месяца и остатки

Для рис. 23 мы вводим понятие «эффект». Число –24,7 представляет собой эффект столбца, а число 19,1 - эффект строки. Эффект показывает, как проявляется фактор или множество факторов в каждой из наблюденных величин. Если проявляющаяся часть фактора больше, чем то, что остается, то легче разглядеть и понять, что происходит с данными. Число, которое было вычтено из всех без исключения данных (здесь 70,8), называем «общее». Оно есть проявление всех факторов, общих для всех данных. Таким образом, для величин на рис. 23 справедлива формула:

Это и есть схема конкретного анализа «строка-ПЛЮС-столбец». Мы возвращаемся к нашей старой уловке - попытаться найти простое частичное описание - частичное описание, которое легче воспринимается - частичное описание, вычитание которого даст нам возможность глубже взглянуть на то, что еще не было описано.

Что нового мы сможем узнать благодаря полному двухфакторному анализу? Самый большой остаток, равный 1,9, мал по сравнению с величиной изменения эффекта от пункта к пункту и от месяца к месяцу. Во Флагстаффе приблизительно на 25°F прохладнее, чем в Финиксе, в то время как в Юме на 5–6°F теплее, чем в Финиксе. Последовательность эффектов месяцев монотонно убывает от месяца к месяцу, сначала медленно, затем быстро, затем снова медленно. Это похоже на симметрию относительно октября (такую закономерность я ранее наблюдал на примере продолжительности дня; см. . – Прим. Багузина ); Мы сняли обе завесы - эффект сезона и эффект места. После этого мы смогли увидеть довольно многое из того, что ранее оставалось незамеченным.

На рис. 24 приведена двухфакторная диаграмма . Хотя основное на этом рисунке - это аппроксимация, мы не должны пренебрегать остатками. В четырех точках мы нарисовали короткие вертикальные черточки. Длины этих черточек равны величинам соответствующих остатков, так что координаты вторых концов представляют не значения аппроксимации, а

Данные = аппроксимация ПЛЮС остаток.

Рис. 24. Двухфакторная диаграмма

Заметим также, что свойство этой или любой другой двухфакторной диаграммы - «шкала лишь в одном направлении», задающими вертикальный размер, т.е. пунктирными горизонтальными линиями, проведенными по бокам картинки, и отсутствием какого-либо размера в горизонтальном направлении.

О возможностях Excel см. . Любопытно, что некоторые формулы, использованные в этой заметке, носят имя Тьюки

Дальнейшее изложение, на мой взгляд, стало совсем сложным…

), и др. Более того, появление быстрых современных компьютеров и свободного программного обеспечения (вроде R) сделало все эти требующие вычислительных ресурсов методы доступными практически для каждого исследователя. Однако такая доступность еще больше обостряет хорошо известную проблему всех статистических методов, которую на английском языке часто описывают как "rubbish in, rubbish out ", т.е. "мусор на входе - мусор на выходе". Речь здесь идет о следующем: чудес не бывает, и если мы не будем уделять должного внимания тому, как тот или иной метод работает и какие требования предъявляет к анализируемым данным, то получаемые с его помощью результаты нельзя будет воспринимать всерьез. Поэтому каждый раз исследователю следует начинать свою работу с тщательного ознакомления со свойствами полученных данных и проверки необходимых условий применимости соответствующих статистических методов. Этот начальный этап анализа называют разведочным (Exploratory Data Analysis ).

В литературе по статистике можно найти немало рекомендаций по выполнению разведочного анализа данных (РДА). Два года назад в журнале Methods in Ecology and Evolution была опубликована отличная статья, в которой эти рекомендации сведены в единый протокол по выполнению РДА: Zuur A. F., Ieno E. N., Elphick C. S. (2010) A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution 1(1): 3-14 . Несмотря на то, что статья написана для биологов (в частности, для экологов), изложенные в ней принципы, безусловно, верны и в отношении других научных дисциплин. В этом и последующих сообщениях блога я приведу выдержки из работы Zuur et al. (2010) и опишу предложенный авторами РДА-протокол. Подобно тому, как это сделано в оригинальной статье, описание отдельных шагов протокола будет сопровождаться краткими рекомендациями по использованию соответствующих функций и пакетов системы R.

Предлагаемый протокол включает следующие основные элементы:

  1. Формулировка исследовательской гипотезы. Выполнение экспериментов/наблюдений для сбора данных.
  2. Разведочный анализ данных:
    • Выявление точек-выборосов
    • Проверка однородности дисперсий
    • Проверка нормальности распределения данных
    • Выявление избыточного количества нулевых значений
    • Выявление коллинеарных переменных
    • Выявление характера связи между анализируемыми переменными
    • Выявление взаимодействий между переменными-предикторами
    • Выявление пространственно-временных корреляций среди значений зависимой переменной
  3. Применение соответствующего ситуации статистического метода (модели).

Zuur et al. (2010) отмечают, что РДА наиболее эффективен при использовании разнообразных графических средств, поскольку графики часто позволяют лучше понять структуру и свойства анализируемых данных, чем формальные статистические тесты.

Рассмотрение приведенного РДА-протокола начнем с выявления точек-выбросов . Чувствительность разных статистических методов к наличию выбросов в данных неодинакова. Так, при использовании обобщенной линейной модели для анализа зависимой переменной, распределенной по закону Пуассона (например, количество случаев какого-либо заболевания в разных городах), наличие выбросов может вызвать избыточную дисперсию, что сделает модель неприменимой. В то же время при использовании непараметрического многомерного шкалирования , основанного на индексе Жаккара , все исходные данные переводятся в номинальную шкалу с двумя значениями (1/0), и наличие выбросов никак не сказывается на результат анализа. Исследователь должен четко понимать эти различия между разными методами и при необходимости выполнять проверку на наличие выборосов в данных. Дадим рабочее определение: под "выбросом" мы будем понимать наблюдение, которое "слишком" велико или "слишком" мало по сравнению с большинством других имеющихся наблюдений.

Обычно для выявления выбросов используют диаграммы размахов . В R при построении диаграмм размахов используются устойчивые (робастные) оценки центральной тенденции (медиана) и разброса (интерквартильный размах, ИКР). Верхний "ус" простирается от верхней границы "ящика" до наибольшего выборочного значения, находящегося в пределах расстояния 1.5 х ИКР от этой границы. Аналогично, нижний "ус" простирается от нижней границы "ящика" до наименьшего выборочного значения, находящегося в пределах расстояния 1.5 х ИКР от этой границы. Наблюдения, находящиеся за пределами "усов", рассматриваются как потенциальные выбросы (Рисунок 1).

Рисунок 1. Строение диаграммы размахов.

Примеры функций из R, служащих для построения диаграмм размахов:
  • Базовая функция boxplot() (подробнее см. ).
  • Пакет ggplot2 : геометрический объект ("geom ") boxplot . Например:
    p <- ggplot (mtcars, aes(factor(cyl), mpg)) p + geom_boxplot() # или: qplot (factor(cyl), mpg, data = mtcars, geom = "boxplot" )
Другим очень полезным, но, к сожалению, недостаточно используемым графическим средством выявления выборосов является точечная диаграмма Кливленда . На таком графике по оси ординат откладывают порядковые номера отдельных наблюдений, а по оси абсцисс - значения этих наблюдений. Наблюдения, "значительно" выделяющиеся из основного облака точек, потенциально могут быть выбросами (Рисунок 2).

Рисунок 2. Точечная диаграмма Кливленда, изображающая данные о длине крыла у 1295 воробьев (Zuur et al. 2010) . В этом примере данные предварительно были упорядочены в соответствии с весом птиц, и поэтому облако точек имеет примерно S-образную форму.


На Рисунке 2 хорошо выделяется точка, соответствующая длине крыла 68 мм. Однако это значение длины крыла не следует рассматривать в качестве выброса, поскольку оно лишь незначительно отличается от других значений длины. Эта точка выделяется на общем фоне лишь потому, что исходные значения длины крыла были упорядочены по весу птиц. Соответственно, выброс скорее стоит искать среди значений веса (т.е. очень высокое значение длины крыла (68 мм) было отмечено у необычно мало весящего для этого воробья).

До этого момента мы называли "выбросом" наблюдение, которое "значительно" отличается от большинства других наблюдений в исследуемой совокупности. Однако более строгий подход к определению выбросов состоит в оценке того, какое влияние эти необычные наблюдения оказывают на результаты анализа. При этом следует делать различие между необычными наблюдениями для зависимых и независимых переменных (предикторов). Например, при изучении зависимости численности какого-либо биологического вида от температуры большинство значений температуры может лежать в пределах от 15 до 20 °С, и лишь одно значение может оказаться равным 25 °С. Такой план эксперимента, мягко говоря, неидеален, поскольку диапазон температур от 20 до 25 °С будет исследован неравномерно. Однако при проведении реальных полевых исследований возможность выполнить измерения для высокой температуры может представиться только однажды. Что же тогда делать с этим необычным измерением, выполненным при 25 °С? При большом объеме наблюдений подобные редкие наблюдения можно исключить из анализа. Однако при относительно небольшом объеме данных еще большее его уменьшение может быть нежелательным с точки зрения статистической значимости получаемых результатов. Если удаление необычных значений предиктора по тем или иным причинам не представляется возможным, помочь может определенное преобразование этого предиктора (например, логарифмирование).

С необычными значениями зависимой переменной "бороться" сложнее, особенно при построении регрессионных моделей. Преобразование путем, например, логарифмирования, может помочь, но поскольку зависимая переменная представляет особый интерес при построении регрессионных моделей, лучше попытаться подобрать метод анализа, который основан на распределении вероятностей , допускающем больший разброс значений для больших средних величин (например, гамма-распределение для непрерывных переменных или распределение Пуассона для дискретных количественных переменных). Такой подход позволит работать с исходными значениями зависимой переменной.

В конечном счете решение об удалении необычных значений из анализа принимает сам исследователь. При этом он должен помнить о том, что причины для возникновения таких наблюдений могут быть разными. Так, удаление выбросов, возникших из-за неудачного планирования эксперимента (см. выше пример с температурой), может быть вполне оправданным. Оправданным будет также удаление выбросов, явно возникших из-за ошибок при выполнении измерений. В то же время необычные наблюдения среди значений зависимой переменной могут потребовать более тонкого подхода, особенно если они отражают естественную вариабельность этой переменной. В этой связи важно вести подробное документирование условий, при которых происходит экспериментальная часть исследования - это может помочь интерпретировать "выбросы" в ходе анализа данных. Независимо от причин возникновения необычных наблюдений, в итоговом научном отчете (например, в статье) важно сообщить читателю как о самом факте выявления таких наблюдений, так и о принятых в их отношении мерах.

Разведочный анализ данных (РАД; Exploratory data analysis) употребляется, когда, с одной стороны, у исследователя имеется таблица многомерных данных, а с другой стороны, априорная информация о физическом (причинном) механизме генерации этих данных отсутствует или неполна. В этой ситуации РАД может оказать помощь в компактном и понятном исследователю описании структуры данных (например, в форме визуального представления этой структуры), отталкиваясь от которого он уже может «прицельно» поставить вопрос о более детальном исследовании данных с помощью того или иного раздела статистического анализа, обоснования полученной структуры данных с помощью аппарата проверки статистических гипотез, а также, возможно, сделать некоторые заключения и о причинной модели данных. Этот этап называется «подтверждающим анализом данных» (confirmatory data analysis). Иногда выявление структуры данных с помощью РАД может оказаться и завершающим этапом анализа. С другой стороны, ряд методов РАД можно рассматривать и как методы подготовки данных для последующей статистической обработки без какого-либо изучения структуры данных, которое предполагается осуществить на последующих этапах.

В этом случае этап РАД играет роль некоторого этапа перекодировки и преобразования данных (путем, например, сокращения размерности) в удобную для последующего анализа форму. В любом случае, с какой бы целью ни применялись методы РАД, основная задача - переход к компактному описанию данных при возможно более полном сохранении существенных аспектов информации, содержащихся в исходных данных. Важно также, чтобы описание было понятным для пользователя. Впервые термин «разведочный анализ данных» был введен Дж. Тьюки в 1962 г.

Модели структуры многомерных данных. Пусть данные заданы в виде матрицы данных. Объекты можно представить в виде точек в многомерном (р-мерном) пространстве. Для описания структуры этого множества точек в РАД используется одна из следующих статистических моделей:

а) модель облака точек примерно эллипсоидальной конфигурации;

б) кластерная модель, т. е. совокупность нескольких «облаков» точек, достаточно далеко отстоящих друг от друга;

в) модель «засорения» (компактное облако точек и при этом присутствуют далекие выбросы);

г) модель носителя точек как многообразия (линейного или нелинейного) более низкой размерности, чем исходное; типичным примером является выборка из вырожденного распределения;

д) дискриминантная модель, когда точки разделены некоторым образом на несколько групп и дана информация о их принадлежности к той или иной группе.

В рамках модели можно рассматривать и регрессионную модель, когда соответствующее многообразие допускает функциональное представление , где - две группы переменных из исходного набора (переменные из носят тогда название прогнозируемых переменных, а из - предсказывающих переменных); - ошибка предсказания.

Разумеется, реальные данные обычно лишь приближенно могут следовать этим моделям, более того, структура данных может не подходить ни под одну из указанных в описании моделей даже приближенно.

Модели описания структуры зависимостей. В пространстве переменных для описания структуры зависимостей между переменными часто используются следующие модели: модель независимых переменных, модель линейно зависимых переменных, древообразная модель зависимости, факторная модель для линейно зависимых переменных, кластерная модель (произвольные коэффициенты связи), иерархическая модель зависимости.

Основные методические приемы при проведении разведочного анализа данных. Способы анализа и интерпретации результатов в значительной степени зависят от выбранного метода обработки. Однако можно выделить ряд эффективных приемов и подходов к анализу результатов, которые являются наиболее общими и в значительной степени определяют специфику собственно разведочного анализа, отличают его от остальных этапов статистической обработки. Это визуализация данных и манипуляции с данными на основе графического отображения; использование аппарата активных и иллюстративных переменных; преобразование данных, облегчающее выявление структур, анализ остатков.


  1. 1. Лекция 2. Разведочный анализ данных Лектор: проф. Авдеенко Татьяна Владимировна, Новосибирский государственный технический университет, Факультет бизнеса, Кафедра экономической информатики
  2. 2. Разведочный анализ данных - Предварительный анализ данных с целью выявления наиболее общих закономерностей и тенденций, характера и свойств анализируемых данных, законов распределения анализируемых величин. Применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы.
  3. 3. Разведочный анализ данных Термин «разведочный анализ» был впервые введен математиком из Принстонского университета Дж. Тьюки. Он также сформулировал основные цели данного анализа: - Максимальное «проникновение» в данные. - Выявление основных структур. - Выбор наиболее важных переменных. - Обнаружение отклонений и аномалий. - Проверка основных гипотез (предположений). - Разработка начальных моделей. .
  4. 4. Разведочный анализ данных Результаты разведочного анализа не используются для выработки управленческих решений. Их назначение - помощь в разработке наилучшей стратегии углубленного анализа, выдвижение гипотез, уточнение особенностей применения тех или иных математических методов и моделей. Без разведочного анализа углубленный анализ данных будет производиться практически «вслепую».
  5. 5. Разведочный анализ данных К основным методам разведочного анализа относится процедура анализа распределений переменных, просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения, факторный анализ, дискриминантный анализ, многомерное шкалирование, визуальный анализ гистограмм и т.д.
  6. 6. Разведочный анализ данных Предварительное исследование данных может служить лишь первым этапом в процессе их анализа, и пока результаты не подтверждены на других выборках или на независимом множестве данных, их следует воспринимать самое большее как гипотезу. Если результаты разведочного анализа говорят в пользу некоторой модели, то ее правильность можно затем проверить, применив ее к новым данных.
  7. 7. Простейшие описательные статистики (Descriptive Statistics) Среднее Дисперсия Процентиль Эксцесс Квантиль Размах Медиана Квартиль Мода Асимметрия Интерквартильный диапазон
  8. 8. Центральные меры распределения: среднее, медиана и мода Один из способов подытожить данные - вычислить одно значение, характеризующее весь набор данных. Это значение часто называется типичным или наиболее представительным. Медиана. Представляет середину распределения, т.е. одна половина данного набора данных имеет меньшие значения, а другая - большие значения. Для определения медианы сначала необходимо выполнить сортировку (ранжирование) данных. Полученная последовательность называется вариационным рядом, а ее элементы – порядковыми статистиками. Каждому наблюдению присваивается ранг (номер). Точный подсчет медианы зависит от количества наблюдений в наборе данных. При нечетном количестве значений медианой является промежуточное значение, а при четном - полусумма двух центральных значений.
  9. 9. Центральные меры распределения: среднее Среднее значение: Выборочное среднее обладает одним замечательным свойством: сумма квадратов расстояний является минимальной Другие статистические свойства выборочного среднего – несмещенность, состоятельность, эффективность. ∑ = = N i ix n x 1 1 ∑ = − N i ixx 1 2)(
  10. 10. Центральные меры распределения: медиана или среднее Одним из недостатков среднего значения является то, что оно существенно зависит от экстремальных значений. Рассмотрим распределение заработной платы профессиональных бейс­болистов. Большинство бейсболистов зарабатывают в год менее миллиона долларов, но есть бейсболисты с зарплатой более 10 млн. и один бейс­болист с зарплатой более 20 млн. долларов. Как определить "типичную" зарплату? Медианой данного распределения является зарплата 900 тыс. долларов, а средним значением - 2,5 млн. долларов. Похоже, что медиана в большей степени представляет "типичную" зарплату, В официальной статистике США именно медиана используется в качестве оценки центральной точки доходов населения. Если распределение несимметрично, имеются выбросы,
  11. 11. Центральные меры распределения: медиана или среднее Для снижения влияния экстремальных значений можно использовать усеченное среднее (trimmed mean), т.е. среднее для набора данных, из которого исключены несколько процентов значений с обоих концов распределения. Например, 5%­ное усеченное среднее равно среднему значению для 90% значений из набора данных, за исключением 5% с каждого конца распределения. Усеченное среднее представляет собой компромиссный вариант итоговой характеристики по сравнению с медианой и средним.
  12. 12. Центральные меры распределения Среднее геометрическое (geometric mean) Среднее геометрическое чаще всего используется для наборов данных, которые находятся в диапазоне от 0 до 1. Например, результаты фармацевтических опытов часто записываются в виде относительных долей химических компонентов, поэтому для них удобно использовать среднее геометрическое. Среднее гармоническое (harmonic mean) Эту характеристику удобно применять для вычисления средних значений скоростей. Допустим, требуется определить среднюю скорость автомобиля, который движется из пункта А в пункт В со скоростью S, а в обратном направлении - со скоростью Т. В этом случае средняя скорость автомобиля будет равна среднему гармоническому для величин S и Т. n n i ix∏ =1 ∑ = = n i ixnН 1 111
  13. 13. Центральные меры распределения Еще одной итоговой характеристикой распределения является мода (mode, Пирсон 1894 г.), т.е. наиболее часто встречающееся (модное) значение распределения. Мода часто используется при работе с качественными данными или дискретными количественными данными, которые имеют сравнительно немного разных значений. Ее не следует использовать для непрерывных количественных данных, поскольку в таком случае в подобных распределениях очень мало или практически нет повторяющихся значений. Классический пример использования моды – выбор размера выпускаемой партии обуви или цвета обоев.
  14. 14. Центральные меры распределения Если распределение имеет несколько мод, то оно называется мультимодальным. Мультимодальность дает важную информацию о природе исследуемой переменной. Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-либо, то мультимодальность может означать, что существует несколько определенных мнений. Мультимодальность может служить индикатором того, что выборка не является однородной и наблюдения, возможно, порождены двумя или более "наложенными" распределениями.
  15. 15. Меры изменчивости Среднее и медиана не полностью характеризуют распределение, так как не учитывают изменчивость данных. Изменчивость (variability) характеризует различия между данными или, что то же самое, разброс от центра. Простейшей мерой изменчивости является диапазон (range), т.е. разница между максимальным и минимальным значениями распределения. Однако диапазон значений не совсем точно характеризует изменчивость распределения и может ввести в заблуждение.
  16. 16. Меры изменчивости Дисперсия (variance) (Фишер, 1918 г.) Стандартное отклонение (standard deviation) ∑ = − − = n i i xx n s 1 22)(1 1 2 1 1 () 1 n i i s x x n = = − − ∑
  17. 17. Меры изменчивости Выборочная дисперсия повторной и бесповторной выборки является несмещенной и состоятельной оценкой генеральной дисперсии, т.е. и Выборочная дисперсия не является эффективной оценкой, зато является асимптотически эффективной (т.е. при эффективность стремится к 1). 2 s 2 σ 2 s 2 σ 22)(σ=sM 2 2 P n s σ →∞ → ∞→n
  18. 18. Меры формы: асимметрия и эксцесс Асимметрия, или скос (skewness), является мерой несимметричности распределения (Пирсон 1895 г.): Положительная асимметрия означает, что значения распределения скучены в области малых значений и распределение имеет длинный хвост в области больших значений. И наоборот: отрицательная асимметрия означает, что значения распределения скучены в области высоких значений и распределение имеет длинный хвост в области малых значений. Равное нулю значение асимметрии соответствует симметричному распределению. 2 3 1 2 1 3)(1)(1         − − = ∑ ∑ = = n i i n i i xx n xx n A
  19. 19. Меры формы: асимметрия и эксцесс Эксцесс (kurtosis) (Пирсон 1905 г.) характеризует относительную остроконечность или сглаженность распределения по сравнению с нормальным распределением. Положительный эксцесс обозначает относительно остроконечное распределение, а отрицательный – относительно сглаженное распределение. Как с помощью асимметрии и эксцесса проверить нормальность распределения? Для нормального распределения A=E=0. 3)(1)(1 2 1 2 1 4 −         − − = ∑ ∑ = = n i i n i i xx n xx n E
  20. 20. Персентили (процентили) и квартили Квантиль (Кендалл 1940 г.) Одним из итоговых ориентиров является р-я персентиль (percentile), т.е. такое значение заданного распределения, которое больше р процентов всех значений распределения. Персентили обычно используются при анализе роста новорожденных, если, например, ребенка относят к 75-й или 90-й персентили, значит, он весит больше, чем 75% или 90% всех новорожденных детей. ()pF x p=
  21. 21. Персентили (процентили) и квартили Довольно близкими по смыслу к персентилям являются квартили (Гальтон 1982) (quartiles) – значения, соответствующие 25, 50 и 75-й персентилям, т.е. четвертям распределения. Обычно их называют первой, второй и третьей квартилями. В статистике часто используют интерквартильный диапазон (interquartile range), который обозначает разницу между первой и третьей квартилями (другое название – квартильный размах). Поскольку в этом диапазоне располагается 50% всех данных, его размер дает представление о ширине распределения.
  22. 22. Ящик с усами Диаграмма типа “ящик с усами” (boxplot) изображает важные характеристик описательной статистики на одном компактном рисунке. Он предложен Джоном Тьюки (John Tukey) в 1977 г. в. Диаграмма типа “ящик с усами” отображает следующие характеристики описательной статистики: Первая квартиль, медиана, третья квартиль и интерквартильный диапазон. Минимальное и максимальное значения. Умеренные и экстремальные выбросы. Диаграмма типа “ящик с усами” дает хорошее визуальное представление изменчивости данных, а также асимметрии распределения.
  23. 23. Ящик с усами После отображения интерквартильного диапазона можно приступать к вычислению внутреннего и внешнего ограждений. Внутренние ограждения (inner fences) располагаются в области больше третьей квартили + 1,5×IQR или меньше первой квартили – 1,5×IQR. Внешние ограждения (outer fences) располагаются в области больше третьей квартили + 3×IQR или меньше первой квартили – 3×IQR. 3-я квартиль 1-я квартиль внутреннее = 1-я квартиль - 1.5xIQR внешнее = 1-я квартиль - 3xIQR внутреннее = 3-я квартиль + 1.5xIQR внешнее = 3-я квартиль + 3xIQR медиана IQR
  24. 24. Ящик с усами Все значения, которые лежат в промежутке между внутренним и внешним ограждениями, называются умеренными выбросами (moderate outlier) и обозначаются символами . Все значения, которые лежат за пределами внешних ограждений, называются экстремальными выбросами (extreme outlier) и обозначаются символами  . 3-я квартиль 1-я квартиль внутреннее внешнее внутреннее внешнее медиана
  25. 25. Box&WhiskerPlot:Зарплата Median 25%-75% Min-Max Ж М Пол 18000 20000 22000 24000 26000 28000 30000 32000 34000 36000 38000 40000 42000 44000 46000 Зарплата
  26. 26. Анализ таблиц Таблицы частот Таблицы сопряженности Таблицы заголовков Многомерные отклики Дихотомии
  27. 27. Таблицы сопряженности Кросстабуляция - это процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка (клетка) в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Таким образом, кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно определить связи между табулированными переменными. Обычно табулируются категориальные переменные или переменные с относительно небольшим числом значений.
  28. 28. Таблицы сопряженности Газ. вода: А Газ. вода: В Пол: женщины 20 (40 %) 30 (60 %) 50 (50 %) Пол: мужчины 30 (60 %) 20 (40 %) 50 (50%) 50 (50 %) 50 (50 %) 100 100 %)
  29. 29. Таблицы сопряженности Маргинальные частоты. Значения, расположенные по краям таблицы сопряженности - это обычные таблицы частот (с одним входом) для рассматриваемых переменных. Так как эти частоты располагаются на краях таблицы, то они называются маргинальными. Маргинальные значения важны, т.к. позволяют оценить распределение частот в отдельных столбцах и строках таблицы. Например, 40% и 60% мужчин и женщин (соответственно), выбравших марку A, не могли бы показать какой-либо связи между переменными Пол и Газ.вода, если бы маргинальные частоты переменной Пол были также 40% и 60%. В этом случае они просто отражали бы разную долю мужчин и женщин, участвующих в опросе.
  30. 30. Таблицы сопряженности Summary Frequency Table (Опрос) Marked cells have counts > 10 (Marginal summaries are not marked) Var1 Var2 Матем Var2 Биз_Экон Var2 Мед_Здрав Var2 Социол Row Totals ПК 29 49 8 28 114 Мэйнфрейм 22 12 3 13 50 Мини-компьютер 2 1 0 1 4 Mac 12 4 0 6 22 All Grps 65 66 11 48 190
  31. 31. Таблицы сопряженности Проверка гипотезы H0: распределение разных видов компьютеров одинаково внутри каждой кафедры (переменные независимы). H1: распределение разных видов компьютеров зависит от кафедры (переменные зависимы)
  32. 32. Таблицы сопряженности В 1900 году Карл Пирсон предложил для проверки гипотезы тест (тест хи-квадрат Пирсона): , ожидаемые частоты, маргинальные частоты Если то гипотеза о независимости переменных отвергается (переменные зависимы). ∑∑ = = − = r i s j ij ijijn 1 1 2 2)(ν ν χ n nn ji ij .. =ν 2 2 ,(1)(1)r sαχ χ − −> ∑ = = s j iji nn 1 . 1 . r j ij i n n = = ∑