Сделай Сам Свою Работу на 5

Обнаружение аномальных наблюдений





Практика обработки экспериментальных данных показывает, что они наряду с основной однородной массой типичных измерений, представляющих выборку из некоторой генеральной совокупности, как правило, содержат аномальные (неправдоподобные, резко выделяющиеся, «дикие») наблюдения. Аномальные наблюдения в выборке появляются из-за грубых ошибок при регистрации измерений, случайных импульсных помех, сбоев оборудования, измерения в ошибочных единицах и т.д. Если данные резко выделяются на фоне обычных наблюдений, то они могут быть исключены из выборки на предварительном этапе анализа измерений с учетом физической сущности измеряемой величины. Например, легко обнаруживаются наблюдения, которые содержат ошибку в порядке величин. Менее грубые данные, находящиеся вблизи зоны сомнения (рис. 1.6), распознаются сложнее и требуют применения специальных статистических процедур по обнаружению аномальных наблюдений. После обнаружения аномальных наблюдений нельзя считать анализ завершенным и правдивым, если не дано объяснение полученным результатам.

Автоматическое удаление аномальных наблюдений без установления причин их возникновения оправдано лишь тогда, когда исследуемая модель хорошо «обкатана» и доказала право на существование в качестве приближения долгим применением в целевых исследованиях.



Рассмотрим наиболее теоретически обоснованный критерий, предназначенный для обнаружения аномальных наблюдений в одномерных данных. Статистики, применяемые в этих критериях, хорошо изучены и для них имеются таблицы процентных точек.

Слайд 14

Одномерные данные. Обнаружение аномальных наблюдений в одномерных выборках является актуальной задачей при вычислении параметров сдвига, масштаба и при выявлении по остаткам плохо влияющих данных в задаче регрессионного анализа.

Пусть наблюдения x1, …, xn являются реализациями независимых случайных величин, подчиняющихся одинаковому нормальному N(m,s2) распределению. Основная гипотеза H0 состоит в том, что Mxi = m, Dxi = s2, i = 1, …, n. Альтернативная гипотеза H1 заключается в том, что одна или несколько величин имеют среднее m + d. Это означает, что часть наблюдений описывается тем же нормальным распределением, но со сдвинутым на d средним значением, возможно, сопровождаемому изменениями дисперсии. Если величина сдвига положительна, то говорят о максимальном аномальном наблюдении (гипотеза H1+) и о минимальном аномальном наблюдении при отрицательном сдвиге (гипотеза H1).



Одно аномальное наблюдение. Пусть априори неизвестен ни факт наличия аномальных наблюдений, ни место их нахождения. В этом случае для обнаружения аномального наблюдения удобно использовать методы порядковых статистик. Построим вариационный ряд x(1) ≤ … ≤ x(n). Проверим нуль-гипотезу против альтернативной H1+ для случая одного максимального аномального наблюдения

.

При построении критерия возможны варианты, зависящие от степени информации о m и s. Рассмотрим только случай, когда значения m и s неизвестны. В этом случае критериальная статистика вычисляется по формуле

,

где , .

Распределение величины Dn получены К. Пирсоном1 и Н. В. Смирновым2 (1941). Критические значения Dn, рассчитанные Н. В. Смирновым и Ф. Граббсом (1950), приведены в соответствующих таблицах.

 

Слайд 15

Теперь можно сделать общие выводы об удалении аномальных наблюдений.

1. Любой способ действий с существенно выделяющимися данными, кроме случая, когда он совершенно неприемлем, предотвращает наихудший случай. Особенно чувствительны к таким данным оценки, основанные на МНК. Этим оценкам должны предшествовать проверки на наличие аномальных данных с объективными правилами удаления, а также последующий тщательный анализ остатков. Для данных с неправдоподобными наблюдениями вместо МНК необходимы робастные процедуры оценивания.

2. Существенно выделяющиеся данные требуется обнаруживать, преобразовывать и удалять, а также необходимо их интерпретировать, привлекая знания, не относящиеся к статистической природе.

3. Процедуры удаления резко выделяющихся и подозрительно больших наблюдений с последующим оцениванием близки к робастным оценкам. Однако они проигрывают в сравнении с другими методами робастного оценивания.

Слайд 16

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.