|
Обнаружение аномальных наблюдений
Практика обработки экспериментальных данных показывает, что они наряду с основной однородной массой типичных измерений, представляющих выборку из некоторой генеральной совокупности, как правило, содержат аномальные (неправдоподобные, резко выделяющиеся, «дикие») наблюдения. Аномальные наблюдения в выборке появляются из-за грубых ошибок при регистрации измерений, случайных импульсных помех, сбоев оборудования, измерения в ошибочных единицах и т.д. Если данные резко выделяются на фоне обычных наблюдений, то они могут быть исключены из выборки на предварительном этапе анализа измерений с учетом физической сущности измеряемой величины. Например, легко обнаруживаются наблюдения, которые содержат ошибку в порядке величин. Менее грубые данные, находящиеся вблизи зоны сомнения (рис. 1.6), распознаются сложнее и требуют применения специальных статистических процедур по обнаружению аномальных наблюдений. После обнаружения аномальных наблюдений нельзя считать анализ завершенным и правдивым, если не дано объяснение полученным результатам.
Автоматическое удаление аномальных наблюдений без установления причин их возникновения оправдано лишь тогда, когда исследуемая модель хорошо «обкатана» и доказала право на существование в качестве приближения долгим применением в целевых исследованиях.
Рассмотрим наиболее теоретически обоснованный критерий, предназначенный для обнаружения аномальных наблюдений в одномерных данных. Статистики, применяемые в этих критериях, хорошо изучены и для них имеются таблицы процентных точек.
Слайд 14
Одномерные данные. Обнаружение аномальных наблюдений в одномерных выборках является актуальной задачей при вычислении параметров сдвига, масштаба и при выявлении по остаткам плохо влияющих данных в задаче регрессионного анализа.
Пусть наблюдения x1, …, xn являются реализациями независимых случайных величин, подчиняющихся одинаковому нормальному N(m,s2) распределению. Основная гипотеза H0 состоит в том, что Mxi = m, Dxi = s2, i = 1, …, n. Альтернативная гипотеза H1 заключается в том, что одна или несколько величин имеют среднее m + d. Это означает, что часть наблюдений описывается тем же нормальным распределением, но со сдвинутым на d средним значением, возможно, сопровождаемому изменениями дисперсии. Если величина сдвига положительна, то говорят о максимальном аномальном наблюдении (гипотеза H1+) и о минимальном аномальном наблюдении при отрицательном сдвиге (гипотеза H1–).
Одно аномальное наблюдение. Пусть априори неизвестен ни факт наличия аномальных наблюдений, ни место их нахождения. В этом случае для обнаружения аномального наблюдения удобно использовать методы порядковых статистик. Построим вариационный ряд x(1) ≤ … ≤ x(n). Проверим нуль-гипотезу против альтернативной H1+ для случая одного максимального аномального наблюдения
.
При построении критерия возможны варианты, зависящие от степени информации о m и s. Рассмотрим только случай, когда значения m и s неизвестны. В этом случае критериальная статистика вычисляется по формуле
,
где , .
Распределение величины Dn получены К. Пирсоном1 и Н. В. Смирновым2 (1941). Критические значения Dn, рассчитанные Н. В. Смирновым и Ф. Граббсом (1950), приведены в соответствующих таблицах.
Слайд 15
Теперь можно сделать общие выводы об удалении аномальных наблюдений.
1. Любой способ действий с существенно выделяющимися данными, кроме случая, когда он совершенно неприемлем, предотвращает наихудший случай. Особенно чувствительны к таким данным оценки, основанные на МНК. Этим оценкам должны предшествовать проверки на наличие аномальных данных с объективными правилами удаления, а также последующий тщательный анализ остатков. Для данных с неправдоподобными наблюдениями вместо МНК необходимы робастные процедуры оценивания.
2. Существенно выделяющиеся данные требуется обнаруживать, преобразовывать и удалять, а также необходимо их интерпретировать, привлекая знания, не относящиеся к статистической природе.
3. Процедуры удаления резко выделяющихся и подозрительно больших наблюдений с последующим оцениванием близки к робастным оценкам. Однако они проигрывают в сравнении с другими методами робастного оценивания.
Слайд 16
Не нашли, что искали? Воспользуйтесь поиском по сайту:
©2015 - 2025 stydopedia.ru Все материалы защищены законодательством РФ.
|