Сделай Сам Свою Работу на 5

Простые числовые и графические сводки данных





Необходимость применения процедур разбиения выборки на однородные слои и удаление аномальных наблюдений не вызывает сомнений. Эффективность процедур резко возрастает, если имеется априорная информация о наличии неоднородности и аномальных наблюдений. Для получения этой информации можно воспользоваться графическими методами анализа. Такие методы рассматривались многими авторами, например, при исследовании случайных процессов для оценки стационарности В.С. Пугачев предложил визуальный графический анализ реализаций, построенных в сжатом масштабе времени, но наиболее значительные результаты достигнуты Дж. Тьюки.

Обычно рассматриваются две графические процедуры, предложенные Тьюки, называемые «стебель с листьями» и «ящик с усами». Эти процедуры включены во многие статистические пакеты и являются весьма полезными при визуальном анализе выборок с целью выявления неоднородности выборки, аномальных наблюдений и их формы распределения.

«Стебель с листьями»

Пусть дана выборка чисел из некоторой генеральной совокупности. Нужно записать эти числа в таком виде, чтобы по нему можно было бы получить о них более цельное представление. Такое представление можно получить, если использовать процедуру «стебель с листьями» (Stem-and-Leaf). Главная идея этой формы представления чисел заключается в максимальной компактности записи чисел. Процедура позволяет определить симметрично ли располагаются данные, однородна ли выборка и имеются существенно выделяющиеся наблюдения. Изучим эту процедуру на примере цен подержанных автомобилей «Шевроле».



Пример 4. Даны цены на 17 подержанных автомобилей в долларах США. Представим эти цены в виде вариационного ряда: 150 250 688 695 795 795 895 895 895 1099 1166 1333 1499 1693 1699 1775 1895. Для построения «стебля с листьями» выберем масштаб измерений. Если выберем 100 долларов и, отбросим две последние цифры, то получим лишь полные сотни долларов: 1 2 6 6 7 7 8 8 8 10 11 13 14 16 16 17 18, а дробные части сотен отбрасываются. Тогда 250 $ будем записывать как 2 и изображать на «стебле с листьями» как 0| 2. Если выберем масштаб 10 долларов и отбросим последнюю цифру, то получим: 15 25 68 69 79 79 89 89 89 109 116 133 149 169 169 177 189 и 250 $ запишутся как 25 и изобразятся как 2|5. Полученные варианты «стебля с листьями» изображены на рис. 3. ¡



а б в ‑ Пятиразрядный вариант

#       #       #    
    0*
    T
    F
    S
√17        
          1*
          T
          F
          S
         
          √17  
             
        √17        

Рис. 3. Три вида записи «стебля с листьями» цен на 17 автомобилей «Шевроле»: а – единица = 100 $; б – единица = 10 $; в – единица = 100$

Каждая строка содержит два числа. Второе число, состоящее из двух частей, –стебель. Первая часть второго числа является начальной частью (основанием) стебля, а вторая часть – листья, которые по очереди приставляются к основанию. Каждый лист – это одна цифра. Первое число строки определяет частоту встречаемости числа с данным основанием. Например, первая строка рис. 3 а) означает, что числа с основанием 0 имеют частоту 2, то есть появляются два числа: 1 и 2 при масштабе 1:100. При этом в случае а для каждой начальной части двух стеблей, то есть двух строк – одной для листьев 0, 1, 3, 4 и другой – для листьев 5, 6, 7, 8, 9, начальные части повторяются, причем звездочкой отмечаются лишь части с цифрами меньше 5, в остальных вместо звездочки будем ставить точку. В случае масштаба 10$ для каждой начальной части используется всего один стебель



Иногда бывает полезно взять пять стеблей для одной начальной части, пометив стебли следующим образом: * – «нуль» и «один», T – «два» и «три», F– «четыре» и «пять», S – «шесть» и «семь», точка – «восемь» и «девять». Такое представление чисел дано на рис. 3 в), в котором, например, цены трех автомобилей по 8 сотен долларов изображается как ◦|888.

Все три формы представления стеблей пригодны для практических целей, какая из них лучше зависит от объема выборки и типа распределения данных. В примере с подержанными автомобилями одинаково пригодны схемы а) и в).

«Ящик с усами»

Быстрый разведочный анализ данных о структуре распределения, о наличии «диких измерений», об однородности наблюдений можно осуществить и с помощью процедуры «ящик с усами». По наблюдаемой выборке данных строим вариационный ряд и определяем медиану, нижнюю, верхнюю квартили и межквартильный размах. Нижняя квартиль – это медиана вариационного ряда от первого наблюдения до медианы всего ряда включительно, верхняя квартиль – это медиана ряда от медианы всего ряда до максимального значения включительно. Расстояние от нижней квартили до верхней равно межквартильному размаху. Обозначим нижнюю квартиль C1, а верхнюю – C2.

Найдем другие особые точки наших наблюдений, по которым можно определить неправдоподобно большие значения. Для этого вычислим следующие величины:

1. Межквартильный размах .

2. Шаг .

3. Внутренние барьеры

4. Наружные барьеры

Если значения ряда выходят за границы наружных барьеров, то они называются неправдоподобными или отскакивающими данными. Значения между внутренними и наружными барьерами называются внешними. Значение, находящееся внутри ближе других к внутреннему барьеру, называется «примыкающим».

Результаты расчетов удобно представить в виде диаграммы, которая называется диаграммой «ящик с усами». Для построения этой диаграммы рисуем прямоугольник («ящик»), левый узкий торец ящика соответствует нижней квартили, а правый торец – верхней квартили. Внутри ящика проводим поперечную линию параллельно торцам, положение этой черты соответствует медиане. Затем рисуем прямые линии («усы») от каждого торца до крайних значений, которые равны минимальному и максимальному значениям, если они находятся внутри внутренних барьеров.

Примыкающие, внешние и отскакивающие значения будем изображать отдельными точками. В результате построения диаграммы имеем ясную картину числовой сводки: медиану, нижние и верхние квартили, минимальные и максимальные значения, определяемые внешними барьерами, а также примыкающие, внешние и отскакивающие данные. Рассмотрим несколько примеров построения диаграммы «ящик с усами».

Пример 5. Построим «ящик с усами» для цен подержанных автомобилей, рассмотренных в примере 4. Исходными данными для построения диаграммы являются медиана – М = 895, нижняя квартиль – C1= 795, верхняя квартиль – C2= 1499 и межквартильный размах – DC = 1499 – 795 = 704, которые для наглядного представления изображены в виде таблицы:

М9      
С5  
   

Вычисляем пять особых точек для построения диаграммы «ящик с усами» (рис.4 а). Так как внутренние барьеры не выходят за пределы минимального и максимального значений ряда, то внешние барьеры можно не вычислять. В результате получим пятиточечную таблицу (рис. 4 б), которой соответствует диаграмма «ящик с усами», изображенная на рис. 5.

∆C*=1,5·704=1056   ∆C*      
δ1=795-1056=–261   δ –261    
δ2=1499+1056=2555     нет   нет внешние
Б1=795–2·1056=–1317   Б –1317    
Б2=1499+2·1056=3611     нет   нет отскакив.
а       б    

Рис. 4. Особые точки для построения диаграммы «ящик с усами»

Из диаграммы видно, что данные не содержат неправдоподобных измерений. Так как левый ус ящика длиннее правого и медиана внутри ящика смещена к левому торцу, то распределение имеет небольшой отрицательный коэффициентом асимметрии. ¡

Рис. 5. Цены на подержанные автомобили «Шевроле»


[1] Распределение впервые предложено в 1908 г. У. С. Госсетом (Gosset) (13.6.1876 – 16.10.1937) (псевдоним Student – Стьюдент) и затем более строго обосновано Фишером.

1 Пирсон (Pearson) Карл (27.3.1857 – 27.4.1936) – английский математик, биолог, философ.

2 Смирнов Николай Васильевич (17.10.1900 – 2.6.1966) – советский математик, один из создателей непараметрических методов статистики.

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.