Сделай Сам Свою Работу на 5

Анализ одномерных случайных данных





Часть 1. СТАТИСТИЧЕСКИЙ АНАЛИЗ СЛУЧАЙНЫХ ВЕЛИЧИН

Сформировать исходные данные Исходным материалом для статистического исследования служит: совокупность из n наблюдений, которая может быть извлечена из еще большей совокупности, называемой генеральной.
Общее число наблюдений N = 2000
Выбрать из генеральной совокупности выборку Основой любых выводов о вероятностных свойствах генеральной совокупности X, т.е. статистических выводов, является выборочный метод, суть которого заключается в том, что свойства случайной величины X устанавливаются путем изучения тех же свойств на случайной выборке и генеральной совокупности.
n = 100
Назначить для выборки анализируемый признак Исследуемый признак Х
Записать выборку (по назначенному признаку) в (произвольной последовательности) последовательности значений Каждое значение исследуемой величины хi (n = 1 … n) Значения хi называются вариантами
Пример. Имеется выборка значений механической скорости бурения vм коронкой И4ДП-59 в трещиноватых и абразивных породах X — XI категорий по буримости:
0,67 0,70 0,75 0,72 0,71 0,80 0,78 0,77 0,71 0,74
0,78 0,68 0,85 0,74 0,77 0,71 0,77 0,72 0,84 0,76
0,74 0,76 0,80 0,75 0,74 0,74 0,81 0,79 0,75 0,71
0,69 0,76 0,79 0,73 0,78 0,73 0,75 0,76 0,77 0,75
0,70 0,82 0,85 0,80 0,72 0,77 0,79 0,83 0,77 0,75
0,82 0,71 0,85 0,78 0,75 0,75 0,73 0,72 0,73 0,75
0,76 0,74 0,76 0,76 0,78 0,84 0,75 0,74 0,73 0,82
0,69 0,81 0,81 0,76 0,78 0,72 0,71 0,83 0,73 0,77

 



Построить вариационный ряд Последовательность, записанная в возрастающем порядке — вариационным рядом Вариационным рядом для этой выборки служит последовательность значений механической скорости бурения, м/час:
0,67 0,73 0,76 0,78
0,68 0,73 0,76 0,79
0,69 0,73 0,76 0,79
0,69 0,74 0,76 0,79
0,70 0,74 0,76 0,80
0,70 0,74 0,76 0,80
0,71 0,74 0,76 0,80
0,71 0,74 0,76 0,81
0,71 0,74 0,77 0,81
0,71 0,74 0,77 0,81
0,71 0,75 0,77 0,82
0,71 0,75 0,77 0,82
0,72 0,75 0,77 0,82
0,72 0,75 0,77 0,83
0,72 0,75 0,77 0,83
0,72 0,75 0,78 0,84
0,72 0,75 0,78 0,84
0,73 0,75 0,78 0,85
0,73 0,75 0,78 0,85
0,73 0,75 0,78 0,85

 



Вычислить характеристики вариационного ряда Объем выборки 80 значений. Минимальное значение вариационного ряда xmin = ___ . Максимальное значение ряда xmax = ____. Размах выборки R = xmax - xmin = ______.
Построить статистический ряд Статистическим рядом (распределением) выборки - перечень вариант и соответствующих им частот или относительных частот. Статистический ряд с абсолютными частотами для исходной выборки:
yi -3 -2 -1 0 1 2
ni 1 1 3 2 2 1

Статистический ряд с относительными частотами

yi -3 -2 -1 0 1 2
0,1 0,1 0,3 0,2 0,2 0,1

Статистический ряд

Механическая скорость бурения, хi м/ч 0,67 0,68 0,69 0,70 0,71 0,72 0,73 0,74
Абсолютная частота совпадений, ni 1 1 2 2 6 5 6 7
xi, м/ч 0,75 0,76 0,77 0,78 0,79 0,80 0,81 0,82
ni 10 8 7 6 3 3 3 3
xi, м/ч 0,83 0,84 0,85
ni 2 2 3

 

Построить группированный статистический ряд Группированный статистический ряд - совокупность середин интервалов zk = (xk+xk+1)/2 и соответствующих им частот nk. Группированный статистический ряд используется преимущественно при анализе вида распределения случайных величин по данным наблюдений.
Выбрать число интервалов Выбор числа интервалов зависит от размаха и объема выборки Число интервалов группировки выбирается произвольно, обычно не менее пяти и не более 15 Число интервалов при n = 200-300 и более ряд авторов рекомендуют брать в пределах от 10 до 20 Следует учитывать, что при большом числе интервалов картина распределения искажается случайными зигзагами частот, при слишком малом характерные особенности распределения получается слишком сглаженной
Построить таблицу с группированным рядом Группированный ряд для данной выборки образуем, назначая в диапазоне выборочных данных три промежутка шириной ~ 1,67. Тогда группированный статистический ряд для нашего примера будет представлен таблицей вида:
Среднее значение интервала zi -2,17 -0,5 1,17
Частота попадания варианты в интервал nk 2 5 3

 



Определитьотносительные частоты Числа ni называются частотами, Отношения частот к объему выборки n называются относительными частотами Wi Wi = ni/n (1) При этом ∑ni = n. W1 =2/20 = 0.1; W2 = 4/20 = 0.2; W3 = 5/20 = 0.25; W4 = 6/20 = 0.3; W5 = 3/20 = 0.15.
Проверить правильность определения относительных частот Контроль: ∑Wi = 1 W = 0,1+0,2+0,25+0,3+0,15 = 1.
Построить статистические диаграммы Для наглядности сгруппированные статистические ряды представляют графиками: гистограмма, полигон, кумулята; огива.
Построить гистограмму Гистограмма представляет собой столбиковую диаграмму частот. По горизонтальной оси диаграммы откладывают измеренные значения из набора данных, по вертикальной – частоту встречаемости этих значений. Высота каждого столбца показывает частоту (количество) значений из набора данных, принадлежащих соответствующему интервалу, равному ширине этого столбца. Визуальный анализ гистограмм позволяет выявить характер распределения данных и ответить на следующие шесть вопросов: 1. Какие значения типичны для заданного набора данных? 2. Как различаются между собой значения (диапазон значений)? 3. Сконцентрированы ли данные вокруг некоторого типичного значения? 4. Какой характер имеет эта концентрация данных? В частности, одинаков ли характер «затухания» для малых и больших значений данных? 5. Есть ли в заданном наборе такие значения, которые сильно отличаются от остальных и требуют специальной обработки (выбросы)? 6. Можно ли сказать, что в целом это однородный набор или отчетливо наблюдается наличие групп, которые надо анализировать отдельно?
Определить среднее значение СВ Среднее арифметическое значение определяется тогда, когда все варианты (значения СВ) имеют одну и ту же частоту, равную единице (нет одинаковых значений СВ), что характерно для малых выборок
Определить средневзвешенное значение СВ Если варианты имеют различные частоты, что характерно для больших выборок, то рассчитывают среднее взвешанное значение СВ по следующей формуле:
Определить моду Мо́да — значение во множестве наблюдений, которое встречается наиболее часто. (Мода = типичность.) Выборочной модой М0 называется элемент выборки, имеющий наибольшую частоту. Мода этого вариационного ряда равна 12. Модой m0 называют варианту, которая имеет наибольшую частоту, т.е. соответствует вершине распределения (это наиболее вероятное значение случайной величины). Оценивают моду по следующей формуле , где: - нижняя граница модального интервала, т.е. интервала, имеющего наибольшую частоту; h – длина интервала разбиения (шаг); - частота модального интервала; - частота интервала, предшествующего модальному интервалу; - частота интервала, следующего за модальным интервалом. Иногда в совокупности встречается более чем одна мода (например: 6, 2, 6, 6, 8, 9, 9, 9, 10; мода = 6 и 9). В этом случае можно сказать, что совокупность мультимодальна. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.
Определить выборочную медиану Выборочной медианой те называется варианта (элемент выборки), которая делит пополам вариационный ряд на две части с одинаковым числом вариант в каждой. Медиана (m0,5) – это значение СВ, которое делит вариационный ряд или площадь, ограниченную кривой распределения, на две равные части. Соотношение между средней величиной, медианой и модой Различие между средней арифметической величиной, медианой и модой в данном распределении невелико. Если распределение по форме близко к нормальному закону, то медиана находится между модой и средней величиной, причем ближе к средней, чем к моде. При правосторонней асимметрии х > Me > Mo; при левосторонней асимметрии х < Me < Mo. Для умеренно асимметричных распределений справедливо равенство: |Мо — х\ = 3|Ме — х\.
Выполнить оценку степени разброса значений СВ Для оценки степени разброса пользуются несколькими показателями, из которых наиболее широко распространены следующие: РАЗМАХ (R), представляющий собой разность между наибольшим (xmax) и наименьшим (xmin) значениями вариант. ДИСПЕРСИЯ (D) – это среднее арифметическое значение квадратов отклонений отдельных вариант от их средней арифметической
Определить размах варьирования Размахом варьирования называется разность между максимальной и минимальной вариантами или длина интервала, которому принадлежат все варианты выборки: R = xmax- xmin
Определить дисперсию Одна из причин проведения статистического анализа заключается в необходимости учитывать влияние на исследуемый показатель случайных факторов (возмущений), которые приводят к разбросу (рассеянию) данных. Решение задач, в которых присутствует разброс данных, связано с риском, поскольку даже при использовании всей доступной информации нельзя точно предугадать, что же произойдет в будущем. Для адекватной работы в таких ситуациях целесообразно понимать природу риска и уметь определять степень рассеяния набора данных. Существуют три числовые характеристики, описывающие меру рассеяния: стандартное отклонение, размах и коэффициент вариации (изменчивости). В отличие от типических показателей (среднее, медиана, мода), характеризующих центр, характеристики рассеяния показывают, насколько близко к этому центру располагаются отдельные значения набора данных. Стандартное отклонение: самая распространенная характеристика Стандартное отклонение (среднее квадратическое отклонение) является мерой случайных отклонений значений данных от среднего. Если все величины в наборе данных одинаковы, например 5,5; 5,5; 5,5; 5,5; 5,5; 5,5, то среднее будет иметь значение , а стандартное отклонение S=0. Это указывает на отсутствие разброса данных. В реальной жизни большинство данных характеризуется рассеянием, т.е. отдельные значения располагаются на некотором расстоянии от среднего. Использовать стандартное отклонение как обобщающую характеристику рассеяния, просто усреднив отклонения данных нельзя, потому что часть отклонений окажется положительной, а другая часть – отрицательной, и, вследствие этого, результат усреднения может оказаться равным нулю. Чтобы избавиться от отрицательного знака, применяют стандартный прием: сначала вычисляют дисперсию как сумму квадратов отклонений, поделенную на (n–1), а затем из полученного значения извлекают квадратный корень. Формула для вычисления стандартного отклонения выглядит следующим образом: Замечание 1. Дисперсия не несет никакой дополнительной информации по сравнению со стандартным отклонением, однако ее сложнее интерпретировать, т. к. она выражается в «единицах в квадрате» (например, в «долларах в квадрате»), в то время как стандартное отклонение выражено в привычных для нас единицах (например, в долларах). Замечание 2. Приведенная выше формула предназначена для расчета стандартного отклонения по выборке и более точно называется выборочное стандартное отклонение. При расчете стандартного отклонения генеральной совокупности (обозначается символом s) производят деление на n. Величина выборочного стандартного отклонения получается несколько больше (т. к. делят на n–1), что обеспечивает поправку на случайность самой выборки. В случае, когда набор данных имеет нормальное распределение, стандартное отклонение приобретает особый смысл
Определить среднее квадратическое отклонение СРЕДНЕЕ КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ (s) – это значение корня квадратного из дисперсии.
Определить коэффициент вариации Коэффициент вариации представляет собой относительную меру изменчивости данных и определяется как результат деления стандартного отклонения на среднее значение. Коэффициент вариации показывает, какой процент от среднего (или доля среднего) составляет стандартное отклонение. Коэффициент вариации является безразмерной величиной, поэтому он может быть полезен при сравнении изменчивости данных, представленных в разных единицах. Коэффициент вариации часто используют при проведении сравнений в условиях различных объемов. Следует отметить, что при ассиметричном (скошенном) распределении данных коэффициент вариации может превысить 100%. Такой результат означает, что в изучаемой ситуации наблюдается очень сильный разброс данных относительно среднего. КОЭФФИЦИЕНТ ВАРИАЦИИ ( ) – это отношение среднего квадратического отклонения к среднему значению СВ, выраженное в процентах . (12) Чем больше коэффициент вариации , тем больше разброс значений СВ вокруг среднего значения, тем менее представительно . Принято считать, что инструментальные лабораторные исследования обеспечивают n£ 8%. Экспериментальные исследования в производственных условиях обычно дают n£ 8 - 15%.. В бурении n, как правило, находится в пределах от 12 до 27%. В зависимости от величины коэффициента вариации технологические показатели и расчеты разбиты на 5 классов точности.
Класс точности
n,% < 8 8 - 15 15 - 25 25 - 35 > 35

 

 








Не нашли, что искали? Воспользуйтесь поиском по сайту:



©2015 - 2024 stydopedia.ru Все материалы защищены законодательством РФ.