Числовые характеристики выборки

Средние величины

Средняя величина представляет собой обобщенную количественную характеристику признака в статистической совокупности в конкретных условиях места и времени, она имеет ту же размерность, что и признак у единиц совокупности. Средние величины исчисляются для характеристики уровня цен, заработной платы, численности населения, выбросов загрязняющих веществ и т.п. Средняя величина должна характеризовать качественно однородную совокупность и исчисляться по данным большого числа единиц совокупности, то есть отображать массовые явления.

Применяются две категории средних: степенные средние и структурные средние.

Степенные средние дают обобщающую характеристику совокупности и являются абстрактными величинами, полученными расчетным путем. Обозначаются средние обычно через . В дальнейшем это обозначение мы будем использовать для генеральной средней, а выборочную среднюю будем обозначать . Выбор средней осуществляется в зависимости от задачи и вида исходных данных. Наиболее часто используется средняя арифметическая, которая является точечной оценкой математического ожидания распределения изучаемого признака как случайной величины.

Средние величины могут быть вычислены как по выборке (простая средняя), так и по вариационному ряду (взвешенная средняя) в зависимости от вида исходной информации

Таблица 1.1. Виды средних величин

Формула средней	Наименование средней
Арифметическая	Гармоническая	Геометрическая	Квадратическая
Простая (по выборке)
в Excel	СРЗНАЧ(массив)	СРГАРМ(массив)	СРГЕОМ(массив)	КОРЕНЬ((СУММКВ(массив)/n)
Взвешенная (по ВР)
в Excel	Вычисляются с применением функции СУММПРОИЗВ(массив1;массив2)

Для вычисления средней в интервальном ряду нужно перейти к дискретному ряду, заменив интервал его средним значением.

Степенные средние не отражают всех особенностей совокупности, они могут быть различными для одинаковых совокупностей или иметь одинаковое значение для совокупности с различным строением.

Структурные средние используются для более полной характеристики совокупности:

Мода – это варианта с наибольшей частотой (Мо);

Медиана – это варианта, делящая совокупность на две равные части (Ме).

Для нахождения моды и медианы по выборке в Excel используются соответственно функции МОДА(массив данных) и МЕДИАНА (массив данных).

В дискретном ВР модой является значение, соответствующее наибольшей частоте, медианой - то значение варианты, для которого накопленная частота впервые превышает половину объема выборки.

Для интервального ряда моду вычисляют по формуле:

где x_Mo – нижняя граница модального интервала, f_Mo – частота модального интервала, f_Mo_-1 – частота интервала, предшествующего модальному, f_Mo₊₁ – частота интервала, следующего за модальным.

Медиана для интервального вариационного ряда вычисляется по формуле:

где x_M_е – нижняя граница медианного интервала (в котором накопленная частота превышает половину объема выборки), d – величина интервала, f_M_е – частота медианного интервала, S_Me_-1 – накопленная частота интервала, предшествующего медианному.

Показатели вариации

Чтобы дать представление о величине варьирующего признака, недостаточно исчислить средний показатель. Необходим показатель, характеризующий вариацию признака.

Вариация – это изменение значения признака у отдельных единиц совокупности. Вариация обусловлена действием различных факторов на развитие отдельных единиц совокупности. Чем более разнообразно условие, тем больше его вариация.

Наиболее простой характеристикой вариации признака является размах вариации:

R=x_max – x_min,

где x_max – наибольшее, x_min – наименьшее значения в выборке.

В Excel размах вычисляется при помощи формулы:

МАКС(массив данных)-МИН(массив данных)

Недостаток размаха вариации в том, что он не отражает отклонений всех значений признака.

Для измерения отклонения каждой варианты от средней величины в ряду распределения или в группировке применяется среднее линейное отклонение:

(простое); (взвешенное).

В Excel для вычисления по выборке используют функцию

СРОТКЛ(массив данных).

Среднее линейное отклонение показывает, на сколько в среднем каждое значение признака отклоняется от средней величины. Эта величина измеряется в тех же единицах, в которых даны статистические показатели. Среднее линейное отклонение дает обобщенную характеристику степени колеблемости признаков совокупности.

Наибольшее применение в практике статистических работ находит показатель – дисперсия признака или квадрат среднего квадратического отклонения.

(простая); (взвешенная).

В Excel дисперсия выборки вычисляется при помощи функции

ДИСПР(массив данных)

Корень квадратный из дисперсии представляет среднее квадратическое отклонение или стандартное отклонение .

Для вычисления в Excel существует функция

СТАНДОТКЛОН(массив данных)

Среднее квадратическое отклонение дает обобщенную характеристику признака совокупности и показывает во сколько раз в среднем колеблется величина признака совокупности. Среднее квадратическое отклонение является мерой надежности средней величины: чем оно меньше, тем точнее средняя арифметическая.

Сопоставление линейных или среднеквадратических отклонений по признакам совокупности дает возможность определить статистическую однородность совокупности: чем меньше размер, тем совокупность более однородна.

Для сравнения вариации в разных совокупностях рассчитываются относительные показатели вариации:

Коэффициент вариации: . Коэффициент вариации позволяет судить об однородности совокупности:

– < 17% – абсолютно однородная;

– 17–33% – достаточно однородная;

– 35–40% – недостаточно однородная;

– 40–60% – это говорит о большой колеблемости совокупности.

Коэффициент осцилляции: . Отражает относительную колеблемость крайних значений признака вокруг средней.

Линейный коэффициент вариации: . Характеризует долю усредненного значения абсолютного отклонения от средней величины.

Кроме того, для сравнения гистограммы или полигона вариационного ряда с нормальным распределением, вычисляют коэффициент асимметрии и эксцесс:

, .

В Excel эти характеристики по выборке вычисляются соответственно функциями

СКОС(массив данных) и ЭКСЦЕСС(массив данных).

Заметим, что для вычисления основных выборочных характеристик в Excel можно использовать также процедуру «Описательная статистика» из надстройки «Пакет анализа».

Задание 1

Для определения петрографического типа пород из горизонта неогеновых лав отобрано и проанализировано на содержание SiO₂ (%) 30 проб:

№	SiO₂	№	SiO₂	№	SiO₂	№	SiO₂	№	SiO₂	№	SiO₂
	59,5		69,2		62,9		61,2		71,4		67,5
	66,8		61,2		62,4		69,3		67,7		65,3
	60,5		66,3		71,6		64,6		63,6		69,9
	63,7		73,2		65,8		67,8		61,1		73,2
	72,5		64,6		63,1		56,6		63,8		60,7

- построить ряд распределения по типам лав: андезитобазальты (<57,2%); андезиты (<62,1%); андезит-дациты (<63,0%); дациты (<68,5%); риолит-дациты (<70,5%); риолиты

- определить средний состав лав;

- определить преобладающий состав;

- определить характеристики распределения по выборке.

Не нашли, что искали? Воспользуйтесь поиском по сайту: