Статистические характеристики.

Математическая статистика - теория, в которой рассматриваются способы агрегирования информации посредством вычисления совокупных и средних значений показателей.Виды средних значений: 1) среднее арифметическое: M = (V1 + V2 + ... + Vn) / n 2) среднее геометрическое: G = SQRT(V1*V2*...*Vn) (здесь и далее SQRT - функция извлечения квадратного корня) 3) среднее квадратическое (выражается в тех же единицах, что и характеризуемый показатель): S = SQRT((V1*V1 + V2*V2 + ... + Vn*Vn) / n) 4) дисперсия (сумма квадратов отклонений случайной величины от ее среднего значения, взвешенных на вероятности этих отклонений): V = Р1(V1 - M)**2 + Р2(V2 - M)**2 + .. + Рn(Vn - M)**2 где M - среднее арифметическое значение; Рi - вероятность отклонения Vi - M; 5) среднее гармоническое: H = n / (1/V1 + 1/V2 + ... + 1/Vn) 6) мода: наиболее часто встречаемое значение; 7) медиана (значение, равное среднему между наибольшим и наименьшим): M = (Vmax + Vmin) / 2 8) среднее взвешенное: W = (V1*W1 + V2*W2 + ... + Vn*Wn) / (W1 + W2 + ... + Wn) где Wi - количество значений Vi; Характеристики разнообразия (разброса значений): 1) среднее квадратичное отклонение (характеризует абсолютный разброс значений; выражается в тех же единицах, что и характеризуемый показатель): S = SQRT(((V1-M)*(V1-M)+(V2-M)*(V2-M)+...+(V1-M)*(V1-M))/n-1) здесь: M - средняя арифметическая величина; n - количество значений показателя; 2) коэффициент вариации (характеризует относительный разброс значений - относительно среднего арифметического): C = (100 * S) / M здесь: S - среднее квадратичное отклонение; M - средняя арифметическая величина; 3) размах (разница между наибольшим и наименьшим значением): L = Vmax - Vmin

Статистические методы построения моделей.

Основные статистические методы построения формул, выражающих взаимозависимость измеренных показателей некоторых объектов: 1. Метод корреляционного анализа - аппроксимация эмпирической зависимости между величинами X и Y формулой вида Y = K*X + A где K - коэффициент корреляции. 2. Метод множественной регрессии - аппроксимация зависимости показателя от некоторого набора показателей, не зависящих один от другого, формулой вида Y = A + B1*X1 + B2*X2 + ... + BN*XN где Xi - показатели; Bi - коэффициенты регрессии. 3. Метод факторного анализа - выявление новых показателей Y1 ..YN (факторов) вместо имеющихся показателей X1..XM, где N < M. Метод реализуется в предположении, что корреляционные связи между большим числом наблюдаемых показателей X1..XM определяются влиянием на них меньшего числа ненаблюдаемых показателей Y1..YN. При использовании какого-либо метода математической статистики для получения математической модели некоторой зависимости исследователь должен иметь априорную гипотезу о типе этой зависимости. Статистические методы позволяют лишь подтвердить гипотезу или выяснить значения коэффициентов в формуле, выражающей предполагаемую зависимость между параметрами.

Опасности использования статистики.

Есть три разновидности лжи: ложь, гнусная ложь и статистика.Б. Дизраэли. Некорректное применение статистики бывает причиной самообмана, а также используется иногда как средство ввода в заблуждение.К примеру, можно рассмотреть три типичных варианта разброса значений свойства Q некоторых объектов (это может быть уровень жизни граждан некоторой страны, количество побед в воздушных боях, приходящееся на одного летчика-истребителя и т. д.):

Показатель "среднее значение" может быть корректно применен в качестве единственной характеристики возможных значений Q только в отношении варианта A, но не вариантов B и C. Для варианта B следует совместно использовать две статистические характеристики: среднее арифметическое значение и показатель разброса значений - среднее квадратичное отклонение. В варианте C следует использовать по одному показателю "среднее арифметическое значение" для каждой из групп I и II.

Сворачивание показателей.

Мангейм Дж. Б., Рич Р. К.: "Построение индекса заключается в сведении сложных данных в единый показатель, который отражает значение понятия полнее, чем любой из его компонентов. Широко используются три типа индексов: аддитивные, мультипликативные и взвешенные." ("Политология: методы исследования", стр. 304)).У указанных авторов:1. Аддитивные индексы - складывающиеся: I = A+B."Для выяснения размеров 'религиозного сообщества' в некоторой стране можно было бы просуммировать все числовые данные, отражающие количество приверженцев различных религий, исповедуемых в этой стране."2. Мультипликативные индексы - перемножающиеся: I = A * B."Для получения показателя степени серьезности беспорядков мы могли бы число участников умножить на число часов, вычислив таким образом число 'человеко-часов', пришедшихся на беспорядки."3. Взвешенные индексы - относительные: I = A/B."Использование числа участников антиправительственной манифестации в качестве показателя величины кредита доверия к правительству правомерно только тогда, когда это число выражено в форме процентного отношения к численности всего населения."

Кластерный анализ.

Кластерный анализ - деление объектов на классы соответственно значениям параметров этих объектов. Объекты, попадающие в один класс, имеют больше сходства по своим параметрам, чем объекты попадающие в разные классы.Можно задавать количество классов, на которые должны быть разделены объекты. Можно приписывать различные веса рассматриваемым показателям объектов.Существуют компьютерные программы, позволяющие осуществлять кластерный анализ (= кластеризацию), к примеру, записей базы данных. Основное отличие кластеризации от традиционных компьютерных методов классификации заключается в отсутствии обучающей выборки и вообще каких-либо априорных сведений о структуре и статистических свойствах классифицируемых данных. Для кластерного анализа могут применяться нейронные сети.

Неформальный анализ.

Не нашли, что искали? Воспользуйтесь поиском по сайту: