Характеристики положения и рассеяния статистического распределения. Характеристика рассеяния

Министерство образования и науки РФ

Государственное образовательное учреждение высшего профессионального образования

«МАТИ»-Российский государственный технологический университет имени К. Э. Циолковского

Кафедра «Технология производства двигателей летательных аппаратов»

Лабораторный практикум

MATLAB. Занятие 2

СТАТИСТИЧЕСКИЙ АНАЛИЗ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

Составители:

Курицына В.В.

Москва 2011

ВВЕДЕНИЕ..........................................................................................................

ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН...........................................

Характеристика положения центра группирования случайных величин.....

Характеристики рассеяния случайной величины...........................................

Характеристики выборки наблюдений............................................................

Нормальное распределение (распределение Гаусса) ..................................

ПРЕДСТАВЛЕНИЕ ВЫБОРКИ РЕЗУЛЬТАТОВ ИЗМЕРЕНИЙ В ВИДЕ

РЯДА РАСПРЕДЕЛЕНИЙ.................................................................................

ОПРЕДЕЛЕНИЕ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК В СРЕДЕ

MATLAB ............................................................................................................

Формирование выборки экспериментальных данных.................................

Способы формирования файла выборки..................................................

Вариант 1. Формирование матрицы данных результатов измерений 12

Вариант 2. Моделирование результатов измерений..............................

Построение графиков распределения..........................................................

Вариант 1. Построение графиков распределения..................................

Вариант 2. Построение графиков распределения..................................

ВИЗУАЛЬНОЕ МОДЕЛИРОВАНИЕ.............................................................

Моделирование в Matlab Simulink .................................................................

Начало работы с Simulink ..............................................................................

Создание модели Simulink.............................................................................

Формирование выборки для анализа.........................................................

Расчет статистических характеристик...............................................

Построение гистограммы распределения...............................................

Блок-схема визуальной модели...................................................................

Моделирование случайного процесса..........................................................

Модельный эксперимент............................................................................

Создание массивов со случайными элементами......................................

Модификация источника данных в модели..............................................

Примерный вид блок-схемы модели..........................................................

ВВЕДЕНИЕ

В арсенале средств, которыми должен владеть современный экспериментатор, статистические методы обработки и анализа данных занимают особое место. Это связано с тем, что результат любого, достаточно сложного эксперимента не может быть получен без обработки экспериментальных данных.

Аппарат теории вероятности и математической статистики разработан и применяется для описания закономерностей, присущих массовым случайным событиям. Каждому случайному событию сопоставляется соответствующая случайная величина (в данном случае результат эксперимента).

Для описания случайных величин используются следующие характеристики:

а) числовые характеристики случайной величины (например, математической ожидание, дисперсия, …);

б) закон распределения случайной величины – функция, несущая всю информацию о случайной величине.

Числовые характеристики и параметры закона распределения случайной величины связаны между собой определенной зависимостью. Часто по значению числовых характеристик можно предположить закон распределения случайной величины.

Законом распределения случайной величины обычно называется функция распределения вероятностей принятия случайной величиной того или иного значения. Это функция, которая ставит в соответствие возможным интервальным значениям случайной величины вероятность попадания ее в эти интервалы.

ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН

Характеристика положения центра группирования случайных величин

В качестве числовых характеристик положения центра группирования случайных величин используют математическое ожидание или среднее значение, моду и медиану случайной величины (рис.3.1. ).

Математическое ожидание случайной величины Y обозначают через М Y или a и определяют по формуле:

a = MY = ∫ Yϕ (Y ) dY .

Математическое ожидание указывает на положение центра группирования случайных величин, или положение центра масс площади под кривой. Математическое ожидание является числовой характеристикой случайной величины, то есть является одним из параметров функции распределения.

ϕ (Y ϕ (Y)max

0 MoY

MеY

Рис. 3.1. Характеристики группирования случайной величины X

Модой случайной величины Y является такое значение Мo Y , в котором плотность вероятности имеет максимальное значение.

Медианой случайной Y служит значение Ме Y , которое соответствует условию:

P (Y < МеY ) = P (Y > MeY ) = 0,5 .

Геометрически медиана представляет абсциссу точек прямой, которая делит площадь, ограниченную кривой плотности вероятности пополам.

Характеристики рассеяния случайной величины

Одной из основных характеристик рассеяния случайной величины Y около центра распределения служит дисперсия , которая обозначается D(Y) или σ 2 и определяется по формуле:

D(Y ) = σ 2 = ∫ (Y − a) 2 ϕ (Y ) dY .

Дисперсия имеет размерность квадрата случайной величины, что не всегда удобно. Часто вместо дисперсии за меру рассеивания случайной величины используют положительное значение квадратного корня из дисперсии, которое называется средним квадратичным отклонением или стандартным отклонением :

σ = D (Y ) = σ 2 .

Как и дисперсия, среднеквадратичное отклонение характеризует разброс величины вокруг математического ожидания.

В практике широко применяют также характеристику рассеивания, называемую коэффициентом вариации ν , который представляет отношение среднего квадратичного отклонения к математическому ожиданию:

ν = σ a 100% .

Коэффициент вариации показывает, насколько велико рассеяние по сравнению со средним значением случайной величины.

Характеристики выборки наблюдений

Среднее значение наблюдаемого признака можно оценить по формуле

Y = 1 ∑ n Y i ,

n i = 1

где Yi – значение признака в i -м наблюдении (опыте), i=1...n. ; n – количество наблюдений.

Выборочное среднеквадратичное отклонение определяется по формуле:

∑ (Yi − Y ) 2 .

n − 1 i = 1

ν = Y S .

Зная коэффициент вариации ν , можно определить показатель точности Н по формуле:

H = ν n .

Чем точнее проведено исследование, тем меньше будет величина показателя

В зависимости от природы изучаемого явления показатель точности исследования считается достаточным, если он не превышает 3÷5%.

Не редки случаи, когда в результаты эксперимента вкрадывается грубая погрешность . Существует несколько способов оценки грубых погрешностей. Наиболее простой основан на вычислении максимального относительного отклонения U . Для этого результаты измерения располагают в ряд монотонно возрастающих значений. Проверке на грубую погрешность подлежит наименьший Y min или наибольший Y max член ряда. Расчет проводят по формулам:

− Y min

Y max − Y

Значение U сравнивают с табличным значением для данной доверительной вероятности U α . Если U ≤ U α , то в данном наблюдении нет грубой погрешности. В противном случае результат наблюдения отсеивают и

производят перерасчет Y и S . Затем повторяют процедуру оценки и исключения грубых погрешностей до тех пор, пока не будет выполняться неравенство U ≤ U α для крайних членов ряда.

Во многих случаях результаты статистических наблюдений могут быть описаны теоретическими законами распределения . При интерпретации данных, полученных экспериментальным путем возникает задача – определить такой теоретический закон распределения случайной величины, который наилучшим образом соответствует результатам наблюдений. Более конкретно эта задача сводится к проверке гипотезы о принадлежности случайной выборки к некоторому закону распределения.

Разные по природе анализируемые процессы обуславливают области применения различных законов распределения. Так результат технологического эксперимента при одних и тех же условиях обработки подчиняется и результат эксперимента по бросанию монеты с орлом и решкой подчиняются совершенно разным законам. Законы распределения случайной величины характеристик надежности, отказов так же имеют особенности.

Как ни важны средние характеристики, но не менее важной характеристикой массива числовых данных является поведение остальных членов массива по отношению к среднему показателю, на сколько они отличаются от средних показателей, как много членов массива значительно отличаются от среднего. На тренировках по стрельбе говорят о кучности результатов, в статистике исследуют характеристики рассеяния (разброса).

Отличие какого-либо значения х, от среднего значения х называют отклонением и вычисляют как разность х, - х. При этом отклонение может принимать как положительные значения, если число больше среднего, так и отрицательные значения, если число меньше среднего. Однако в статистике часто важно иметь возможность оперировать одним числом, характеризующим «кучность» всех числовых элементов массива данных. Любое суммирование всех отклонений членов массива приведет к нулю, так как положительные и отрицательные отклонения взаимно уничтожатся. Чтобы избежать обнуления, используют для характеристики рассеяния квадраты разностей, точнее, среднее арифметическое квадратов отклонений. Такую характеристику рассеяния называют выборочная дисперсия.

Чем больше дисперсия, тем больше рассеяние значений случайной величины. Для вычисления дисперсии используют приближенное значение выборочного среднего х с запасом на один разряд по отношению ко всем членам массива данных. В противном случае при суммировании большого количества приближенных значений будет накапливаться существенная ошибка. В связи с размерностью числовых значений следует отметить один недостаток такого показателя рассеяния, как выборочная дисперсия: единица измерения дисперсии D является квадратом единицы измерения значений х, характеристикой которых дисперсия является. Чтобы избавиться от этого недостатка, в статистике введена такая характеристика рассеяния, как выборочное среднее квадратичное отклонение , которое обозначается символом а (читается «сигма») и вычисляется по формуле

В норме более половины членов массива данных отличаются от среднего показателя меньше, чем на величину среднего квадратичного отклонения, т.е. принадлежат отрезку - а; х + а]. Иначе говорят: средний показатель с учетом разброса данных равен х ± а.

Введение еще одной характеристики рассеяния связано с размерностью членов массива данных. Все числовые характеристики в статистике вводятся с целью сравнения результатов исследования разных числовых массивов, характеризующих разные случайные величины. Однако сравнивать средние квадратичные отклонения от разных средних величин разных массивов данных не показательно, особенно если еще и размерность этих величин отличается. Например, если сравнивается длина и вес каких- либо объектов или рассеяния при изготовлении микро- и макроизделий. В связи с вышеизложенными соображениями вводится характеристика относительного рассеяния, которая называется коэффициентом вариации и вычисляется по формуле

Для подсчета числовых характеристик рассеяния значений случайной величины удобно использовать таблицу (табл. 6.9).

Таблица 6.9

Подсчет числовых характеристик рассеяния значений случайной величины

Xj - X

(Xj-X) 2 /

В процессе заполнения этой таблицы находится выборочное среднее х, которое в дальнейшем будет использоваться в двух видах. Как итоговая средняя характеристика (например, в третьем столбце таблицы) выборочное среднее х должно быть округлено до разряда, соответствующего наименьшему разряду какого-либо члена массива числовых данных х г Однако этот показатель используется в таблице при дальнейших вычислениях, и в этой ситуации, а именно при вычислениях в четвертом столбце таблицы, выборочное среднее х должно быть округлено с запасом на один разряд по отношению к наименьшему разряду какого-либо члена массива числовых данных х { .

Итогом вычислений при помощи таблицы типа табл. 6.9 будет получение значения выборочной дисперсии, а для записи ответа надо на основе значения выборочной дисперсии посчитать значение среднего квадратичного отклонения а.

В ответе указывается: а) средний результат с учетом разброса данных в виде х±о ; б) характеристика стабильности данных V. В ответе следует оценить качество коэффициента вариации: плохой или хороший.

Допустимым коэффициентом вариации как показателем однородности или стабильности результатов в спортивных исследованиях считается 10-15%. Коэффициент вариации V = 20% в любых исследованиях считается весьма большим показателем. Если объем выборки п > 25, то V > 32% - очень плохой показатель.

Например, для дискретного вариационного ряда 1; 5; 4; 4; 5; 3; 3; 1; 1; 1; 1; 1; 1; 3; 3; 5; 3; 5; 4; 4; 3; 3; 3; 3; 3 табл. 6.9 будет заполнена следующим образом (табл. 6.10).

Таблица 6.10

Пример подсчета числовых характеристик рассеяния значений

*1

fi

1

Л п 25 = 2,92 = 2,9

D _S_47,6_ п 25

Ответ : а) средняя характеристика с учетом разброса данных равна х ± а = = 3 ± 1,4; б) стабильность полученных измерений находится на низком уровне, так как коэффициент вариации V = 48% > 32%.

Аналог табл. 6.9 может быть использован и для вычисления характеристик рассеяния интервального вариационного ряда. При этом варианты х г будут заменены представителями промежутков x v ja абсолютные частоты вариант f { - на абсолютные частоты промежутков f v

На основании вышеизложенного можно сделать следующие выводы.

Выводы математической статистики правдоподобны, если обрабатывается информация о массовых явлениях.

Обычно исследуется выборка из генеральной совокупности объектов, которая должна быть репрезентативна.

Опытные данные, полученные в результате исследования какого-либо свойства объектов выборки, представляют собой значение случайной величины, поскольку исследователь заранее не может предсказать, какое именно число будет соответствовать определенному объекту.

Для выбора того или иного алгоритма описания и первичной обработки опытных данных важно уметь определять тип случайной величины: дискретная, непрерывная или смешанная.

Дискретные случайные величины описываются дискретным вариационным рядом и его графической формой - полигоном частот.

Смешанные и непрерывные случайные величины описываются интервальным вариационным рядом и его графической формой - гистограммой.

При сравнении нескольких выборок по уровню сформированное™ некоторого свойства используют средние числовые характеристики и числовые характеристики рассеяния случайной величины по отношению к средним.

При вычислении средней характеристики важно правильно выбрать вид средней характеристики, адекватный области ее применения. Структурные средние значения мода и медиана характеризуют структуру расположения вариант в упорядоченном массиве опытных данных. Количественное среднее значение дает возможность судить о среднем размере вариант (выборочная средняя).

Для вычисления числовых характеристик рассеяния - выборочной дисперсии, среднего квадратичного отклонения и коэффициента вариации - эффективен табличный способ.

Наряду с наиболее вероятным значением риска важное значение имеет разброс возможных значений риска относительно его центрального значения. Учет разброса показателей необходим и при решении задач социально-гигиенического мониторинга.

Наиболее распространенными характеристиками разброса случайной величины являются дисперсия и среднеквадратичное отклонение.

Дисперсия случайной величины ξ обозначаемая как D (ξ) (используются также обозначения V (ξ) и σ 2 (ξ)), характеризует наиболее вероятное значение квадрата отклонения случайной величины от своего математического ожидания.

Для дискретной случайной величины, принимающей значения х i с вероятностями р i , дисперсия определяется как взвешенная сумма нитратов отклонений х i от математического ожидания ξ с весовыми коэффициентами, равными соответствующим вероятностям:

D(ξ) =

Для непрерывной случайной величины ξ ее дисперсия определяется по формуле:

D(ξ) =

Дисперсия обладает следующими практически важными свойствами:

1.Дисперсия любой случайной величины неотрицательна:

D(ξ) ≥ 0

2. Дисперсия постоянной величины равна 0:

D(C) = 0

где С - константа.

3. Дисперсия случайной величины ξ равна разности между математическим ожиданием квадрата этой случайной величины и квадратом математического ожидания ξ:

D(ξ) = M [ξ – M (ξ)] 2 = M(ξ 2) – ( .

4. Прибавление константы к случайной величине не изменяет дисперсии; умножение случайной величины на константу а приводит к умножению дисперсии на а 2 :

D(aξ + b) = a 2 D(ξ),

где а и b - константы.

5. Дисперсия суммы независимых случайных величин равна сумме их дисперсий:

где ξ и η - независимые случайные величины.

Среднеквадратичным отклонением случайной величины ξ (используются также термин «стандартное отклонение») называется число σ (ξ) равное квадратному корню из дисперсии ξ:

Среднеквадратичное отклонение измеряет отклонение случайной нвеличины от ее математического ожидания в тех же величинах, в которых измеряется сама случайная величина (в отличие от дисперсии, размерность которой равна квадрату размерности исходной случайной величины). Для нормального распределения среднеквадратичное отклонение равно параметру σ. Таким образом, математическое ожидание и стандартное отклонение представляют собой полный набор характеристик нормального распределения и однозначно определяют вид плотности распределения. Для распределений, отличающихся от нормального, эта пара показателей не является столь же эффективной характеристикой распределения.


В качестве характеристики рассеяния случайной величины используется также коэффициент вариации. Коэффициентом вариации случайной величины ξ имеющей ненулевое математическое ожидание, называется число V (ξ) равное отношению среднеквадратичного отклонения ξ к ее математическому ожиданию:

Коэффициент вариации измеряет рассеяние случайной величины в долях ее математического ожидания и часто выражается в процентах от последнего. Этой характеристикой не следует пользоваться, если математическое ожидание близко к 0 или существенно меньше стандартного отклонения (в этом случае малые ошибки при определении математического ожидания приводят к высокой погрешности для коэффициента вариации), а также, если вид плотности распределении существенно отличается от гауссовского.

Коэффициент асимметрии (As ) определяет 3-ю степень отклонении случайной величины от математического ожидания и определяется по формуле:

На практике этот показатель используется в качестве оценки симметричности распределения. Для любого симметричного распределения он равен 0. Если же плотность распределения несимметрична (что часто может иметь место при оценке риска смерти и рисков, связанных с загрязнением воды и воздуха), то положительный коэффициент асимметрии соответствует случаю, когда левое плечо кривой плотности круче правого, а отрицательный - случаю, когда правое плечо круче левого (рис 4.17).

Для асимметричных распределений стандартное отклонение не является хорошим показателем рассеяния случайной величины. Для характеристики рассеяния в этом случае можно использовать такие показатели, как квартили, квантили и процентили.

Первой квартилью случайной величины ξ, имеющей функцию распределения F(х), называется число Q 1 являющееся решением уравнения

F(Q 1) = 1/4

т. е. такое число, для которого вероятность того, что ξ принимает значения, меньшие Q 1 , равна 1/4, вероятность того, что она принимает значения, большие Q 1 равна 3/4.

Второй квартилью (Q 2 ) случайной величины называется ее медиана, а третьей (Q 3 ) - решение уравнения

F(Q 3) = 3/4

Квартили делят ось абсцисс на 4 интервала: [-∞,Q 1 ], [Q 1 , Q 2 ], [Q 2 , Q 3 ] и [Q 3 , + ∞] в каждый из которых случайная величина попадает c равной вероятностью, а фигуру, ограниченную осью абсцисс и графиком плотности распределения - на 4 области с одинаковой площадью. И интервале между первой и третьей квартилями сосредоточено 50% распределения случайной величины. Для симметричных распределений первая и третья квартили одинаково удалены от медианы.

Квантилью порядка р случайной величины ξ с функцией распределения F(х) называется число х , являющееся решением уравнения

Таким образом, квартили являются квантилями порядка 0,25, 0,5 и 0,75. Если порядок квантили р выражается в процентах, то соответствующие значения х называются процентилями, или р -процентными точками распределения.

На рис. 4.18 показаны, наряду с квантилями, 2,5- и 97,5-процентные точки распределения. Между этими точками сосредоточено 95% распределения случайной величины, поэтому заключенный между ними интервал называют 95 %-м доверительным интервалом среднего (в частности, при оценке рисков - 95 %-м доверительным интервалом риска).

Задача 2. Какие из перечисленных ниже сведений о случайной величине ξ позволяют отвергнуть предположение о том, что она распределена по нормальному закону:

а) ξ - дискретная случайная величина;

б) математическое ожидание ξ отрицательно;

в) распределение ξ унимодально;

г) математическое ожидание ξ не равно ее медиане;

д) коэффициент асимметрии ξ отрицателен;

е) стандартное отклонение ξ больше ее математического ожидания;

ж) ξ характеризует распределение продолжительности острых заболеваний органов дыхания на исследуемой территории;

з) ξ характеризует распределение продолжительности жизни на исследуемой территории;

и) медиана ξ не совпадает с центром интервала между первой и третьей квартилями.

Ответ: Предположение о нормальном законе распределения случайной величины несовместимо с утверждениями а), г), д), з), и).

Рис. 4.17. Зависимость между знаком Рис.4.18. Квартили и процентили:

коэффициента асимметрии и формой иллюстрация с помощью функции

функции плотности распределения

Для выборки можно определить ряд числовых характеристик, которые аналогичны основным числовым характеристикам случайных величин в теории вероятностей (математическое ожидание, дисперсия, среднее квадратическое отклонение, мода, медиана) и являются в некотором смысле (который будет ясен дальше) их приближенным значением.

Пусть дано статистическое распределение выборки объема n для частот и относительных частот:

x i

x 1

x 2

x k

n i

n 1

n 2

n k


x i

x 1

x 2

x k

w i

w 1

w 2

w k

Выборочным средним называется среднее арифметическое значение всех вариант:

Если внести множитель под знак суммы, то получим формулу для выборочного среднего через относительные частоты:

.

Отметим, что в случае интервального ряда выборочное среднее вычисляется по тем же формулам, если в качестве чисел х 1 , … , х k взять середины интервалов: , … ,.

Выборочной дисперсией называется среднее арифметическое квадратов отклонений значений выборки от их выборочного среднего:

Снова внося множитель под знак суммы, получим формулу для выборочной дисперсии через относительные частоты:

Несложные преобразования приводят к более удобной формуле для вычисления выборочной дисперсии

,

где есть выборочное среднее квадрата изучаемой случайной величины, т.е.

Если выборка представлена интервальным статистическим рядом, то формулы для выборочной дисперсии остаются те ми же, где, как обычно, в качестве чисел х 1 , … , х k берутся середины интервалов: , … ,.

Выборочным средним квадратическим отклонением называется квадратный корень из выборочной дисперсии

.

Размахом вариации R называется разность между максимальным и минимальным значением в выборке. Если варианты в выборке ранжированы (размещены в возрастающем порядке), то

.

Коэффициент вариации определяется по формуле

.

Модой М о вариационного ряда называется вариант, имеющий наибольшую частоту (или относительную частоту).

Медианой М е вариационного ряда называется число, являющееся его серединой. Для дискретного ряда с нечетным числом вариант медиана равна его серединному варианту. Если же число вариант четно, то Медина равна среднему (т.е. полусумме) двух серединных вариант.

К основным статистическим характеристикам ряда измерений (вариацион­ного ряда) относятся характеристики положения(средние характе­ристики, или центральная тенденция выборки); характеристики рассеяния(ва­риации, или колеблемости) и характеристики формыраспределения.

К характеристикам положения относятся среднее арифметическое значе­ние (среднее значение), мода и медиана.

К характеристикам рассеяния (вариации, или колеблемости) относятся: размах вариации, дисперсия, среднее квадратическое (стандартное) отклонение, ошибка средней арифметической (ошибка средней), коэффициент вариации и др.

К характеристикам формы относятся коэффициент асимметрии, мера ско­шенности и эксцесс.

51. Оценка параметров генеральной совокупности. Точечная и интервальная оценка. Доверительный интервал. Уровень значимости

Оценка параметров генеральной совокупности

Существуют точечные и интервальные оценки генеральных параметров.

Точечной одним числом . К таким оценкам относятся, например,

Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны быть:

    несмещенными;

    эффективными;

    состоятельными.

Оценка называется несмещенной, если математическое ожидание ее выборочного распределения совпадает со значением генерального параметра.

Точечная оценка называется эффективной, если она имеет наименьшую дисперсию выборочного распределения по сравнению с другими аналогичными оценками, т.е. обнаруживает наименьшую случайную вариацию.

Точечная оценка называется состоятельной, если при увеличении объема выборочной совокупности она стремиться к величине генерального параметра.

Например, выборочная средняя есть состоятельная, несмещённая оценка генеральной средней. Для выборки из нормальной генеральной совокупности эта оценка является также и эффективной.

При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т.е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.

Интервальной называют оценку, которая определяется двумя числами концами интервала доверительного интервала .

Интервальные оценки позволяют установить точность и надежность оценок.

Для оценки генерального параметра с помощью доверительного интервала необходимы три величины:

Например, доверительный интервал для генеральной средней находится по формуле:при уровне значимости.

Доверительный интервал - термин, используемый в математической статистике при интервальной оценке статистических параметров, более предпочтительной при небольшом объёме выборки, чем точечная.

Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.

Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р < 0,05 , то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.

Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р < 0,01 , то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.

Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.

Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода. (См. Табл. 1)

Табл. 1. Нулевая и альтернативные гипотезы и возможные состояния проверки.

Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р< 0,05 или р< 0,01, а α< 0,05 или α< 0,01.

Если вероятность ошибки - это α , то вероятность правильного решения: 1-α. Чем меньше α, тем больше вероятность правильного решения.

Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным – 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.

До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу. Мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Но) и принятия гипотезы о статистической достоверности различий (Н 1).

Главная характеристика рассеивания вариационного ряда называется дисперсией

Главная характеристика рассеивания вариационного ряда называется дисперсией . Выборочная дисперсия D в рассчитывается по следующей формуле:

где x i – i -ая величина из выборки, встречающаяся m i раз; n – объём выборки; – выборочная средняя; k – количество различных значений в выборке. В рассматриваемом примере: x 1 =72, m 1 =50; x 2 =85, m 2 =44; x 3 =69, m 3 =61; n =155; k =3; . Тогда:

Заметим, что чем больше значение дисперсии, тем сильнее отличие значений измеряемой величины друг от друга. Если в выборке все значения измеряемой величины равны между собой, то дисперсия такой выборки равна нулю.

Дисперсия обладает особыми свойствами.

Свойство 1. Значение дисперсии любой выборки неотрицательно, т.е. .

Свойство 2. Если измеряемая величина постоянна X=c, то дисперсия для такой величины равна нулю: D [ c ]= 0.

Свойство 3. Если все значения измеряемой величины x в выборке увеличить в c раз, то дисперсия данной выборки увеличится в c 2 раз: D [ cx ]= c 2 D [ x ], где c = const .

Иногда вместо дисперсии используют выборочное среднее квадратическое отклонение , которое равно арифметическому квадратному корню из выборочной дисперсии: .

Для рассмотренного примера выборочное среднее квадратическое отклонение равно .

Дисперсия позволяет оценить не только степень различия измеряемых показателей внутри одной группы, но может быть использована и для определения отклонения данных между разными группами. Для этого используется несколько видов дисперсии.

Если в качестве выборки берётся какая-либо группа, то дисперсия данной группы называется групповой дисперсией . Чтобы выразить численно различия между дисперсиями нескольких групп, существует понятие межгрупповой дисперсии . Межгрупповой дисперсией называется дисперсия групповых средних относительно общей средней:

где k – число групп в общей выборке, - выборочная средняя для i -ой группы, n i – объём выборки i -ой группы, - выборочная средняя для всех групп.

Рассмотрим пример.

Средняя оценка за контрольную работу по математике в 10 «А» классе составила 3.64, а в 10 «Б» классе 3.52. В 10 «А» учится 22 человека, а в 10 «Б» - 21. Найдём межгрупповую дисперсию.

В данной задаче выборка разбивается на две группы (два класса). Выборочная средняя для всех групп равна:

.

В таком случае межгрупповая дисперсия равна:

Поскольку межгрупповая дисперсия близка к нулю, то мы можем сделать вывод, что оценки одной группы (10 «А» класса) в малой степени отличаются от оценок второй группы (10 «Б» класса). Иными словами, с точки зрения межгрупповой дисперсии рассмотренные группы в незначительной степени отличаются по заданному признаку.

Если общая выборка (например, класс учеников) разбита на несколько групп, то помимо межгрупповой дисперсии можно рассчитать ещё внутригрупповую дисперсию . Такая дисперсия является средней величиной для всех групповых дисперсий.

Внутригрупповая дисперсия D внгр рассчитывается по формуле:

где k – количество групп в общей выборке, D i – дисперсия i -ой группы объёма n i .

Существует взаимосвязь между общей (D в ), внутригрупповой ( D внгр ) и межгрупповой ( D межгр ) дисперсиями:

D в = D внгр + D межгр .

Вам также будет интересно:

Цп автоматизированные системы управления и промышленная безопасность Наука как социальный институт государства
Наука как соц. институт – сфера чел. деятельности, целью которой явл. изучение предметов и...
Какое значение имеет Антарктида?
Потребность мировой экономики в минеральных ресурсах будет только расти. На этом фоне,...
Особенности строения генов у про- и эукариот
Ген - структурная и функциональная единица наследственности, контролирующая развитие...
Взаимодействие тел — Гипермаркет знаний
Взаимодействие тел «Ключом ко всякой науке является вопросительный знак» Оноре де...
Что означают Советские имена: толкование и история происхождения Имена после революции 1917
Имена советского происхождения - личные имена, бытующие в языках народов бывшего СССР,...