Критерий согласия Пирсона - Математика - Математика - Каталог статей

Главная » Статьи » Математика » Математика

Критерий согласия Пирсона

Словарь-справочник по психодиагностике

Критерий χ² (критерий согласия Пирсона) — характеристика распределения, используемая для проверки статистических гипотез. Под статистическим критерием подразумевается правило, обеспечивающее с определенной вероятностью принятие истинной или отклонение ложной гипотезы. В качестве критериев в математической статистике применяют определенные случайные величины, являющиеся функциями изучаемых случайных величин и чисел степеней свободы.

Одним из наиболее часто применяемых является К. χ² представляющий собой сумму квадратов отклонений эмпирических частот (р) от теоретических или ожидаемых (P’), отнесенную к теоретическим частотам:

$\chi^2=\sum_{i=1}^{k} \frac{(p-\quad p')^2}{\quad p'}$

При полном совпадении эмпирических и ожидаемых частот S(p - p’) = 0 .

При несовпадении производится сравнение эмпирической величины χ² с его критическим значением, определенным по таблицам . Нулевая гипотеза, которая предполагает, что расхождение между эмпирическими частотами и математическим ожиданием носит случайный характер и между вычисленными и эмпирическими частотами разницы нет, опровергается, если < math > χ² ≥ χ2kp</math> для принятого уровня значимости (α) и числа степеней свободы (df). В качестве примера проанализируем с помощью К. χ² распределение частот выбора ответа на закрытый пункт теста. Предлагаемые варианты неправильных ответов должны быть примерно равновероятны. При обследовании 100 человек, отвечающих на проверяемый пункт неверно, результаты распределились следующим образом (табл. 1).

Таблица 1

Распределение ошибочных ответов на репертуар закрытого задания теста у 100 обследованных

Показатель	Выбор ответа
Показатель	а	Ь	с	d	е
Частота в опыте (р)	22	18	29	21	10
Ожидаемая частота при равновероятном выборе ( $\quad p'$ )	20	20	20	20	20
Отклонение ( $p-\quad p'$ )	4	4	81	1	100

Вычисление

Степень свободы для данного случая $d f = n - 1 = 4$ (где n — число вариантов ответа). По табл. 3 (Основных статистических таблиц) для α = 0,01 и $d f = 4$ находим . Полученное значение $χ 2 = 9,5$ меньше табличного. Следовательно, при решении задачи может быть принята гипотеза о примерно равновероятном распределении выбора ответов а, b, с, d, е. При повторных случайных выборках вероятность ложного вывода составит 1%.

В качестве другого примера рассмотрим проверку нормальности распределения тестовых оценок (см. Оценка типа распределения). Исходные данные приведены в табл. 2, 3.

Число степеней свободы определяется в данном случае исходя из свойств нормального распределения $d f = k - 3$ (ограничения свободы вариации ). В результате объединения частот в крайних классах (см. ниже) число классов сократилось с 9 до 7, тогда $d f = 4$ . По таблице критических значений $χ 2$ для а = 0,05 находим , , Xследовательно, распределение тестовых оценок идет по нормальному закону, расхождения между эмпирическим и нормальным распределением случайны и несущественны.

Как видно из данного примера, для проверки гипотезы о законе распределения необходимо сопоставить эмпирические и расчетные теоретические частоты. Последние рассчитываются на основании эмпирических данных по формулам, описывающим тот или иной закон распределения вероятностей. Так, для проверки нормальности распределения теоретические частоты рассчитываются по формуле:

где P’ — теоретически вычисленные или ожидаемые частоты эмпирического ряда, f(z) — значение функции нормированного отклонения, n — общее число наблюдений, λ — величина классового интервала или промежуток между соседними классами эмпирического ряда, $S x$ — среднее квадратичное отклонение эмпирического ряда.

Для приведенного выше примера расчет сводится к нормированию эмпирического ряда, т. е. отнесению отклонений $x i$ от средней x к величине $S x$ . Затем по табл. 1 (Основных статистических таблиц) определяются значения ординаты ноомальной кривой f(z) для каждого . Значения . Пример расчета приведен в таблице 3.

Таблица 2

Распределение частот первичных оценок по тесту

Первичная оценка	Частота		P-P’	(P-P’)
Первичная оценка	эмпирическая (p)	теоретическая ( $\quad{p'}$ )	P-P’	(P-P’)
11			0,4	0,16	0,01
12
13	31	34,3	3,3	10,89	0,32
14	71	67,8	3,2	10,24	0,15
15	82	77,6	4,4	19,36	0,25
16	46	51,2	5,2	27,04	0,53
17			0,5	0,25	0,01
18			1,0	1,0	0,20
19	1	0,6
-			—	—	$χ 2 = 1,47$

Таблица 3

Расчет теоретических частот, соответствующих нормальному распределению первичных тестовых оценок

Оценка теста	Эмпирическая частота (р)			$f (z)$	Теоретическая частота
11	3	-3,74	-2,77	0,0086	1,6
12	9	-2,74	-2,03	0,0508	10,0
13	31	-1,74	-1,29	0,1736	34,3
14	71	-0,74	-0,55	0,3429	67,8
15	82	0,26	0,19	0,3918	77,6
16	46	1,26	0,93	0,2589	51,2
17	19	2,26	1,67	0,0989	19,5
18	5	3,26	2,41	0,0219	4,4
19	1	4,26	3,15	0,0028	0,6
—		—	—	—

К. $χ 2$ можно использовать для сравнения эмпирических рядов с частотами, распределенными по одним и тем же классам. В этом случае применяется формула:

где $n 1, n 2$ — объемы сравниваемых выборок, $p 1, p 2$ — частоты первого и второго рядов. Нулевая гипотеза сводится к тому, что сравниваемые выборки взяты из одной и той же совокупности генеральной и, следовательно, несовпадение между частотами $p 1, p 2$ носит случайный характер.

К. $n 1, n 2$ обычно используется для проверки гипотез о соответствии (согласии) эмпирического распределения теоретическому (см. приведенные выше примеры), при проверке гипотез о статистической независимости признаков (при x² > x²kp предложение об отсутствии связи между признаками отвергается). Теснота связи может быть рассчитана с помощью коэффициента сопряженности Пирсона (см. Корреляция качественных признаков), при подтверждении гипотезы об однородности распределения признаков в разных совокупностях (в этом случае нулевая гипотеза формулируется как предположение о сходстве распределения признака в двух генеральных совокупностях, из которых взяты независимые выборки объемами $n m, n k$ ):

Преимуществами К. $χ 2$ являются применимость его для различных распределений дискретных и непрерывных признаков, необязательность предварительных сведений о законе распределения изучаемой переменной. При использовании К. $χ 2$ следует учитывать такие ограничения:

сравниваемые выборки должны быть получены из независимых наблюдений;

минимальное значение эмпирической частоты не должно быть менее 10, теоретической — менее 5.

Если это требование не выполняется, необходимо увеличить объем выборки или объединить интервалы группировки, суммируя их частоты (см. выше пример сравнения эмпирического и нормального распределения).