Онлайн калькулятор: U-критерий Манна-Уитни

Как было указано в Two sample t-Test, применять t-критерий можно при соблюдении следующих предпосылок:

Две выборки получены независимо и случайным образом из исходной генеральной совокупности (совокупностей).
Шкала измерений для обеих выборок обладает свойствами шкалы равных интервалов.
Можно с достаточным основанием предполагать, что исходная генеральная совокупность (совокупности) имеет нормальное распределение.

Однако иногда данные не удовлетворяют второму и/или третьему требованию. Например, нет оснований полагать, что распределение является нормальным, или у вас нет шкалы равных интервалов — то есть нельзя предполагать, что расстояния между соседними значениями постоянны. Но вы всё же хотите выяснить, является ли различие между двумя выборками статистически значимым. В таких случаях можно использовать U-критерий Манна–Уитни — непараметрическую альтернативу t-критерию.

В статистике U-критерий Манна–Уитни (также называемый критерием Манна–Уитни–Уилкоксона (MWW), критерием суммы рангов Уилкоксона или критерием Уилкоксона–Манна–Уитни (WMW)) представляет собой непараметрический критерий для проверки нулевой гипотезы о том, что случайно выбранное значение из одной выборки с равной вероятностью окажется меньше или больше случайно выбранного значения из второй выборки¹, или $p(X<Y)=0.5$ . Тем не менее, он также применяется как замена t-критерия для независимых групп с нулевой гипотезой о том, что медианы двух генеральных совокупностей равны.

Кстати, на самом деле существуют два критерия — U-критерий Манна–Уитни и критерий суммы рангов Уилкоксона. Они были разработаны независимо и используют разные статистики, но статистически эквивалентны.

Предпосылки применения критерия Манна–Уитни:

Две выборки получены случайным и независимым образом;
Зависимая переменная по своей природе является непрерывной — в принципе (если не на практике) способной давать измерения с точностью до n-го знака после запятой;
Измерения в обеих выборках обладают свойствами как минимум порядковой шкалы, так что имеет смысл говорить о «больше», «меньше» и «равно».²

Как видно, данный непараметрический критерий не предполагает (и не требует), чтобы выборки были взяты из нормально распределённых генеральных совокупностей. Такие критерии также называют критериями, свободными от распределения.

Предостережение

Уже некоторое время известно, что на критерий Уилкоксона–Манна–Уитни негативно влияет неоднородность дисперсий при неравных объёмах выборок. Однако даже при равных объёмах выборок очень небольшие различия между дисперсиями генеральных совокупностей приводят к тому, что критерий Уилкоксона–Манна–Уитни для больших выборок становится слишком либеральным, то есть фактическая вероятность ошибки первого рода для этого критерия возрастает по мере увеличения объёма выборки.³.

Следовательно, необходимо помнить, что данный критерий корректен только при условии, что распределения двух генеральных совокупностей идентичны (включая однородность дисперсий), за исключением сдвига по уровню.

Метод

Данный метод заменяет исходные значения соответствующими им рангами. Благодаря этому некоторые результаты можно получить с помощью простых вычислений. Например, общая сумма рангов заранее известна из общего объёма выборки и равна $\frac{N*(N+1)}{2}$ . Следовательно, средний ранг равен $\frac{N*(N+1)}{2}*\frac{1}{N}=\frac{N+1}{2}$ .

Общая идея заключается в том, что если нулевая гипотеза верна и выборки не различаются значимо, то ранги в некоторой степени сбалансированы между выборками A и B, и средний ранг для каждой выборки должен приближаться к общему среднему рангу, а суммы рангов — приближаться к $\frac{n_A*(N+1)}{2}$ и $\frac{n_B*(N+1)}{2}$ соответственно.

Вычисления

Для выполнения критерия сначала необходимо вычислить величину, известную как U, для каждой выборки.

Для этого все значения из обеих выборок объединяются в единый набор, сортируются по величине, и каждому значению присваивается ранг (в случае совпадающих значений каждому из них присваивается средний ранг). Ранги изменяются от 1 до N, где N — сумма объёмов выборок $n_A$ и $n_B$ . Затем вычисляются суммы рангов для значений каждой выборки: $R_A$ и $R_B$ .

Теперь можно вычислить U по формулам:
$U_A=n_An_B+\frac{n_A(n_A+1)}{2}-R_A\U_B=n_An_B+\frac{n_B(n_B+1)}{2}-R_B$

Для малых объёмов выборок можно использовать табличные значения. Берётся минимальное из двух значений U, после чего оно сравнивается с критическим значением, соответствующим объёмам выборок и выбранному уровню значимости. В учебниках по статистике критические значения обычно приведены в таблицах для объёмов выборок до 20.

Для больших объёмов выборок можно использовать z-критерий. Показано, что статистика U имеет приближённо нормальное распределение, если объёмы обеих выборок не меньше 5 (некоторые источники указывают условие $n_A*n_B>20$ ⁴).

$z=\frac{U-\mu_U}{\sigma_U}$ ,
где
$\mu_U=\frac{n_An_B}{2}\ \sigma_U=\sqrt{\frac{n_An_B*(N+1)}{12}}$

В случае наличия связанных рангов формула для стандартного отклонения принимает вид:
$\sigma_U=\sqrt{\frac{n_An_B}{N(N-1)}*[\frac{N^3-N}{12}-\sum_{j=1}^g\frac{t_{j}^3-t_j}{12}]}$
где g — число групп связанных рангов, tj — количество связанных рангов в группе j.

Приведённый ниже калькулятор использует z-критерий. Разумеется, существует ограничение на объёмы выборок (обе выборки должны иметь объём не менее 5), но для реальных задач это, вероятно, не является существенным ограничением.

U-критерий Манна-Уитни

Выборка А

Выборка B

Показать ранжировку

Точность вычисления

Знаков после запятой: 2

Файл очень большой, при загрузке и создании может наблюдаться торможение браузера.

U-статистика для выборки A

U-статистика для выборки B

Математическое ожидание U

Стандартное отклонение U

Z-статистика (по модулю)

Уровень значимости для двусторонней (ненаправленной) гипотезы

Уровень значимости для односторонней (направленной) гипотезы

PLANETCALC Онлайн калькуляторы

U-критерий Манна-Уитни