histogram.JPG

Сегодня, говоря о статистике, я буду обсуждать гистограммы. Вообще говоря, гистограмма является наглядным отображением метода группировки, то есть распределения множества результатов измерений какой-либо величины по группам, в соответствии с существенным для данной группы признаком. Методы группировки широко применяются для обработки первичных данных.

Под первичными данными в статистике мы понимаем статистические ряды, которые называют рядами динамики, если речь идет об изменении явления во времени, либо рядами распределения, если речь идет о составе или структуре исследуемого явления.

Если речь идет о рядах, построенных на основе качественных признаков (например, предприятия по формам собственности), то такие ряды называются атрибутивными, если ряды построены по количественным признакам (например, предприятия по объему товарооборота), то они называются вариационными.

В зависимости от прерывности вариации признака различают дискретные и интервальные вариационные ряды.

Гистограмма представляет собой столбчатый график, построенный по полученным данным, которые разбиваются на несколько групп. Число данных, попавших в каждую группу (частота), выражается высотой столбика, соответствующего данной группе.

Гистограмму можно строить для любых рядов, при этом, если это атрибутивный либо дискретный вариационный ряд (например, число рабочих в каждом тарифном разряде), то число выделяемых групп равно числу вариантов значений признака. В случае же интервального вариационного ряда число групп будет зависеть от величины интервала, используемого для группировки данных.

Интервал — разница между максимальным и минимальным значениями признака в каждой группе. Понятно, что чем больше групп, тем меньше интервал и наоборот. Группы в таком случае иногда называют также классами интервалов.

Например, можно разбить полученные данные о численности рабочих на предприятиях на следующие группы:
до 25 человек,
25–50 человек,
50–100 человек,
свыше 100 человек.

Тогда гистограмма будет содержать 4 столбика, высота которых будет соответствовать числу предприятий попавших в данную группу.
Заметим, кстати, что вышеприведенное распределение является примером использования неравных интервалов, выделенных, что называется, программой исследования, т. е. нами самими.

Вопрос выбора величины интервала (числа групп), используемого для группировки элементов интервального вариационного ряда, далеко не праздный. Помимо того, что гистограмма является отличным средством визуализации данных, она также является ни чем иным, как приближением функции распределения вероятности (см. картинку). Т. е. величина столбика каждой группы показывает вероятность того, что следующее значение измеряемой величины попадет в данную группу.

Слишком большое число групп может дать слишком «скачущий» график, слишком малое – слишком «сглаженный». В идеале, очевидно, хотелось бы иметь число групп, дающее наименьшее отклонение от функции распределения вероятности, т. е. позволяющее дать наиболее точную оценку настоящей функции распределения вероятности изучаемого явления.

В общем, математики этим занялись.

Первым, по всей видимости, был Стерджесc (Sturges, 1926). Он рассмотрел идеализированную частотную гистограмму из k классов, где i-ое значение было равно биномиальному коэффициенту \left( \begin{matrix} k-1 \\ i \end{matrix} \right). При достаточно больших k форма гистограммы приближалась к форме нормального распределения. Сумма всех значений была равна
n = \sum_1^{k-1} \left( \begin{matrix} k-1 \\ i \end{matrix} \right) = 2^{k-1}.

Таким образом, для n результатов измерений величины, подчиняющейся нормальному распределению, число классов, используемых при построении гистограммы следует брать как k = 1 + log_2n и форма полученной гистограммы будет приближаться к форме нормального распределения для достаточно большого k. Это и есть формула Стерджесса. В этом виде она попала практически во все учебники по статистике.

Формула эта в настоящее время подвергается критике как раз за то, что она явным образом использует биномиальное распределение для аппроксимации нормального распределения, что не всегда применимо. Считается, что эта формула позволяет строить удовлетворительные гистограммы при числе измерений менее 200.

Существует целый ряд альтернативных формул, некоторые из которых вычисляют длину интервала, после чего определяется число требуемых классов (см. здесь).

Рассмотрим пару таких формул:

Формула Скотта (Scott, 1979)
h=3.5sn^{-1/3}, где h — длина интервала, s — стандартное отклонение значений ряда измерений

Формула Фридмана Диакониса (Freedman and Diaconis, 1981)
h=2(IQ)n^{-1/3}, где h — длина интервала, (IQ) — разница между верхним и нижним квартилем.

Эти формулы довольно просты и обоснованы статистической теорией, и считаются предпочтительнее формулы Стерджесса.

Калькулятор ниже использует в качестве результатов измерений результаты генератора случайных чисел, встроенного в Javascript.
Поскольку функция распределения генератора практически постоянная, случайное число, полученное от генератора, можно дополнительно модифицировать, выбрав в поле «Функция ...» что-нибудь интересное. Собственно, это позволит наблюдать более веселые графики, вместо практически прямой линии.

Помимо построения гистограммы с использованием числа классов, полученных по формуле Стерджесса, строятся гистограммы с числом классов по Скотту и Фридману/Диаконису, а также с числом классов, произвольно заданных пользователем.

Конечно, практического применения в этом калькуляторе никакого, но зато можно посмотреть на разницу в числе классов и внешний вид гистограммы.

Формула Стерджесса и другие способы определения числа групп при построении гистограммыCreative Commons Attribution/Share-Alike License 3.0 (Unported)
0.12345678901234567890
 
Группировка с использованием формулы Стерджесса
 
 
 
Скотт
 
 
 
Фридман/Диаконис
 
Группировка с использованием своего числа классов