Центральная предельная теорема и трансформация данных | Бережливые шесть сигм | Тематический раздел | База знаний | SixSigmaOnline.ru

Опубликовано: 06.09.2018

Есть целый класс теорем в теории вероятностей, которые объединяют под общим названием “центральной предельной теоремы” (Centarl Limit Theorem). Все эти теоремы гласят, что сумма большого количества независимых случайных величин имеет распределение, близкое к нормальному. И благодаря всем этим теоремам, практики шести сигм имеют возможность трансформировать любое распределение в нормальное.


Предельные теоремы статистики, или куда сходятся действительно большие данные, Александр Черноокий

Хотите это проверить? Тогда следуйте пошаговому алгоритму ниже:

Запустите Minitab . Выберите Random Data в меню Calc. Выберите любое распределение из списка (кроме нормального, разумеется) В этом примере я буду использовать равномерное – Uniform; Сгенерируйте 1000 значений с параметрами по умолчанию:

Выберите Stat > Basic Statistics > Graphical Summary и задайте столбец C1 в поле Variables. Нажмите OK:

Обратите внимание:

Гистограмма совершенно не соответствует наложенной кривой нормального распределения. Тест Андерсона-Дарлинга свидетельствует об отличии закона распределения от нормального (P-Value < 0.005).

Если верить центральной предельной теореме, то распределение средних значений подгрупп, в отличие от распределения индивидуальных значений, будет подчиняться нормальному закону распределения. Давайте проверим это.

Нам потребуется сгруппировать данные. Для этого:

В меню Calc > Make Patterned Data выберите Simple Set of Numbers; Чтобы сгруппировать все значения по 10, внесите в диалоговое окно следующие настройки и нажмите OK:

Теперь в колонке C2 проставлены атрибуты – номера подгрупп. Далее нам предстоит рассчитать для каждой подгруппы среднее арифметическое значение. Для этого:

В меню Stat > Basic Statistics выберите Store Descriptive Statistics; В диалоговое окно внесите следующую информацию и нажмите OK:

После проделанных манипуляций на листе должны появиться новые колонки:

В колонке Mean1 находятся средние арифметические значения каждой подгруппы. Попробуем построить графическую сводку для этой колонки:

Выберите Stat > Basic Statistics > Graphical Summary и задайте столбец C4 в поле Variables. Нажмите OK:

Обратите внимание:

Форма гистограммы напоминает перевернутый колокол. Тест Андерсона-Дарлинга свидетельствует о согласии закона распределения с нормальным (P-Value = 0.230).

Попробуйте провести эксперимент, сгруппировав другое количество наблюдений, или используйте онлайн симулятор , чтобы проверить, действует ли центральная предельная теорема на другие виды распределений.

rss