Статистика в А / Б тестах

  1. Понимание основ - как оптимизировать конверсии
  2. Что определяет статистическую значимость
  3. Перевод статистических концепций в конверсионную оптимизацию
  4. пример
  5. суммирование
  6. Автор: Мариуш

Вы когда-нибудь задумывались, на чем основаны статистические теории? Google Analytics эксперименты Каковы следующие Оптимизатор веб-сайта Google? Недавно я не встал и начал выяснять, как инструмент оценивает, можно ли считать результат данного теста статистически значимым или нет. Она пошла на первый огонь Техническая спецификация Google Website Optimizer но, к сожалению, я не нашел конкретного ответа на вопрос, который меня беспокоит.

Поэтому я решил открыть учебники и найти теорию, на которой основана оптимизация сайтов для конверсии. Я не говорю, что это решение используется в Оптимизаторе веб-сайтов, но благодаря ему вы определенно сможете объяснить статистические основы тестов оптимизации. Я подозреваю, что, как и в случае статьи о статистической основе для функционирования оповещений в Google Analytics этот пост будет любопытством для вас. Я также не скрываю, что рассчитываю на комментарии (особенно людей, которые более «статистичны») по поводу моего открытия :)

Понимание основ - как оптимизировать конверсии

Как вы хорошо знаете, коэффициент конверсии - это отношение количества пользователей, которые выполнили запланированное действие (они купили продукт, отправили форму запроса, подписались на рассылку), к количеству всех пользователей. Этот показатель выражается в процентах и ​​не может быть более 100% по простым причинам.

Оптимизация сайтов для конверсии - это действие или набор действий, направленных на повышение конверсии. Его эффект заключается в том, что сайт конвертирует не 3 из 100 пользователей, а 6 из 100, то есть он в два раза лучше обменивает посетителей на клиентов. Более того, нет предела конверсии (конечно, он не может быть больше 100%), но чем дальше вы идете в лес, тем сложнее. Существует много аспектов коэффициента конверсии, мы описали их в наша эвристическая оценка сайта ,

Задача инструментов, используемых для тестирования сайтов на конверсию, состоит в том, чтобы выбрать выигрышную копию страницы, которая характеризуется более высоким коэффициентом конверсии.

Мой вопрос, на который я искал ответ, - на каком основании выбирается победившая версия? Все сомнения, которые у меня были относительно стадии тестирования, можно закрыть двумя вопросами:

  • Коэффициент конверсии тестируемой копии выше?
  • Можно ли считать результат статистически значимым на основании проведенных испытаний?

Стоит отметить, что только ответ на второй вопрос позволит нам однозначно пройти тест. Хорошо, если коэффициент конверсии выше, если мы не уверены, является ли эта разница статистически существом.

Что определяет статистическую значимость

Цитировать для используя Google AdWords :

Статистически значимым отличием является тот случай, случайное появление которого маловероятно.

В более общем смысле можно сказать, что статистически значимым результатом является тот, который был протестирован на основе теста (меньшая выборка) с определенной (обычно высокой) вероятностью в реальности (во всей совокупности), т.е. мы можем быть уверены, что результат теста будет преобразован в реальность.

Что, следовательно, может определить статистическую значимость теста оптимизации?

Безусловно, это количество людей, которые участвуют в эксперименте (статистическая выборка). Чем больше людей "подтверждают" в = = "" phase = "" tests, = "" that = "" data = "" copy = "" page = "" is = "" характеризуется = "" = "" more = " "Коэффициент =" "преобразование, =" "в том числе =" "больше =" "вероятный, =" "да =" "будет =" "истина. <=" "P =" ">
используя Google AdWords :

Статистически значимым отличием является тот случай, случайное появление которого маловероятно.

В более общем смысле можно сказать, что статистически значимым результатом является тот, который был протестирован на основе теста (меньшая выборка) с определенной (обычно высокой) вероятностью в реальности (во всей совокупности), т.е. мы можем быть уверены, что результат теста будет преобразован в реальность.

Что, следовательно, может определить статистическую значимость теста оптимизации?

Безусловно, это количество людей, которые участвуют в эксперименте (статистическая выборка). Чем больше людей "подтверждают" в = = "" phase = "" tests, = "" that = "" data = "" copy = "" page = "" is = "" характеризуется = "" = "" more = " "Коэффициент =" "преобразование, =" "в том числе =" "больше =" "вероятный, =" "да" "" будет = "" реальность. <= "" P = ""> Однако мы не можем ждать бесконечно В эксперименте приняло участие как можно больше людей - тест должен длиться не более месяца. Мы должны как можно скорее решить, какая сторона принесет нам больший доход, и немедленно реализовать его. Вот почему знание о том моменте, когда результат является статистически значимым, так важно.

используя Google AdWords :

Статистически значимым отличием является тот случай, случайное появление которого маловероятно.

В более общем смысле можно сказать, что статистически значимым результатом является тот, который был протестирован на основе теста (меньшая выборка) с определенной (обычно высокой) вероятностью в реальности (во всей совокупности), т.е. мы можем быть уверены, что результат теста будет преобразован в реальность.

Что, следовательно, может определить статистическую значимость теста оптимизации?

Безусловно, это количество людей, которые участвуют в эксперименте (статистическая выборка). Чем больше людей "подтверждают" в = = "" phase = "" tests, = "" that = "" data = "" copy = "" page = "" is = "" характеризуется = "" = "" more = " "Коэффициент =" "преобразование, =" "в том числе =" "больше =" "вероятный, =" "да =" "будет =" "истина. <=" "P =" ">

используя Google AdWords :

Статистически значимым отличием является тот случай, случайное появление которого маловероятно.

В более общем смысле можно сказать, что статистически значимым результатом является тот, который был протестирован на основе теста (меньшая выборка) с определенной (обычно высокой) вероятностью в реальности (во всей совокупности), т.е. мы можем быть уверены, что результат теста будет преобразован в реальность.

Что, следовательно, может определить статистическую значимость теста оптимизации?

Безусловно, это количество людей, которые участвуют в эксперименте (статистическая выборка). Чем больше людей "подтверждают" в = = "" phase = "" tests, = "" that = "" data = "" copy = "" page = "" is = "" характеризуется = "" = "" more = " "Коэффициент =" "преобразование, =" "в том числе =" "больше =" "вероятный, =" "да =" "будет =" "истина. <=" "P =" ">

используя Google AdWords :

Статистически значимым отличием является тот случай, случайное появление которого маловероятно.

В более общем смысле можно сказать, что статистически значимым результатом является тот, который был протестирован на основе теста (меньшая выборка) с определенной (обычно высокой) вероятностью в реальности (во всей совокупности), т.е. мы можем быть уверены, что результат теста будет преобразован в реальность.

Что, следовательно, может определить статистическую значимость теста оптимизации?

Безусловно, это количество людей, которые участвуют в эксперименте (статистическая выборка). Чем больше людей "подтверждают" в = = "" phase = "" tests, = "" that = "" data = "" copy = "" page = "" is = "" характеризуется = "" = "" more = " "Коэффициент =" "преобразование, =" "в том числе =" "больше =" "вероятный, =" "да =" "будет =" "истина. <=" "P =" ">

используя Google AdWords :

Статистически значимым отличием является тот случай, случайное появление которого маловероятно.

В более общем смысле можно сказать, что статистически значимым результатом является тот, который был протестирован на основе теста (меньшая выборка) с определенной (обычно высокой) вероятностью в реальности (во всей совокупности), т.е. мы можем быть уверены, что результат теста будет преобразован в реальность.

Что, следовательно, может определить статистическую значимость теста оптимизации?

Безусловно, это количество людей, которые участвуют в эксперименте (статистическая выборка). Чем больше людей "подтверждают" в = = "" phase = "" tests, = "" that = "" data = "" copy = "" page = "" is = "" характеризуется = "" = "" more = " "Коэффициент =" "преобразование, =" "в том числе =" "больше =" "вероятный, =" "да =" "будет =" "истина. <=" "P =" ">

Перевод статистических концепций в конверсионную оптимизацию

используя Google AdWords :

Статистически значимым отличием является тот случай, случайное появление которого маловероятно.

В более общем смысле можно сказать, что статистически значимым результатом является тот, который был протестирован на основе теста (меньшая выборка) с определенной (обычно высокой) вероятностью в реальности (во всей совокупности), т.е. мы можем быть уверены, что результат теста будет преобразован в реальность.

Что, следовательно, может определить статистическую значимость теста оптимизации?

Безусловно, это количество людей, которые участвуют в эксперименте (статистическая выборка). Чем больше людей "подтверждают" в = = "" phase = "" tests, = "" that = "" data = "" copy = "" page = "" is = "" характеризуется = "" = "" more = " "Коэффициент =" "преобразование, =" "в том числе =" "больше =" "вероятный, =" "да =" "будет =" "истина. <=" "P =" "> используя Google AdWords :

Статистически значимым отличием является тот случай, случайное появление которого маловероятно.

В более общем смысле можно сказать, что статистически значимым результатом является тот, который был протестирован на основе теста (меньшая выборка) с определенной (обычно высокой) вероятностью в реальности (во всей совокупности), т.е. мы можем быть уверены, что результат теста будет преобразован в реальность.

Что, следовательно, может определить статистическую значимость теста оптимизации?

Безусловно, это количество людей, которые участвуют в эксперименте (статистическая выборка). Чем больше людей "подтверждают" в = = "" phase = "" tests, = "" that = "" data = "" copy = "" page = "" is = "" характеризуется = "" = "" more = " "Коэффициент =" "преобразование, =" "в том числе =" "больше =" "вероятный, =" "да =" "будет =" "истина. <=" "P =" "> используя Google AdWords :

Статистически значимым отличием является тот случай, случайное появление которого маловероятно.

В более общем смысле можно сказать, что статистически значимым результатом является тот, который был протестирован на основе теста (меньшая выборка) с определенной (обычно высокой) вероятностью в реальности (во всей совокупности), т.е. мы можем быть уверены, что результат теста будет преобразован в реальность.

Что, следовательно, может определить статистическую значимость теста оптимизации?

Безусловно, это количество людей, которые участвуют в эксперименте (статистическая выборка). Чем больше людей "подтверждают" в = = "" phase = "" tests, = "" that = "" data = "" copy = "" page = "" is = "" характеризуется = "" = "" more = " "Коэффициент =" "преобразование, =" "в том числе =" "больше =" "вероятный, =" "да =" "будет =" "истина. <=" "P =" "> используя Google AdWords :

Статистически значимым отличием является тот случай, случайное появление которого маловероятно.

В более общем смысле можно сказать, что статистически значимым результатом является тот, который был протестирован на основе теста (меньшая выборка) с определенной (обычно высокой) вероятностью в реальности (во всей совокупности), т.е. мы можем быть уверены, что результат теста будет преобразован в реальность.

Что, следовательно, может определить статистическую значимость теста оптимизации?

Безусловно, это количество людей, которые участвуют в эксперименте (статистическая выборка). Чем больше людей "подтверждают" в = = "" phase = "" tests, = "" that = "" data = "" copy = "" page = "" is = "" характеризуется = "" = "" more = " "Коэффициент =" "преобразование, =" "в том числе =" "больше =" "вероятный, =" "да =" "будет =" "реальность. <=" "P =" "> В статистике есть понятие, известное как фракция ( частота, пропорция). В пользу Википедия это отношение числа наблюдений, обладающих определенным свойством, к размеру всей статистической выборки .

Мы видим, что коэффициент конверсии является ничем иным, как дробью - в конце концов, количество наблюдений с определенным свойством соответствует количеству пользователей, которые предприняли запланированное действие (они приобрели продукт, отправили форму запроса предложения, подписались на рассылку), а размер всей выборки - ничто кроме количества всех пользователей, посетивших наш сайт.

Исходя из этого, я обнаружил, что наиболее подходящим тестом для проверки статистической значимости разницы в коэффициентах конверсии (разница в доле, пропорции) будет

Википедия это отношение числа наблюдений, обладающих определенным свойством, к размеру всей статистической выборки .

Мы видим, что коэффициент конверсии является ничем иным, как дробью - в конце концов, количество наблюдений с определенным свойством соответствует количеству пользователей, которые предприняли запланированное действие (они приобрели продукт, отправили форму запроса предложения, подписались на рассылку), а размер всей выборки - ничто кроме количества всех пользователей, посетивших наш сайт.

Исходя из этого, я обнаружил, что наиболее подходящий тест для проверки статистической значимости разницы в коэффициентах конверсии (разница фракций, пропорции) будет зависеть от того, какую альтернативу мы выберем (у нас есть еще два варианта: «коэффициент конверсии тестируемой страницы меньше» или просто «коэффициенты»). конверсия проверенных и текущих копий различна ») используется другой шаблон статистики теста, который позволит нам принять решение о проверке (можем ли мы отклонить нулевую гипотезу).

Википедия это отношение числа наблюдений, обладающих определенным свойством, к размеру всей статистической выборки .

Мы видим, что коэффициент конверсии является ничем иным, как дробью - в конце концов, количество наблюдений с определенным свойством соответствует количеству пользователей, которые предприняли запланированное действие (они приобрели продукт, отправили форму запроса предложения, подписались на рассылку), а размер всей выборки - ничто кроме количества всех пользователей, посетивших наш сайт.

Исходя из этого, я обнаружил, что наиболее подходящим тестом для проверки статистической значимости разницы в коэффициентах конверсии (разница в доле, пропорции) будет
Википедия это отношение числа наблюдений, обладающих определенным свойством, к размеру всей статистической выборки .

Мы видим, что коэффициент конверсии является ничем иным, как дробью - в конце концов, количество наблюдений с определенным свойством соответствует количеству пользователей, которые предприняли запланированное действие (они приобрели продукт, отправили форму запроса предложения, подписались на рассылку), а размер всей выборки - ничто кроме количества всех пользователей, посетивших наш сайт.

Исходя из этого, я обнаружил, что наиболее подходящий тест для проверки статистической значимости разницы в коэффициентах пересчета (разности долей, пропорций) будет зависеть от того, будет ли расчетное (тестовое) значение больше или ниже критического значения теста (см. В таблицах стандартного нормального распределения по адресу на основе характеристик образца и типа альтернативной гипотезы). Решение о проверке принимается на основе сравнения значения вычисленной статистики и критического значения теста, считанного из таблиц (мы также можем использовать соответствующий калькулятор ).

Нажмите на картинку, чтобы увеличить ее

Перед принятием решения о проверке (об отклонении или отсутствии оснований для отклонения нулевой гипотезы) мы также должны определить уровень значимости α (альфа), который говорит нам, с какой вероятностью будет принято данное решение. По умолчанию предполагается уровень значимости 5%, что означает, что у нас есть 95% вероятность принятия правильного решения о проверке, например, отклонение H0 в пользу H1.

Статистика теста рассчитывается по формуле:

Вы можете найти объяснение отдельных символов на странице Википедии для тест на пропорции - Я думаю, что перевод отдельных переменных на язык веб-аналитики не будет проблемой.

Вы наверняка заметили, что чем выше значение тестовой статистики, тем лучше для нас, потому что у нас больше шансов, что нулевая гипотеза будет отвергнута. Итак, давайте посмотрим, что влияет на размер этой меры:

  • разница между коэффициентами конверсии - в конце концов, p1 и p2 - это не что иное, как коэффициенты конверсии для отдельных копий страниц - чем больше разница, тем выше вычисленное значение статистики теста и тем больше вероятность того, что разница в коэффициентах конверсии статистически значима,
  • размер выборки, т. е. количество просмотров страниц отдельных копий страниц n1 и n2 - чем больше просмотров страниц, тем шире рассчитанная статистика, это также логично, поскольку чем больше людей участвует в эксперименте, тем больше вероятность того, что его результаты будут воплощены в реальность.

Есть также некоторые нюансы в тесте на пропорции (размер выборки, зависимость от теста, случайность и т. Д.), Что, безусловно, может включать более одной статьи. Представленный выше пункт является базовой версией. Я могу только добавить, что мы работаем над калькулятором, который будет учитывать всю теорию и ответит на вопрос, когда тест можно будет считать статистически значимым.

пример

По запросу я представляю пример вышеуказанного теста. Я принял обозначения, указанные в тесте A / B, упомянутом выше. мы получили следующие результаты:

Нулевая гипотеза: Коэффициенты пересчета (p1, p2) для обеих копий одинаковы : H0: p1 = p2

Альтернативная гипотеза: новые коэффициенты преобразования копии (p2) больше, чем для текущей версии целевой страницы : H1: p1 <p2

Вопрос: Можем ли мы сказать по данным, что результат теста является статистически значимым?

Расчетная статистика теста (после подстановки в формулу) составила 2,32, в то время как критическое значение теста при уровне значимости 5% составляет (путем чтения из таблиц или упомянутого калькулятора) 1,64. Мы видим, что вычисленное значение статистики борьбы превышает критическое значение, что позволяет нам отвергнуть нулевую гипотезу в пользу альтернативной гипотезы и сделать вывод, что копия B статистически значительно лучше, чем копия A. Я напомню вам, что мы уверены на 95%.

Однако, когда мы изменяем уровень значимости на 1%, критическое значение теста составляет 2,33, поэтому оно больше, чем значение рассчитанной статистики. В этом случае у нас нет оснований отвергать нулевую гипотезу, поэтому мы не можем сказать (с вероятностью 99%), является ли копия B лучше, чем копия A. Здесь следует подчеркнуть, что у нас нет оснований отклонять нулевую гипотезу, и мы не принимаем нулевую гипотезу.

Обратите внимание, что в примере не говорилось о продолжительности теста. Разумеется, одна служба будет обслуживать определенное количество посещений в день, а другая - неделю. Я предполагаю, однако, что владельцы сервисов, которые имеют 500 посещений в месяц, не принимают участие в тестировании.

Заданный вопрос может быть сформулирован по-другому, а именно, сколько людей должны видеть отдельные копии целевой страницы, чтобы различие в показателях конверсии можно было назвать статистически значимым.

суммирование

Я думаю, что суть вышеприведенных соображений может быть для нас очень важным наблюдением: на результат теста не влияет его продолжительность . Нам не нужно ждать вечно, когда результат статистически значим - и это не наша прихоть, а теория статистики :)

Однажды один человек настоял, чтобы тесты проводились как можно дольше. Аргумент был, среди прочего Дело в том, что по ее опыту результат теста резко изменился через определенное время. Однако, как я уже говорил, мы не можем ждать вечно. Мы вовсе не уверены, что после продолжения теста его результат не изменится на 180 градусов. Поэтому давайте определимся с изменениями на сайте, которые подтверждаются статистическими тестами - это не догадка, это достоверные данные, это цифры ...

Автор: Мариуш

Именно он отвечает за внедрение веб-аналитики у наших клиентов. Окончил Варшавскую школу экономики по специальности «Количественные методы в экономике и информационных системах». В настоящее время он борется за звание доктора :) Вы часто можете прочитать его статьи в нашем блоге и в отраслевой прессе. Ааа .. что-то еще - Мариуш следит за тем, чтобы работа проекта шла в соответствии с графиком, и поэтому он всем нам так нравится.



Мой вопрос, на который я искал ответ, - на каком основании выбирается победившая версия?
Можно ли считать результат статистически значимым на основании проведенных испытаний?
Что, следовательно, может определить статистическую значимость теста оптимизации?
Что, следовательно, может определить статистическую значимость теста оптимизации?
Что, следовательно, может определить статистическую значимость теста оптимизации?
Что, следовательно, может определить статистическую значимость теста оптимизации?
Что, следовательно, может определить статистическую значимость теста оптимизации?
Что, следовательно, может определить статистическую значимость теста оптимизации?
Что, следовательно, может определить статистическую значимость теста оптимизации?
Что, следовательно, может определить статистическую значимость теста оптимизации?