• Como a Varify calcula a significância

    Tabela de conteúdo

    Curto e agradável

    O artigo explica como a Varify analisa os resultados dos testes com um método frequentista usando testes de qui-quadrado e t unilaterais para detectar a significância mais rapidamente. Ele também explica por que tempos de execução mais longos e poucas métricas - especialmente em testes A/A - são importantes para evitar decisões erradas por acaso.

    Cálculo da significância em app.varify.io

    O Varify utiliza um sistema estatístico para avaliar os resultados dos testes. método frequentista. Ele calcula a probabilidade de que uma diferença entre a variante e o original tenha surgido por acaso. Se o acaso puder ser excluído na medida do possível, o Varify exibirá o valor recíproco do valor p calculado os chamados Importância. Isso é maior que 95 %, O resultado é exibido na ferramenta como significativo exibido.

    Para avaliar os resultados da maneira mais eficiente possível, a Varify usa dois testes estatísticos estabelecidos:

    • Para metas binomiais (por exemplo, taxa de cliques, taxa de conversão), um teste qui-quadrado unilateral usado.

    • Para métricas de vendas ou de valor (por exemplo, valor médio do pedido, receita por visitante) é usado para calcular um teste t de Student unilateral utilizado.

    Esses testes unilaterais são escolhidos deliberadamente. Eles fornecem resultados mais rápidos, porque calculam de forma menos conservadora do que os métodos de dois lados. Isso permite que os clientes vejam com antecedência se uma variante provavelmente terá um desempenho melhor.

    É claro que isso também tem um lado negativo: se um teste é muito curto ou várias métricas ao mesmo tempo analisada, a chance de uma chamada Falso positivo - ou seja, um resultado que parece ser significativo, embora na realidade tenha sido apenas uma coincidência.

    Portanto:
    👉 É melhor testar um pouco mais, para que os resultados se estabilizem e você possa avaliar de forma mais confiável se uma variante é realmente melhor.

    Especialmente para Testes A/A é importante apenas Poucos destinos para acrescentar. Por meio dos chamados Acumulação de erros alfa cada métrica adicional aumenta a probabilidade de que um Falso positivo em outras palavras, um suposto vencedor que não é realmente um vencedor.

    Práticas recomendadas para testes A/A:

    • Tempo de duração: pelo menos 10 dias

    • Pelo menos 500 conversões por variante

    • Máximo de 3 destinos com foco na KPI principal

    • Os valores de significância que ocorrem entre eles devem ser ignorado O resultado final é o que conta. Essa é a única maneira de manter a taxa de falsos positivos baixa e os resultados realmente confiáveis.

    Cálculo próprio da significância usando uma calculadora de significância

    Verifique se há diferenças significativas em seus resultados de teste A/B. O Varify.io fornece a você uma calculadora de significância para essa finalidade. 

  • Primeiros passos