• Como a Varify calcula a significância

    Tabela de conteúdo

    Curto e agradável

    O artigo explica como a Varify analisa estatisticamente os resultados dos testes. Por padrão, é usado um método frequentista com testes unilaterais, que mostra rapidamente se uma variante tem melhor desempenho. No Plano Pro, um método frequentista bilateral e um método bayesiano também estão disponíveis. O método bayesiano também exibe uma previsão de tempo de execução que estima quando a significância de 95 % é alcançada. Ele também explica por que tempos de execução mais longos e poucas métricas - especialmente em testes A/A - são importantes para evitar decisões erradas por acaso.

    Cálculo da significância em app.varify.io

    Por padrão, a Varify usa um método estatístico frequentista para avaliar os resultados do teste. Isso calcula a probabilidade de que uma diferença entre a variante e o original tenha ocorrido por acaso. Se o acaso puder ser excluído na medida do possível, a Varify exibirá a recíproca do valor p calculado - a chamada significância. Se esse valor for maior que 95 %, o resultado será exibido como significativo na ferramenta.

    Visão geral dos métodos estatísticos

    A Varify oferece três métodos estatísticos para análise de testes A/B. Os métodos disponíveis dependem do plano selecionado.

    Teste frequentista unilateral (padrão)

    Por padrão, a Varify usa dois testes estatísticos unilaterais estabelecidos:

    • Um teste qui-quadrado unilateral é usado para metas binomiais (por exemplo, taxa de cliques, taxa de conversão).
    • Para métricas de vendas ou de valor (por exemplo, valor médio do pedido, receita por visitante), é usado um teste t de Student unilateral.

    Esses testes unilaterais foram escolhidos deliberadamente. Eles fornecem resultados mais rapidamente porque calculam de forma menos conservadora do que os métodos de dois lados. Isso permite que você veja mais cedo se uma variante provavelmente terá um desempenho melhor.

    É claro que isso também tem um lado negativo: se um teste for executado por um período muito curto ou se muitas métricas forem analisadas ao mesmo tempo, a chance de um falso positivo aumenta, ou seja, um resultado que parece ser significativo, mas que na verdade foi apenas uma coincidência.

    Teste Frequentista de dois lados (Pro Plan)

    No Plano Pro, você pode alternativamente mudar para um método frequentista bilateral. São usados os mesmos testes estatísticos (qui-quadrado ou teste t de Student), mas em uma variante bilateral. A diferença: um teste bilateral não só verifica se uma variante é melhor, mas também se ela tem um desempenho pior. O método é mais conservador e geralmente requer mais dados para atingir a significância, mas fornece um resultado mais robusto em ambas as direções.

    Método Bayesiano (por plano)

    O método bayesiano também está disponível no Plano Pro. Diferentemente da abordagem frequentista, ele não calcula os valores de p, mas a probabilidade de uma variante ser melhor do que a original. Isso geralmente torna a interpretação dos resultados mais intuitiva.

    Uma vantagem adicional: com o método bayesiano, a Varify exibe uma previsão de tempo de execução que estima quando a significância de 95 % provavelmente será atingida. Isso permite que você estime melhor, durante o teste, quanto tempo o teste deve ser executado.

    Práticas recomendadas para obter resultados confiáveis

    Independentemente do método escolhido, é melhor testar por mais tempo para que os resultados se estabilizem e você possa avaliar com mais segurança se uma variante é realmente melhor.

    Para testes A/A em particular, é importante adicionar apenas alguns alvos. O acúmulo de erros alfa aumenta a probabilidade de um falso positivo com cada métrica adicional, ou seja, um suposto vencedor que não é de fato um vencedor.

    Práticas recomendadas para testes A/A:

    • Duração: pelo menos 10 dias
    • Pelo menos 500 conversões por variante
    • Adicione um máximo de 3 metas, concentrando-se no KPI principal
    • Os valores de significância que ocorrem no meio devem ser ignorados - o resultado final é o que conta. Essa é a única maneira de manter a taxa de falsos positivos baixa e os resultados realmente confiáveis.

    Cálculo próprio da significância usando uma calculadora de significância

    Verifique se há diferenças significativas em seus resultados de teste A/B. O Varify.io fornece a você uma calculadora de significância para essa finalidade. 

  • Primeiros passos