Intervalo de confiança em testes A/B: a variável subestimada para obter resultados válidos

Publicado em julho 14, 2025
Tabela de conteúdo

Um teste A/B funciona bem. A variante B parece melhor, até mesmo estatisticamente significativa. Decisão tomada, teste concluído.

Mas logo depois disso, o resultado é cancelado. O aprimoramento desaparece. O que deu errado?

Muitos se baseiam no valor p. Isso mostra apenas se uma diferença é provável. Não o grau de certeza do resultado.

Os intervalos de confiança ajudam nesse sentido. Eles mostram a estabilidade do resultado do teste e o grau de incerteza contido nele.

Sem esse entendimento, você tomará decisões que lhe custarão dinheiro mais tarde.

Tabela de conteúdo

Intervalo de confiança: o que ele realmente é e por que você precisa dele

Um intervalo de confiança informa a precisão da estimativa da taxa de conversão.

Exemplo: você testou 2.000 usuários, dos quais 82 converteram. Isso resulta em uma taxa de conversão de 4,1 %.

Uma ferramenta estatística calcula um intervalo de confiança de [3,3 % - 5,0 %], com um nível de confiança de 95 %.

Isso significa que, se você executar o mesmo teste 100 vezes com novos usuários, o resultado real estará dentro desse intervalo em cerca de 95 dessas execuções.

Qual é o nível de confiança?

O nível de confiança indica o quanto você pode ter certeza de que o intervalo contém o valor verdadeiro.
Na prática, o 95 % é quase sempre usado. Um bom compromisso entre segurança e eficiência.
Quanto mais alto for o nível, mais amplo será o intervalo, mas também mais cautelosa será sua avaliação.

Por que isso é importante

  • Um único valor percentual parece preciso, mas é apenas uma estimativa
  • Somente o intervalo mostra o grau de confiabilidade dessa estimativa
  • Quanto menor a amostra, maior a flutuação
  • Quanto maior o nível de confiança, mais conservadora é a avaliação

Como os intervalos de confiança validam os testes A/B

Imagine que você esteja testando duas variantes de uma página de destino:

  • Variante A: Conversão 4.1 %
  • Variante B: Conversão do 4.9 %

 

Sem mais informações, B parece ser a clara vencedora. Mas somente uma olhada nos intervalos de confiança mostra se você pode confiar nisso:

A: [3,6 % - 4,6 %]

B: [4,3 % - 5,5 %]

Os intervalos não se sobrepõem. Esse é um sinal forte: a melhoria provavelmente é real.

Outro cenário:

A: [3,6 % - 4,6 %]

B: [4,0 % - 5,3 %]

Agora há uma sobreposição. Isso significa que as duas variantes podem ter o mesmo desempenho. A diferença medida pode ter surgido por acaso. Uma decisão com base nisso seria arriscada.

Regra geral:

  • Nenhuma sobreposição → Decisão possível
  • Sobreposição → resultado incerto, ampliar o teste ou conjunto para mais bases de dados

O que isso traz para você

  • Você pode reconhecer se uma diferença é estatisticamente verificada ou se apenas parece existir
  • Você não apenas toma decisões mais rapidamente, mas também com maior qualidade
  • Você reduz o risco de investir recursos em uma variante supostamente melhor

As zonas de risco subestimadas: Nível de confiança, erros de 1º e 2º tipos

Um teste A/B mostra um nível de confiança de 95 %. Parece confiável, mas o que isso significa exatamente?

Isso significa que se você realizar o mesmo teste cem vezes com outros visitantes, o resultado real estará dentro do intervalo de confiança calculado em cerca de 95 casos. Em cinco casos, no entanto, não estará. Esses cinco por cento correspondem à probabilidade de erro que você considera em cada teste. Esse é o chamado erro do primeiro tipo.

Erro 1. type: Você acha que um resultado aleatório é real

Um exemplo:

  • Variante A: conversão de 4,1 % (820 conversões com 20.000 visitantes)
  • Variante B: conversão de 4,6 % (920 conversões com 20.000 visitantes)
  • p-valor: 0,045
  • Intervalos de confiança:
    A: [3.8 % - 4,4 %]
    B: [4,3 % - 4.9 %]

Isso parece convincente. B parece melhor, pois os intervalos quase não se sobrepõem. No entanto, o resultado pode ter surgido por acaso. Nesse caso, a decisão estaria errada, embora o teste estivesse formalmente correto.

Por quê? Os dois intervalos de confiança estão próximos um do outro. A variante A termina em 4,4 % e a variante B começa em 4,3 %. Essa diferença mínima pode ter surgido por acaso. Na realidade, ambas as variantes poderiam ter o mesmo desempenho. O método reconhece a "significância", mas não a incerteza por trás do resultado. Esse é exatamente o primeiro tipo de erro: você acredita que uma variante é melhor, embora o efeito não seja confiável.

Erro 2: você ignora uma variante realmente melhor

Outro cenário:

  • Variante A: 4,1 por cento (123 conversões com 3.000 visitantes)
  • Variante B: 4,8% (144 conversões com 3.000 visitantes)
  • Valor de p: 0,12
  • Intervalos de confiança:
    A: [3,4 % - 4,9 %]
    B: [4,0 % - 5,7 %]

Os valores da variante B são melhores, mas os intervalos de confiança se sobrepõem significativamente. O limite superior de A é de 4,9% e o limite inferior de B é de 4,0%. Isso significa que a diferença não é clara o suficiente.

Por que esse é um segundo tipo de erro?

Porque, embora o efeito exista, ele não é estatisticamente verificável. Pelo menos não com essa quantidade de dados. O poder do teste não é suficiente para tornar a diferença visível. Você rejeita a variante B, embora ela seja realmente melhor. O erro não está na interpretação, mas no banco de dados inadequado.

Nesses casos, apenas uma coisa ajuda: Estenda a duração do teste, colete mais dados ou tome sua decisão com base em critérios adicionais. Esses critérios podem ser, por exemplo, o tamanho do efeito, o impacto nos negócios ou a experiência anterior. Se você chegar a uma conclusão generalizada de "não significativo", muitas vezes perderá oportunidades reais.

Como planejar o tempo de execução do teste e o tamanho da amostra com intervalos de confiança

Muitos testes A/B são encerrados muito cedo. Um valor atinge o limite de significância, as taxas de conversão parecem boas e o experimento é cancelado. Mas, sem observar o intervalo de confiança, não fica claro o quanto o resultado é realmente estável. Se você decidir muito rapidamente, corre o risco de ter declarações tendenciosas e medidas priorizadas incorretamente.

O que influencia a largura do intervalo de confiança?

Um intervalo de confiança se torna mais estreito quanto mais dados são coletados.
Três fatores são decisivos:

  1. Tamanho da amostra: Mais usuários levam a menos ruído estatístico
  2. Estabilidade das taxas de conversão: Grandes flutuações aumentam o intervalo
  3. Nível de confiança: Um nível mais alto significa um intervalo maior
Quanto menor for a diferença que você deseja medir, mais visitantes serão necessários para obter um resultado confiável.

Exemplo: Como a diferença esperada influencia seu planejamento

Você espera uma melhora de cerca de 1,5 ponto percentual.
Qual deve ser o tamanho de sua amostra por variante?

  • Em 4.0 % vs. 5.5 %: aproximadamente 3.500 visitantes por variante
  • Em 4.0 % vs. 4.5 %: aproximadamente 19.000 visitantes por variante

Conclusão: Pequenos efeitos exigem grandes quantidades de dados. Se você subestimar isso, obterá intervalos de confiança que se sobrepõem consideravelmente e resultados nos quais não pode confiar.

Recomendações para a prática

Sempre planeje os testes de trás para frente: Determine o efeito mínimo que deseja provar e calcule o tamanho da amostra necessário a partir disso. Use uma calculadora de significância para isso. Não comece às cegas, mas com uma meta clara de duração, volume de dados e nível de confiança.

Testes A/B sem um planejamento de tamanho bem fundamentado geram apenas ruído estatístico em caso de dúvida.

Armadilhas práticas: os erros mais comuns ao pensar em intervalos de confiança

Embora os intervalos de confiança sejam conhecidos há muito tempo por muitos, eles geralmente são mal compreendidos ou mal aplicados na prática. Especialmente em testes cotidianos, ocorrem erros típicos de raciocínio que prejudicam enormemente a validade de um teste.

Equívoco 1: confundir intervalo de confiança com certeza

Um intervalo de [4,3 % - 5,1 %] em um nível de confiança de 95 % não significa que o valor verdadeiro esteja certamente dentro desse intervalo. Significa que em 5 de cada 100 casos o intervalo pode estar errado, mesmo que você tenha calculado tudo corretamente.

Equívoco 2: cancelar o teste assim que a significância for alcançada

Muitas ferramentas mostram um resultado "significativo" em um estágio inicial. Se você parar, corre o risco de sofrer um erro de 1º tipo. Um teste curto com uma amostra pequena é suscetível a valores discrepantes. Sem intervalos de confiança estáveis, toda decisão é prematura.

Equívoco 3: comparar intervalos de confiança como valores fixos

Uma diferença de 0,4 ponto percentual pode ser estatisticamente relevante ou irrelevante, dependendo da largura do intervalo. Se você observar apenas os valores médios e ignorar os intervalos, estará tomando decisões com base na precisão aparente.

Equívoco 4: estatisticamente significativo = praticamente relevante

Um efeito pode ser significativo, mas sem sentido em termos de conteúdo. Exemplo: diferença de 0,2 ponto percentual em uma amostra grande. Estatisticamente estável, mas pouco relevante em termos operacionais. Os intervalos de confiança ajudam a avaliar o efeito e o tamanho juntos.

Equívoco 5: Comparar diversas variantes sem personalização

Com testes de várias variantes, o risco de erros do primeiro tipo aumenta com cada variante adicional. Qualquer pessoa que compare intervalos de confiança sem correção aumenta inconscientemente a probabilidade de erro. Isso requer um ajuste estatístico adequado (por exemplo, correção de Bonferroni ou projeto de experimento controlado).

Conclusão e recomendações para a prática: Como usar as estatísticas para fazer testes melhores

Os intervalos de confiança não são um conhecimento adicional para os nerds da estatística. Eles são uma ferramenta fundamental para qualquer pessoa que queira analisar testes A/B de forma confiável e tomar decisões bem fundamentadas.

Aqueles que os ignoram estão voando às cegas. Aqueles que as utilizam corretamente não apenas reconhecem se um resultado é seguro, mas também quão seguro ele é e quão grande pode ser o efeito.

Três principais aprendizados

1. um único valor percentual não é suficiente
Sem um intervalo de confiança, não há estrutura para categorizar corretamente os resultados.

2. a importância por si só não é suficiente
Estatisticamente evidente não é igual a operacionalmente relevante. A largura do intervalo faz a diferença.

3. a qualidade do teste depende da preparação
Se você não fizer nenhum planejamento de tamanho, não poderá fazer nenhuma declaração confiável, mesmo com estatísticas limpas.

Três recomendações para a prática

1. verificar conscientemente os intervalos de confiança
Em cada relatório de teste, preste atenção à proximidade dos intervalos e se eles se sobrepõem.

2. realizar o planejamento do tamanho antes de iniciar o teste
Use uma calculadora para determinar o tamanho da amostra e o tempo de execução com base em suas expectativas.

3. não aceite os resultados da ferramenta sem verificá-los
Pergunte a si mesmo o que exatamente sua ferramenta mostra e como o cálculo é feito.

Aqueles que entendem os intervalos de confiança fazem testes com previsão e tomam decisões que funcionam.

Mais artigos sobre testes A/B

👉 Teste A/B: como funciona, dicas e soluções
Um guia abrangente com instruções em cinco etapas para testes A/B eficazes - da hipótese à avaliação.

👉 Teste de usuário: métodos, processos e métricas
Descubra como o feedback real do usuário leva a melhores decisões por meio de testes de usuários direcionados.

👉 Otimização eficaz por meio de testes multivariados
Saiba como testar vários elementos ao mesmo tempo para identificar a melhor combinação.

👉 Explicação dos testes A/A: Validação para dados confiáveis
Por que os testes A/A são importantes para validar sua configuração de teste e garantir a qualidade dos dados.

👉 10 sinais de alerta em testes A/B que você deve evitar
Os erros mais comuns nos testes A/B e como evitá-los.

👉 Teste A/B de Big Query
Como analisar com eficiência os testes A/B em nível de dados com o BigQuery e o Varify.io.

👉 Rastreamento no lado do servidor com GTM e GA4
Mais controle sobre seus dados por meio do rastreamento no lado do servidor com o Google Tag Manager e o GA4.

👉 Teste A/B para a Shopify: tudo o que você precisa saber
Estratégias inteligentes e dicas técnicas para testes A/B bem-sucedidos em lojas da Shopify.

👉 Teste A/B do WordPress
Como integrar efetivamente os testes A/B em seu site WordPress.

👉 Teste A/B de temas da Shopify
Otimização de temas do Shopify por meio de testes A/B direcionados para obter melhores taxas de conversão.

Steffen Schulz
Imagem do Autor
CPO Varify.io®
Compartilhe o artigo!

Aguarde,

Chegou a hora do Uplift

Receba nossos poderosos CRO Insights gratuitamente todos os meses.

Por meio deste documento, autorizo a coleta e o processamento dos dados acima com a finalidade de receber o boletim informativo por e-mail. Tomei conhecimento da política de privacidade e confirmo isso enviando o formulário.