Um teste A/B funciona bem. A opção B parece melhor, até mesmo estatisticamente significativa. Decisão tomada, teste concluído.
Mas logo depois disso, o resultado é cancelado. O aprimoramento desaparece. O que deu errado?
Muitos se baseiam no valor p. Isso mostra apenas se uma diferença é provável. Não o grau de certeza do resultado.
Os intervalos de confiança ajudam nesse sentido. Eles mostram a estabilidade do resultado do teste e o grau de incerteza contido nele.
Sem esse entendimento, você tomará decisões que lhe custarão dinheiro mais tarde.
Tabela de conteúdo
Intervalo de confiança: o que ele realmente é e por que você precisa dele
Um intervalo de confiança informa a precisão da estimativa da taxa de conversão.
Exemplo: você testou 2.000 usuários, dos quais 82 converteram. Isso resulta em uma taxa de conversão de 4,1 %.
Uma ferramenta estatística calcula um intervalo de confiança de [3,3 % - 5,0 %], com um nível de confiança de 95 %.
Isso significa que, se você executar o mesmo teste 100 vezes com novos usuários, o resultado real estará dentro desse intervalo em cerca de 95 dessas execuções.
Qual é o nível de confiança?
O nível de confiança indica o grau de certeza que você pode ter de que o intervalo contém o valor verdadeiro.
Na prática, quase sempre é usado 95 %. Um bom compromisso entre certeza e eficiência.
Quanto maior o nível, mais amplo será o intervalo, mas também mais cautelosa será a estimativa.
Por que isso é importante
- Um único valor percentual parece preciso, mas é apenas uma estimativa
- Somente o intervalo mostra o grau de confiabilidade dessa estimativa
- Quanto menor a amostra, maior a flutuação
- Quanto maior o nível de confiança, mais conservadora é a avaliação
Como os intervalos de confiança validam os testes A/B
Imagine que você esteja testando duas variantes de uma página de destino:
- Variante A: Conversão 4.1 %
- Variante B: Conversão do 4.9 %
Sem mais informações, B parece ser a clara vencedora. Mas somente uma olhada nos intervalos de confiança mostra se você pode confiar nisso:
A: [3,6 % - 4,6 %]
B: [4,3 % - 5,5 %]
Os intervalos não se sobrepõem. Esse é um sinal forte: a melhoria provavelmente é real.
Outro cenário:
A: [3,6 % - 4,6 %]
B: [4,0 % - 5,3 %]
Agora há uma sobreposição. Isso significa que as duas variantes podem ter o mesmo desempenho. A diferença medida pode ter surgido por acaso. Uma decisão com base nisso seria arriscada.
Regra geral:
- Nenhuma sobreposição → Decisão possível
- Sobreposição → resultado incerto, ampliar o teste ou conjunto para mais bases de dados
O que isso traz para você
- Você pode reconhecer se uma diferença é estatisticamente verificada ou se apenas parece existir
- Você não apenas toma decisões mais rapidamente, mas também com maior qualidade
- Você reduz o risco de investir recursos em uma variante supostamente melhor
As zonas de risco subestimadas: Nível de confiança, erros de 1º e 2º tipos
Um teste A/B mostra um nível de confiança de 95 %. Parece confiável, mas o que isso significa exatamente?
Isso significa que se você realizar o mesmo teste cem vezes com outros visitantes, o resultado real estará dentro do intervalo de confiança calculado em cerca de 95 casos. Em cinco casos, no entanto, não estará. Esses cinco por cento correspondem à probabilidade de erro que você considera em cada teste. Esse é o chamado erro do primeiro tipo.
Erro 1. type: Você acha que um resultado aleatório é real
Um exemplo:
- Variante A: conversão de 4,1 % (820 conversões com 20.000 visitantes)
- Variante B: conversão de 4,6 % (920 conversões com 20.000 visitantes)
- p-valor: 0,045
- Intervalos de confiança:
A: [3.8 % - 4,4 %]
B: [4,3 % - 4.9 %]
Isso parece convincente. B parece melhor, pois os intervalos quase não se sobrepõem. No entanto, o resultado pode ter surgido por acaso. Nesse caso, a decisão estaria errada, embora o teste estivesse formalmente correto.
Por quê? Os dois intervalos de confiança estão próximos um do outro. A variante A termina em 4,4 % e a variante B começa em 4,3 %. Essa diferença mínima pode ter surgido por acaso. Na realidade, ambas as variantes poderiam ter o mesmo desempenho. O método reconhece a "significância", mas não a incerteza por trás do resultado. Esse é exatamente o primeiro tipo de erro: você acredita que uma variante é melhor, embora o efeito não seja confiável.
Erro 2: você ignora uma variante realmente melhor
Outro cenário:
- Variante A: 4,1 por cento (123 conversões com 3.000 visitantes)
- Variante B: 4,8% (144 conversões com 3.000 visitantes)
- Valor de p: 0,12
- Intervalos de confiança:
A: [3,4 % - 4,9 %]
B: [4,0 % - 5,7 %]
Os valores da variante B são melhores, mas os intervalos de confiança se sobrepõem significativamente. O limite superior de A é de 4,9% e o limite inferior de B é de 4,0%. Isso significa que a diferença não é clara o suficiente.
Por que esse é um segundo tipo de erro?
Porque, embora o efeito exista, ele não é estatisticamente verificável. Pelo menos não com essa quantidade de dados. O poder do teste não é suficiente para tornar a diferença visível. Você descarta a variante B, mesmo que ela seja realmente melhor. O erro no teste A/B não está na interpretação, mas no banco de dados insuficiente.
Nesses casos, apenas uma coisa ajuda: Estenda a duração do teste, colete mais dados ou tome sua decisão com base em critérios adicionais. Esses critérios podem ser, por exemplo, o tamanho do efeito, o impacto nos negócios ou a experiência anterior. Se você chegar a uma conclusão generalizada de "não significativo", muitas vezes perderá oportunidades reais.
Como planejar o tempo de execução do teste e o tamanho da amostra com intervalos de confiança
Muitos testes A/B são encerrados muito cedo. Um valor atinge o limite de significância, as taxas de conversão parecem boas e o experimento é cancelado. Mas, sem observar o intervalo de confiança, não fica claro o quanto o resultado é realmente estável. Se você decidir muito rapidamente, corre o risco de ter declarações tendenciosas e medidas priorizadas incorretamente.
O que influencia a largura do intervalo de confiança?
Um intervalo de confiança se torna mais estreito quanto mais dados são coletados.
Três fatores são decisivos:
- Tamanho da amostra: Mais usuários levam a menos ruído estatístico
- Estabilidade das taxas de conversão: Grandes flutuações aumentam o intervalo
- Nível de confiança: Um nível mais alto significa um intervalo maior
Exemplo: Como a diferença esperada influencia seu planejamento
Você espera uma melhora de cerca de 1,5 ponto percentual.
Qual deve ser o tamanho de sua amostra por variante?
- Em 4.0 % vs. 5.5 %: aproximadamente 3.500 visitantes por variante
- Em 4.0 % vs. 4.5 %: aproximadamente 19.000 visitantes por variante
Conclusão: Pequenos efeitos exigem grandes quantidades de dados. Se você subestimar isso, obterá intervalos de confiança que se sobrepõem consideravelmente e resultados nos quais não pode confiar.
Recomendações para a prática
Sempre planeje os testes de trás para frente: Determine o efeito mínimo que deseja provar e calcule o tamanho da amostra necessário a partir disso. Use uma calculadora de significância para isso. Não comece às cegas, mas com uma meta clara de duração, volume de dados e nível de confiança.
Testes A/B sem um planejamento de tamanho bem fundamentado geram apenas ruído estatístico em caso de dúvida.
Armadilhas práticas: os erros mais comuns ao pensar em intervalos de confiança
Embora os intervalos de confiança sejam conhecidos há muito tempo por muitos, eles geralmente são mal compreendidos ou mal aplicados na prática. Especialmente em testes cotidianos, ocorrem erros típicos de raciocínio que prejudicam enormemente a validade de um teste.
Equívoco 1: confundir intervalo de confiança com certeza
Equívoco 2: cancelar o teste assim que a significância for alcançada
Equívoco 3: comparar intervalos de confiança como valores fixos
Equívoco 4: estatisticamente significativo = praticamente relevante
Equívoco 5: Comparar diversas variantes sem personalização
Conclusão e recomendações para a prática: Como usar as estatísticas para fazer testes melhores
Os intervalos de confiança não são um conhecimento adicional para os nerds da estatística. Eles são uma ferramenta fundamental para qualquer pessoa que queira analisar testes A/B de forma confiável e tomar decisões bem fundamentadas.
Aqueles que os ignoram estão voando às cegas. Aqueles que as utilizam corretamente não apenas reconhecem se um resultado é seguro, mas também quão seguro ele é e quão grande pode ser o efeito.
Três principais aprendizados
1. um único valor percentual não é suficiente
Sem um intervalo de confiança, não há estrutura para categorizar corretamente os resultados.
2. a importância por si só não é suficiente
Estatisticamente evidente não é igual a operacionalmente relevante. A largura do intervalo faz a diferença.
3. a qualidade do teste depende da preparação
Se você não fizer nenhum planejamento de tamanho, não poderá fazer nenhuma declaração confiável, mesmo com estatísticas limpas.
Três recomendações para a prática
1. verificar conscientemente os intervalos de confiança
Em cada relatório de teste, preste atenção à proximidade dos intervalos e se eles se sobrepõem.
2. realizar o planejamento do tamanho antes de iniciar o teste
Use uma calculadora para determinar o tamanho da amostra e o tempo de execução com base em suas expectativas.
3. não aceite os resultados da ferramenta sem verificá-los
Pergunte a si mesmo o que exatamente sua ferramenta mostra e como o cálculo é feito.
Aqueles que entendem os intervalos de confiança fazem testes com previsão e tomam decisões que funcionam.