Pruebas multivariantes: por qué son (normalmente) una mala idea y cuándo merecen realmente la pena

Publicado el 15 de octubre de 2025
Índice

Las pruebas multivariantes (MVT) parecen potentes a primera vista: se pueden probar varios elementos simultáneamente y reconocer sus interacciones.

En la práctica, sin embargo, son agotadores de tráfico, estadísticamente complicados y simplemente demasiado lentos para la mayoría de los sitios web.

Un MVT sólo tiene sentido a partir de varios cientos de miles de visitantes al mes o tasas de conversión superiores a 5%.

Hasta entonces: Las pruebas A/B/n bien planificadas ofrecen resultados válidos con mayor rapidez.

Qué hacen realmente las pruebas multivariantes

Una prueba multivariante pone a prueba varios elementos simultáneamente.

Ejemplo:
Pruebas 2 titulares × 2 imágenes × 2 botones → esto da como resultado 8 combinaciones.

Cada combinación recibe su parte del tráfico: sólo 1/8 de los visitantes si se distribuyen uniformemente.

Y aquí es precisamente donde radica el problema: el tráfico por variante se reduce drásticamente, y con él la significación de sus datos.

Resultado: las pruebas duran mucho más, la significación se alcanza más tarde y, mientras tanto, se bloquean otros experimentos.

Por qué las pruebas multivariantes rara vez son útiles

1. el tráfico se reparte entre demasiadas variantes

Un mayor número de combinaciones significa que sus visitantes se reparten entre muchos grupos. Esto reduce la potencia estadística (es decir, la capacidad de reconocer efectos reales).

2. las pruebas son eternas

Incluso con 100.000 visitantes al mes, pueden pasar meses antes de que veas un resultado - mientras que habrías generado varios aprendizajes válidos hace tiempo con una simple prueba A/B.

3. estadísticas más complejas e índice de error más elevado

Cada variante adicional aumenta el riesgo de encontrar aleatoriamente un falso ganador (esto se denomina acumulación de errores alfa).

Cuantas más pruebas se realicen, mayor será la probabilidad de que una variante parezca accidentalmente mejor, aunque no lo sea. Esto también se conoce como el "problema de la comparación múltiple".

4 Pequeños efectos, grandes esfuerzos

Los MVT a menudo sólo muestran efectos de ajuste fino: por ejemplo, que el botón A funciona mínimamente mejor con el titular B. En la práctica, estos miniefectos no suelen ser lo bastante relevantes como para justificar el esfuerzo.

Qué significa realmente "poder" (explicado de forma sencilla)

La potencia de una prueba describe la probabilidad de que realmente se detecte un efecto real.

Por ejemplo, si una prueba tiene una potencia de 80 %, esto significa que si existe una diferencia real, también la encontrará estadísticamente en 8 de cada 10 casos.

En 2 de cada 10 casos (20 %) usted creería falsamente que no hay efecto.

Cuanto menor sea la subida, más visitantes necesitará para mantener el mismo valor de potencia.

Por tanto, un MVT con 8 combinaciones necesita mucho más tráfico para alcanzar la misma potencia que un simple test A/B.

Por qué necesita al menos 500 conversiones por variante

Una regla aproximada de la práctica de CRO es:

Se necesitan al menos 500 conversiones por variante para poder hacer una afirmación razonablemente estable.

Hay tres razones para ello:

  1. Los índices de conversión fluctúan extremadamente con muestras muy pequeñas: las pequeñas coincidencias pueden distorsionar el resultado.
  2. Las herramientas no pueden realizar pruebas de significación limpias si los eventos por variante son demasiado pequeños.
  3. A partir de unas 500 conversiones, la distribución se estabiliza, de modo que incluso las pequeñas diferencias se hacen visibles.

Importante: Esto se aplica por variante - es decir, también para cada combinación en un MVT.

Si tiene 8 combinaciones, necesita al menos 8 × 500 = 4000 conversiones sólo para cumplir el requisito básico.

Dependiendo de la tasa de conversión, esto puede atraer rápidamente a cientos de miles de visitantes.

El error alfa: por qué más variantes aumentan el riesgo

El error alfa (error del primer tipo) describe la probabilidad de que usted identifique erróneamente una variante como la ganadora, aunque no haya ninguna diferencia real.

Un ejemplo:
Si trabaja con un nivel de significación de 5 % (α=0,05\alpha=0{,}05α=0,05), esto significa que

  • 1 de cada 20 pruebas arroja un resultado "significativo", aunque no exista ningún efecto real.

Si ahora prueba 8 combinaciones, esta tasa de error de 5 % se aplicará para cada comparación.

El riesgo de que se produzca al menos un resultado falso aumenta significativamente - a más de 30 %. Para evitarlo, el umbral de significación debe ajustarse (por ejemplo, con la corrección de Bonferroni).

El nivel de significación se divide por el número de comparaciones, por ejemplo 0,05 / 7 = 0,0071.

Esto protege contra falsas alarmas - pero se necesita aún más tráfico para lograr la misma potencia.

Cuándo merece la pena realizar pruebas multivariantes

He aquí un resumen simplificado si se tiene en cuenta 5 % de subida esperada, 80 % de potencia y corrección de Bonferroni. Sólo se muestran valores con ≥ 500 conversiones por variante:

RC básica Combinaciones Visitantes por variante Total de visitantes
1 %
4
849 667
3,4 millones de euros
2 %
4
420 434
1,68 millones de euros
3 %
8
338 506
2,71 millones de euros
4 %
8
199 032
1,59 millones
5 %
8
91 795
734 000

Interpretación:

  • Por debajo de 3 % de tasa de conversión, se necesitan más de 2 millones de visitantes incluso para un pequeño MVT con 8 combinaciones para demostrar limpiamente un aumento de 5 %.
  • Sólo a partir de <5 % de tasa de conversión y cientos de miles de visitantes mensuales un MVT se vuelve realista del todo.
  • Para la mayoría de los sitios web, esto simplemente no es eficiente - una prueba A/B/n ofrece resultados más rápidos y limpios.

Cuándo debe utilizar realmente MVT

Una prueba multivariante sólo merece la pena si:

  • ya ha logrado un gran éxito A/B y ahora quiere afinar,
  • tiene al menos 500.000 visitantes al mes en la página de prueba o una tasa de conversión superior a 5 %,
  • dispone de recursos suficientes para gestionar adecuadamente la planificación, las estadísticas y la garantía de calidad.

En todos los demás casos, es mucho mejor una configuración A/B/n.

Conclusión

Las pruebas multivariantes son una herramienta poderosa, pero sólo en las condiciones adecuadas.

En la práctica, a menudo provocan más esfuerzo que ganancia de conocimiento.

Si tiene poco tráfico, simplemente se arriesga a conclusiones falsas o pruebas no significativas tras meses de funcionamiento.

Conclusión para los vendedores:

Céntrese en pruebas A/B/n con hipótesis claras, consiga resultados válidos más rápidamente - y sólo cambie a pruebas multivariantes cuando pueda permitirse la cantidad de datos necesaria.

Esto también podría interesarle

Steffen Schulz
Imagen del autor
CPO Varify.io
Compartir artículo

Espera,

Es hora de Uplift

Reciba nuestros potentes CRO Insights de forma gratuita todos los meses.

Doy mi consentimiento para la recogida y el tratamiento de los datos arriba indicados con el fin de recibir el boletín informativo por correo electrónico. He tomado nota de la política de privacidad y lo confirmo enviando el formulario.