• Cómo calcula Varify la significación

    Índice

    Corto y dulce

    El artículo explica cómo Varify analiza estadísticamente los resultados de las pruebas. Por defecto, se utiliza un método frecuentista con pruebas unilaterales, que muestra rápidamente si una variante obtiene mejores resultados. En el Plan Pro, también están disponibles un método frecuentista de dos caras y un método bayesiano. El método bayesiano también muestra una predicción del tiempo de ejecución que estima cuándo se alcanza la significación 95 %. También explica por qué los tiempos de ejecución más largos y las pocas métricas -especialmente en las pruebas A/A- son importantes para evitar decisiones erróneas por azar.

    Cálculo de la significación en app.varify.io

    Por defecto, Varify utiliza un método estadístico frecuentista para evaluar los resultados de las pruebas. Esto calcula la probabilidad de que una diferencia entre la variante y el original se haya producido por casualidad. Si el azar puede descartarse en la medida de lo posible, Varify muestra el recíproco del valor p calculado, la llamada significación. Si es superior a 95 %, el resultado se muestra como significativo en la herramienta.

    Los métodos estadísticos de un vistazo

    Varify ofrece tres métodos estadísticos para analizar las pruebas A/B. Los métodos disponibles dependen del plan seleccionado.

    Prueba frecuentista unilateral (estándar)

    Por defecto, Varify utiliza dos pruebas estadísticas unilaterales establecidas:

    • Se utiliza una prueba chi-cuadrado unilateral para objetivos binomiales (por ejemplo, tasa de clics, tasa de conversión).
    • Para las métricas de ventas o valor (por ejemplo, valor medio de pedido, ingresos por visitante), se utiliza una prueba t de Student unilateral.

    Estas pruebas unilaterales se eligieron deliberadamente. Proporcionan resultados más rápidamente porque calculan de forma menos conservadora que los métodos de dos caras. Esto le permite ver antes si es probable que una variante obtenga mejores resultados.

    Por supuesto, esto también tiene un inconveniente: si una prueba se ejecuta durante muy poco tiempo o se analizan muchas métricas al mismo tiempo, aumenta la posibilidad de que se produzca un falso positivo, es decir, un resultado que parece significativo, aunque en realidad sólo fue una coincidencia.

    Prueba frecuentista a dos caras (Plan Pro)

    En el Plan Pro, puede cambiar alternativamente a un método frecuentista de dos caras. Se utilizan las mismas pruebas estadísticas (chi-cuadrado o prueba t de Student), pero en una variante de dos caras. La diferencia: una prueba de dos caras no sólo comprueba si una variante es mejor, sino también si su rendimiento es peor. El método es más conservador y suele requerir más datos para alcanzar la significación, pero proporciona un resultado más sólido en ambas direcciones.

    Método bayesiano (por plan)

    El método bayesiano también está disponible en el Plan Pro. A diferencia del enfoque frecuentista, no calcula valores p, sino una probabilidad de que una variante sea mejor que la original. Esto a menudo hace que los resultados sean más intuitivos de interpretar.

    Una ventaja adicional: con el método bayesiano, Varify muestra una previsión del tiempo de ejecución que estima cuándo es probable que se alcance la significación 95 %. Esto le permite estimar mejor durante la prueba cuánto tiempo debe ejecutarse la prueba.

    Buenas prácticas para obtener resultados fiables

    Independientemente del método que elijas, es mejor hacer pruebas un poco más largas para que los resultados se estabilicen y puedas juzgar con mayor fiabilidad si una variante es realmente mejor.

    Para las pruebas A/A en particular, es importante añadir sólo unos pocos objetivos. La acumulación de errores alfa aumenta la probabilidad de un falso positivo con cada métrica adicional, es decir, un supuesto ganador que en realidad no lo es.

    Mejores prácticas para las pruebas A/A:

    • Duración: 10 días como mínimo
    • Al menos 500 conversiones por variante
    • Añada un máximo de 3 objetivos, centrados en el KPI principal
    • Los valores de significación intermedios deben ignorarse: lo que cuenta es el resultado final. Esta es la única forma de mantener baja la tasa de falsos positivos y de que los resultados sean realmente fiables.

    Cálculo propio de la significación utilizando una calculadora de significación

    Compruebe si los resultados de sus pruebas A/B presentan diferencias significativas. Varify.io le proporciona una calculadora de significancia para este propósito. 

  • Primeros pasos