• Comment Varify calcule la significativité

    Table des matières

    En bref

    L'article explique comment Varify évalue statistiquement les résultats des tests. Par défaut, une procédure fréquentiste avec des tests unilatéraux est utilisée, ce qui permet de voir rapidement si une variante obtient de meilleurs résultats. Dans le plan Pro, une procédure frequentiste bilatérale ainsi qu'une procédure bayésienne sont également disponibles. La procédure bayésienne affiche en outre une prévision de durée qui estime quand 95 % de significativité sera atteint. Il explique également pourquoi des temps d'exécution plus longs et peu de métriques - en particulier pour les tests A/A - sont importants pour éviter les décisions erronées dues au hasard.

    Calcul de la significativité dans app.varify.io

    Varify utilise par défaut une méthode statistique fréquentiste pour évaluer les résultats des tests. Elle calcule la probabilité qu'une différence entre la variante et l'original soit due au hasard. Si le hasard peut être largement exclu, Varify affiche l'inverse de la valeur p calculée - ce que l'on appelle la significativité. Si celle-ci est supérieure à 95 %, l'outil indique que le résultat est significatif.

    Aperçu des procédures statistiques

    Varify propose trois méthodes statistiques pour l'évaluation des tests A/B. Les méthodes disponibles dépendent du plan choisi.

    Test fréquentiel unilatéral (standard)

    Par défaut, Varify utilise deux tests statistiques unilatéraux bien établis :

    • Pour les objectifs binomiaux (par ex. taux de clics, taux de conversion), on utilise un test unilatéral du Khi-deux.
    • Pour les métriques de chiffre d'affaires ou de valeur (par exemple Average Order Value, Revenue per Visitor), un test de Student unilatéral est utilisé.

    Ces tests unilatéraux ont été délibérément choisis. Ils fournissent des résultats plus rapidement, car ils calculent de manière moins conservatrice que les méthodes bilatérales. Tu peux ainsi voir plus tôt si une variante est susceptible de donner de meilleurs résultats.

    Bien sûr, cela a aussi son revers : lorsqu'un test est très court ou que de nombreuses métriques sont évaluées en même temps, les chances d'obtenir ce que l'on appelle un faux positif - c'est-à-dire un résultat qui semble significatif alors qu'il n'est en fait que le fruit du hasard - augmentent.

    Test fréquentiel bilatéral (Pro Plan)

    Dans le Pro Plan, il est également possible de passer à une méthode fréquentiste bilatérale. Les mêmes tests statistiques sont utilisés (test du khi-carré ou test de Student), mais dans une variante bilatérale. La différence : un test bilatéral ne vérifie pas seulement si une variante est meilleure, mais aussi si elle obtient de moins bons résultats. La procédure est plus conservatrice et nécessite généralement plus de données pour atteindre la significativité - mais fournit en contrepartie un résultat plus robuste dans les deux sens.

    Procédure bayésienne (Pro Plan)

    L'approche bayésienne est également disponible dans Pro Plan. Contrairement à l'approche fréquentiste, elle ne calcule pas de valeurs p, mais une probabilité qu'une variante soit meilleure que l'original. Cela rend les résultats souvent plus intuitifs à interpréter.

    Un avantage supplémentaire : dans le cas de la méthode bayésienne, Varify affiche une prévision de la durée d'exécution qui estime quand 95 % de significativité seront probablement atteints. Tu peux ainsi mieux estimer la durée du test pendant qu'il est en cours.

    Les meilleures pratiques pour des résultats fiables

    Quelle que soit la méthode choisie, il est préférable de tester un peu plus longtemps afin que les résultats se stabilisent et que tu puisses juger avec plus de certitude si une variante est vraiment meilleure.

    Pour les tests A/A en particulier, il est important de n'ajouter que quelques cibles. En raison de ce que l'on appelle l'accumulation d'erreurs alpha, chaque métrique supplémentaire augmente la probabilité d'obtenir un faux positif - c'est-à-dire un prétendu gagnant qui n'en est pas un en réalité.

    Meilleures pratiques pour les tests A/A :

    • Durée : au moins 10 jours
    • Au moins 500 conversions par variante
    • Ajouter 3 objectifs maximum, en se concentrant sur l'ICP principal
    • Les valeurs significatives intermédiaires doivent être ignorées - c'est le résultat final qui compte. Ce n'est qu'ainsi que le taux de faux positifs reste faible et que les résultats sont vraiment fiables.

    Calcul propre de la significativité à l'aide d'un calculateur de significativité

    Vérifie que les résultats de ton test A/B ne présentent pas de différences significatives. Pour cela, Varify.io met à ta disposition un calculateur de significativité. 

  • Premiers pas