• Comment Varify calcule la significativité

    Table des matières

    En bref

    Der Artikel erklärt, wie Varify Testergebnisse statistisch auswertet. Standardmäßig kommt ein frequentistisches Verfahren mit einseitigen Tests zum Einsatz, das schnell zeigt, ob eine Variante besser abschneidet. Im Pro Plan stehen zusätzlich ein zweiseitiges frequentistisches Verfahren sowie ein bayesianisches Verfahren zur Verfügung. Das bayesianische Verfahren zeigt außerdem eine Laufzeitprognose an, die schätzt, wann 95 % Signifikanz erreicht wird. Außerdem wird erläutert, warum längere Laufzeiten und wenige Metriken – insbesondere bei A/A-Tests – wichtig sind, um Fehlentscheidungen durch Zufall zu vermeiden.

    Calcul de la significativité dans app.varify.io

    Varify nutzt zur Bewertung von Testergebnissen standardmäßig ein statistisches frequentistisches Verfahren. Dabei wird berechnet, wie wahrscheinlich es ist, dass ein Unterschied zwischen Variante und Original zufällig entstanden ist. Wenn der Zufall weitestgehend ausgeschlossen werden kann, zeigt Varify den Kehrwert des berechneten p-Werts an – die sogenannte Signifikanz. Ist diese größer als 95 %, wird das Ergebnis im Tool als signifikant angezeigt.

    Statistische Verfahren im Überblick

    Varify bietet drei statistische Verfahren zur Auswertung von A/B Tests. Welche Verfahren zur Verfügung stehen, hängt vom gewählten Plan ab.

    Einseitiger Frequentistischer Test (Standard)

    Standardmäßig kommen bei Varify zwei etablierte einseitige statistische Tests zum Einsatz:

    • Für binomiale Ziele (z. B. Klickrate, Conversion Rate) wird ein einseitiger Chi-Quadrat-Test verwendet.
    • Für Umsatz- oder Wertmetriken (z. B. Average Order Value, Revenue per Visitor) wird ein einseitiger Student-t-Test genutzt.

    Diese einseitigen Tests sind bewusst gewählt. Sie liefern schneller Ergebnisse, weil sie weniger konservativ rechnen als zweiseitige Verfahren. So kannst du früher sehen, ob eine Variante wahrscheinlich besser abschneidet.

    Natürlich hat das auch eine Kehrseite: Wenn ein Test sehr kurz läuft oder viele Metriken gleichzeitig ausgewertet werden, steigt die Chance auf ein sogenanntes False Positive – also ein Ergebnis, das scheinbar signifikant ist, obwohl es in Wahrheit nur Zufall war.

    Zweiseitiger Frequentistischer Test (Pro Plan)

    Im Pro Plan kann alternativ auf ein zweiseitiges frequentistisches Verfahren umgestellt werden. Dabei werden dieselben statistischen Tests verwendet (Chi-Quadrat bzw. Student-t-Test), jedoch in einer zweiseitigen Variante. Der Unterschied: Ein zweiseitiger Test prüft nicht nur, ob eine Variante besser ist, sondern auch, ob sie schlechter abschneidet. Das Verfahren ist konservativer und benötigt in der Regel mehr Daten, um Signifikanz zu erreichen – liefert dafür aber ein robusteres Ergebnis in beide Richtungen.

    Bayesianisches Verfahren (Pro Plan)

    Ebenfalls im Pro Plan verfügbar ist das bayesianische Verfahren. Anders als beim frequentistischen Ansatz berechnet es keine p-Werte, sondern eine Wahrscheinlichkeit, dass eine Variante besser ist als das Original. Das macht die Ergebnisse oft intuitiver interpretierbar.

    Ein zusätzlicher Vorteil: Beim bayesianischen Verfahren zeigt Varify eine Laufzeitprognose an, die schätzt, wann voraussichtlich 95 % Signifikanz erreicht wird. So kannst du bereits während des Tests besser einschätzen, wie lange der Test noch laufen sollte.

    Best Practices für zuverlässige Ergebnisse

    Unabhängig vom gewählten Verfahren gilt: Lieber etwas länger testen, damit sich die Ergebnisse stabilisieren und du sicherer beurteilen kannst, ob eine Variante wirklich besser ist.

    Insbesondere bei A/A-Tests ist es wichtig, nur wenige Ziele hinzuzufügen. Durch die sogenannte Alpha-Fehler-Kumulierung steigt mit jeder zusätzlichen Metrik die Wahrscheinlichkeit, dass ein False Positive entsteht – also ein vermeintlicher Gewinner, der in Wirklichkeit keiner ist.

    Meilleures pratiques pour les tests A/A :

    • Laufzeit: mindestens 10 Tage
    • Au moins 500 conversions par variante
    • Maximal 3 Ziele hinzufügen, mit Fokus auf die Haupt-KPI
    • Zwischendurch auftretende Signifikanzwerte sollten ignoriert werden – das Endergebnis zählt. Nur so bleibt die False-Positive-Rate niedrig und die Ergebnisse wirklich verlässlich.

    Calcul propre de la significativité à l'aide d'un calculateur de significativité

    Vérifie que les résultats de ton test A/B ne présentent pas de différences significatives. Pour cela, Varify.io met à ta disposition un calculateur de significativité. 

  • Premiers pas