• So berechnet Varify die Signifikanz

    Inhaltsverzeichnis

    Kurz & Knapp

    Der Artikel erklärt, wie Varify Testergebnisse mit einem frequentistischen Verfahren auswertet und dabei einseitige Chi-Quadrat- und t-Tests verwendet, um schneller Signifikanz zu erkennen. Außerdem wird erläutert, warum längere Laufzeiten und wenige Metriken – insbesondere bei A/A-Tests – wichtig sind, um Fehlentscheidungen durch Zufall zu vermeiden.

    Berechnung der Signifikanz in app.varify.io

    Varify nutzt zur Bewertung von Testergebnissen ein statistisches frequentistisches Verfahren. Dabei wird berechnet, wie wahrscheinlich es ist, dass ein Unterschied zwischen Variante und Original zufällig entstanden ist. Wenn der Zufall weitestgehend ausgeschlossen werden kann, zeigt Varify den Kehrwert des berechneten p-Werts an – die sogenannte Signifikanz. Ist diese größer als 95 %, wird das Ergebnis im Tool als signifikant angezeigt.

    Um die Ergebnisse möglichst effizient zu bewerten, kommen bei Varify zwei etablierte statistische Tests zum Einsatz:

    • Für binomiale Ziele (z. B. Klickrate, Conversion Rate) wird ein einseitiger Chi-Quadrat-Test verwendet.

    • Für Umsatz- oder Wertmetriken (z. B. Average Order Value, Revenue per Visitor) wird ein einseitiger Student-t-Test genutzt.

    Diese einseitigen Tests sind bewusst gewählt. Sie liefern schneller Ergebnisse, weil sie weniger konservativ rechnen als zweiseitige Verfahren. So können Kundinnen und Kunden früher sehen, ob eine Variante wahrscheinlich besser abschneidet.

    Natürlich hat das auch eine Kehrseite: Wenn ein Test sehr kurz läuft oder viele Metriken gleichzeitig ausgewertet werden, steigt die Chance auf ein sogenanntes False Positive – also ein Ergebnis, das scheinbar signifikant ist, obwohl es in Wahrheit nur Zufall war.

    Deshalb gilt:
    👉 Lieber etwas länger testen, damit sich die Ergebnisse stabilisieren und du sicherer beurteilen kannst, ob eine Variante wirklich besser ist.

    Insbesondere bei A/A-Tests ist es wichtig, nur wenige Ziele hinzuzufügen. Durch die sogenannte Alpha-Fehler-Kumulierung steigt mit jeder zusätzlichen Metrik die Wahrscheinlichkeit, dass ein False Positive entsteht – also ein vermeintlicher Gewinner, der in Wirklichkeit keiner ist.

    Best Practices für A/A-Tests:

    • Laufzeit: mindestens 10 Tage

    • Mindestens 500 Conversions pro Variante

    • Maximal 3 Ziele hinzufügen, mit Fokus auf die Haupt-KPI

    • Zwischendurch auftretende Signifikanzwerte sollten ignoriert werden – das Endergebnis zählt. Nur so bleibt die False-Positive-Rate niedrig und die Ergebnisse wirklich verlässlich.

    Eigene Berechnung der Signifikanz mit Hilfe eines Signifikanzrechners

    Prüfe deine Ergebnisse deines A/B Tests auf signifikante Unterschiede. Dafür stellt dir Varify.io einen Signifikanzrechner bereit. 

  • Erste Schritte