So berechnet Varify die Signifikanz
Inhaltsverzeichnis
Kurz & Knapp
Der Artikel erklärt, wie Varify Testergebnisse statistisch auswertet. Standardmäßig kommt ein frequentistisches Verfahren mit einseitigen Tests zum Einsatz, das schnell zeigt, ob eine Variante besser abschneidet. Im Pro Plan stehen zusätzlich ein zweiseitiges frequentistisches Verfahren sowie ein bayesianisches Verfahren zur Verfügung. Das bayesianische Verfahren zeigt außerdem eine Laufzeitprognose an, die schätzt, wann 95 % Signifikanz erreicht wird. Außerdem wird erläutert, warum längere Laufzeiten und wenige Metriken – insbesondere bei A/A-Tests – wichtig sind, um Fehlentscheidungen durch Zufall zu vermeiden.
Berechnung der Signifikanz in app.varify.io
Varify nutzt zur Bewertung von Testergebnissen standardmäßig ein statistisches frequentistisches Verfahren. Dabei wird berechnet, wie wahrscheinlich es ist, dass ein Unterschied zwischen Variante und Original zufällig entstanden ist. Wenn der Zufall weitestgehend ausgeschlossen werden kann, zeigt Varify den Kehrwert des berechneten p-Werts an – die sogenannte Signifikanz. Ist diese größer als 95 %, wird das Ergebnis im Tool als signifikant angezeigt.
Statistische Verfahren im Überblick
Varify bietet drei statistische Verfahren zur Auswertung von A/B Tests. Welche Verfahren zur Verfügung stehen, hängt vom gewählten Plan ab.
Einseitiger Frequentistischer Test (Standard)
Standardmäßig kommen bei Varify zwei etablierte einseitige statistische Tests zum Einsatz:
- Für binomiale Ziele (z. B. Klickrate, Conversion Rate) wird ein einseitiger Chi-Quadrat-Test verwendet.
- Für Umsatz- oder Wertmetriken (z. B. Average Order Value, Revenue per Visitor) wird ein einseitiger Student-t-Test genutzt.
Diese einseitigen Tests sind bewusst gewählt. Sie liefern schneller Ergebnisse, weil sie weniger konservativ rechnen als zweiseitige Verfahren. So kannst du früher sehen, ob eine Variante wahrscheinlich besser abschneidet.
Natürlich hat das auch eine Kehrseite: Wenn ein Test sehr kurz läuft oder viele Metriken gleichzeitig ausgewertet werden, steigt die Chance auf ein sogenanntes False Positive – also ein Ergebnis, das scheinbar signifikant ist, obwohl es in Wahrheit nur Zufall war.
Zweiseitiger Frequentistischer Test (Pro Plan)
Im Pro Plan kann alternativ auf ein zweiseitiges frequentistisches Verfahren umgestellt werden. Dabei werden dieselben statistischen Tests verwendet (Chi-Quadrat bzw. Student-t-Test), jedoch in einer zweiseitigen Variante. Der Unterschied: Ein zweiseitiger Test prüft nicht nur, ob eine Variante besser ist, sondern auch, ob sie schlechter abschneidet. Das Verfahren ist konservativer und benötigt in der Regel mehr Daten, um Signifikanz zu erreichen – liefert dafür aber ein robusteres Ergebnis in beide Richtungen.
Bayesianisches Verfahren (Pro Plan)
Ebenfalls im Pro Plan verfügbar ist das bayesianische Verfahren. Anders als beim frequentistischen Ansatz berechnet es keine p-Werte, sondern eine Wahrscheinlichkeit, dass eine Variante besser ist als das Original. Das macht die Ergebnisse oft intuitiver interpretierbar.
Ein zusätzlicher Vorteil: Beim bayesianischen Verfahren zeigt Varify eine Laufzeitprognose an, die schätzt, wann voraussichtlich 95 % Signifikanz erreicht wird. So kannst du bereits während des Tests besser einschätzen, wie lange der Test noch laufen sollte.
Best Practices für zuverlässige Ergebnisse
Unabhängig vom gewählten Verfahren gilt: Lieber etwas länger testen, damit sich die Ergebnisse stabilisieren und du sicherer beurteilen kannst, ob eine Variante wirklich besser ist.
Insbesondere bei A/A-Tests ist es wichtig, nur wenige Ziele hinzuzufügen. Durch die sogenannte Alpha-Fehler-Kumulierung steigt mit jeder zusätzlichen Metrik die Wahrscheinlichkeit, dass ein False Positive entsteht – also ein vermeintlicher Gewinner, der in Wirklichkeit keiner ist.
Best Practices für A/A-Tests:
- Laufzeit: mindestens 10 Tage
- Mindestens 500 Conversions pro Variante
- Maximal 3 Ziele hinzufügen, mit Fokus auf die Haupt-KPI
- Zwischendurch auftretende Signifikanzwerte sollten ignoriert werden – das Endergebnis zählt. Nur so bleibt die False-Positive-Rate niedrig und die Ergebnisse wirklich verlässlich.
Eigene Berechnung der Signifikanz mit Hilfe eines Signifikanzrechners
Prüfe deine Ergebnisse deines A/B Tests auf signifikante Unterschiede. Dafür stellt dir Varify.io einen Signifikanzrechner bereit.
Erste Schritte
Tracking & Web Analytics Integrationen
- Tracking mit Varify
- Manuelle Google Tag Manager Tracking-Integration
- Automatische GA4 Tracking Integration
- Shopify Custom Pixel Integration via Google Tag Manager
- Shopify Tracking
- BigQuery
- PostHog Auswertungen
- Matomo – Integration via Matomo Tag Manager
- etracker Integration
- Piwik Pro Integration
- Consent – Tracking via Consent
- Advanced Settings
- Tracking mit Varify
- Manuelle Google Tag Manager Tracking-Integration
- Automatische GA4 Tracking Integration
- Shopify Custom Pixel Integration via Google Tag Manager
- Shopify Tracking
- BigQuery
- PostHog Auswertungen
- Matomo – Integration via Matomo Tag Manager
- etracker Integration
- Piwik Pro Integration
- Consent – Tracking via Consent
- Advanced Settings
Experiment erstellen
- Experiment erstellen
- Prompt Based Experiments (PBX)
- Qualitätssicherung
- Starten und stoppen von Experimenten
- Zeitgesteuertes Starten und Stoppen
- Redirect & Split URL Testing
- Variante duplizieren
- Experiment mit mehreren Varianten
- Umbenennen von Experimenten und Varianten
- Multi-Page Experiment erstellen
- Experiment erstellen
- Prompt Based Experiments (PBX)
- Qualitätssicherung
- Starten und stoppen von Experimenten
- Zeitgesteuertes Starten und Stoppen
- Redirect & Split URL Testing
- Variante duplizieren
- Experiment mit mehreren Varianten
- Umbenennen von Experimenten und Varianten
- Multi-Page Experiment erstellen
Targeting
Reporting & Auswertung
- Reporting in Varify.io
- BigQuery
- Reports segmentieren und filtern
- Report teilen
- Audiencebasierte Auswertung in GA4
- Segmentbasierte Auswertung in GA 4
- PostHog Tracking
- Exportieren der Experimentergebnisse aus Varify
- Matomo – Ergebnisauswertung
- etracker Auswertung
- Signifikanz berechnen
- Benutzerdefinierte Klick Events
- Custom Events in explorativen Reports auswerten
- GA4 – Cross-Domain Tracking
- Reporting in Varify.io
- BigQuery
- Reports segmentieren und filtern
- Report teilen
- Audiencebasierte Auswertung in GA4
- Segmentbasierte Auswertung in GA 4
- PostHog Tracking
- Exportieren der Experimentergebnisse aus Varify
- Matomo – Ergebnisauswertung
- etracker Auswertung
- Signifikanz berechnen
- Benutzerdefinierte Klick Events
- Custom Events in explorativen Reports auswerten
- GA4 – Cross-Domain Tracking
Visueller Editor
- Campaign Booster: Arrow Up
- Campaign Booster: Exit Intent Layer
- Campaign Booster: Information Bar
- Campaign Booster: Notification
- Campaign Booster: USP Bar
- Add Link Target
- Browse Mode
- Custom Selector Picker
- Edit Content
- Edit Text
- Elemente verschieben
- Hide Element
- Keyword Insertion
- Redirect & Split URL Testing
- Remove Element
- Replace Image
- Responsive Device Switcher
- Style & Layout Änderungen
- Campaign Booster: Arrow Up
- Campaign Booster: Exit Intent Layer
- Campaign Booster: Information Bar
- Campaign Booster: Notification
- Campaign Booster: USP Bar
- Add Link Target
- Browse Mode
- Custom Selector Picker
- Edit Content
- Edit Text
- Elemente verschieben
- Hide Element
- Keyword Insertion
- Redirect & Split URL Testing
- Remove Element
- Replace Image
- Responsive Device Switcher
- Style & Layout Änderungen