• A/A Test zeigt signifikante Ergebnisse an

    Inhaltsverzeichnis

    So erkennst du den Fehler​

    Dein A/A Test zeigt nach wenigen Tagen ein signifikantes Ergebnis für eine oder mehrere Metriken an. 

    So behebst du den Fehler​

    Ein A/A-Test dient dazu, die Zuverlässigkeit des Test-Setups zu überprüfen. Dabei werden zwei identische Varianten gegeneinander getestet. Theoretisch sollten beide Varianten dieselben Ergebnisse erzielen. Wenn ein A/A-Test nach kurzer Zeit ein signifikantes Ergebnis zeigt, deutet das meist nicht auf einen echten Effekt, sondern auf statistische oder technische Ursachen hin.

    1. Bedeutung der Signifikanz im A/A-Test

    Varify bewertet Testergebnisse mit einem frequentistischen Ansatz.
    Wenn der Zufall weitestgehend ausgeschlossen werden kann, wird der Kehrwert des p-Werts als Signifikanz angezeigt.
    Liegt dieser Wert über 95 %, zeigt Varify ein signifikantes Ergebnis an.

    In einem A/A-Test bedeutet das jedoch nicht, dass tatsächlich eine Variante „besser“ ist – sondern, dass die Daten zufällig so verteilt sind, dass die Wahrscheinlichkeit für einen Unterschied größer wirkt, als sie tatsächlich ist.


    2. Häufige Ursachen für ein „falsches“ signifikantes Ergebnis

    a) Zu kurze Laufzeit
    Bei zu wenig Daten kann der Zufall noch stark wirken. Ein kurzfristig signifikanter Ausschlag ist normal und kein verlässliches Signal.

    b) Zu viele Ziele (Goals)
    Jedes zusätzliche Ziel erhöht die Wahrscheinlichkeit eines sogenannten Alpha-Fehlers. Das heißt: Die Chance, dass irgendwo zufällig ein Unterschied gefunden wird, steigt mit der Anzahl der Metriken.

    c) Ungleichmäßige Traffic-Zuordnung
    Wenn Besucher nicht gleichmäßig auf die Varianten verteilt werden (z. B. durch Caching, Bot-Traffic oder unvollständige Ausspielung), kann das Ergebnis verfälscht werden.

    d) Zu kleine Stichprobe
    Bei geringen Conversion-Zahlen schwanken Metriken stark. Schon wenige Conversions Unterschied können zu einer scheinbar hohen Signifikanz führen.


    3. Best Practice für A/A-Tests

    Damit A/A-Tests verlässliche Ergebnisse liefern, empfehlen wir:

    • Laufzeit: mindestens 10 Tage

    • Datenmenge: mindestens 500 Conversions pro Variante

    • Ziele: maximal 3 Metriken, mit Fokus auf die Haupt-KPI

    • Zwischenergebnisse ignorieren: Signifikanzwerte während der Laufzeit können schwanken. Nur das Endergebnis nach Testende ist aussagekräftig.

    So stellst du sicher, dass der Einfluss des Zufalls gering bleibt und die Auswertung realistische Resultate liefert.


    4. Fazit

    Ein signifikantes Ergebnis in einem A/A-Test bedeutet in den meisten Fällen kein echtes Signal, sondern ist auf Zufall oder Testkonfiguration zurückzuführen.
    Erst wenn ausreichend Daten über einen längeren Zeitraum gesammelt wurden und der Zufall statistisch ausgeschlossen werden kann, ist ein Ergebnis wirklich belastbar.

  • Erste Schritte