Bir A/B testi iyi çalışıyor. B varyantı daha iyi görünüyor, hatta istatistiksel olarak anlamlı. Karar verildi, test tamamlandı.
Ancak bundan kısa bir süre sonra sonuç iptal edilir. İyileşme sönüp gidiyor. Yanlış giden neydi?
Pek çok kişi p-değerine güvenmektedir. Bu sadece bir farkın olası olup olmadığını gösterir. Sonucun gerçekten ne kadar kesin olduğunu değil.
Güven aralıkları bu konuda yardımcı olur. Test sonucunuzun ne kadar istikrarlı olduğunu ve ne kadar belirsizlik içerdiğini gösterirler.
Bu anlayış olmadan, daha sonra size pahalıya mal olacak kararlar alırsınız.
İçindekiler tablosu
Güven aralığı: gerçekte nedir ve neden ihtiyacınız var
Güven aralığı, dönüşüm oranınızın ne kadar kesin olarak tahmin edildiğini gösterir.
Örnek: 2.000 kullanıcıyı test ettiniz ve bunlardan 82'si dönüşüm sağladı. Bu da 4,1 %'lik bir dönüşüm oranıyla sonuçlanır.
İstatistiksel bir araç, 95 % güven düzeyi ile [3,3 % - 5,0 %] güven aralığını hesaplar.
Bu, aynı testi yeni kullanıcılarla 100 kez çalıştırırsanız, gerçek sonucun bu çalıştırmaların yaklaşık 95'inde bu aralıkta olacağı anlamına gelir.
Güven seviyesi nedir?
Güven düzeyi, aralığın gerçek değeri içerdiğinden ne kadar emin olabileceğinizi gösterir.
Pratikte neredeyse her zaman 95 % kullanılır. Güvenlik ve verimlilik arasında iyi bir uzlaşma.
Seviye ne kadar yüksek olursa, aralık o kadar geniş olur, ancak aynı zamanda değerlendirmeniz de o kadar ihtiyatlı olur.
Bu neden önemli
- Tek bir yüzde kesin gibi görünse de sadece bir tahmindir
- Sadece aralık, bu tahminin ne kadar güvenilir olduğunu gösterir
- Örneklem ne kadar küçükse, dalgalanma da o kadar büyük olur
- Güven seviyesi ne kadar yüksek olursa, değerleme o kadar muhafazakar olur
Güven aralıkları A/B testlerini nasıl doğrular?
Bir açılış sayfasının iki varyantını test ettiğinizi düşünün:
- Varyant A: 4.1 % Dönüşümü
- Varyant B: 4.9 % Dönüşümü
Daha fazla bilgi olmadan, B açık ara galip gibi görünüyor. Ancak sadece güven aralıklarına bakmak buna güvenip güvenemeyeceğinizi gösterir:
A: [3,6 % - 4,6 %]
B: [4,3 % - 5,5 %]
Aralıklar örtüşmemektedir. Bu güçlü bir sinyaldir: iyileşme muhtemelen gerçektir.
Başka bir senaryo:
A: [3,6 % - 4,6 %]
B: [4.0 % - 5.3 %]
Şimdi bir örtüşme var. Bu, iki varyantın aslında eşit derecede iyi performans gösterebileceği anlamına gelir. Ölçülen fark tesadüfen ortaya çıkmış olabilir. Bu temelde verilecek bir karar riskli olacaktır.
Temel kural:
- Çakışma yok → Karar mümkün
- Örtüşme → sonuç belirsiz, testi veya seti daha fazla veri temeline genişletin
Bu size ne getiriyor
- Bir farkın istatistiksel olarak doğrulanıp doğrulanmadığını veya sadece varmış gibi görünüp görünmediğini anlayabilirsiniz
- Sadece daha hızlı karar vermekle kalmaz, aynı zamanda daha yüksek kalitede karar verirsiniz
- Sözde daha iyi bir varyanta kaynak yatırımı yapma riskini azaltırsınız
Az tahmin edilen risk bölgeleri: Güven düzeyi, 1. ve 2. tip hatalar
Bir A/B testi 95 % güven düzeyi gösterir. Kulağa güvenilir geliyor, ama bu tam olarak ne anlama geliyor?
Bu, aynı testi başka ziyaretçilerle yüz kez gerçekleştirirseniz, gerçek sonucun yaklaşık 95 durumda hesaplanan güven aralığında olacağı anlamına gelir. Ancak beş durumda bu gerçekleşmeyecektir. Bu yüzde beş, her testte hesaba kattığınız hata olasılığına karşılık gelir. Bu, 1. tür hata olarak adlandırılır.
Hata 1. tip: Rastgele bir sonucun gerçek olduğunu düşünüyorsunuz
Bir örnek:
- Varyant A: 4,1 % dönüşümü (20.000 ziyaretçi ile 820 dönüşüm)
- B Varyantı: 4,6 % dönüşümü (20.000 ziyaretçi ile 920 dönüşüm)
- p-değeri: 0,045
- Güven aralıkları:
A: [3.8 % - 4,4 %]
B: [4,3 % - 4.9 %]
Bu ikna edici görünüyor. B daha iyi görünüyor, aralıklar neredeyse hiç örtüşmüyor. Bununla birlikte, sonuç şans eseri ortaya çıkmış olabilir. Bu durumda, test resmi olarak doğru olsa da karar yanlış olacaktır.
Neden? İki güven aralığı birbirine yakındır. A varyantı 4,4 %'de biterken, B varyantı 4,3 %'de başlamaktadır. Bu minimal fark tesadüfen ortaya çıkmış olabilir. Gerçekte, her iki varyant da eşit derecede iyi performans gösterebilir. Yöntem "anlamlılığı" kabul etmekte, ancak sonucun arkasındaki belirsizliği kabul etmemektedir. Bu tam olarak birinci hata türüdür: etki güvenilir olmasa da bir varyantın daha iyi olduğuna inanırsınız.
Hata 2: Aslında daha iyi bir varyantı gözden kaçırıyorsunuz
Başka bir senaryo:
- A Varyantı: Yüzde 4,1 (3.000 ziyaretçi ile 123 dönüşüm)
- B Varyantı: Yüzde 4,8 (3.000 ziyaretçi ile 144 dönüşüm)
- p-değeri: 0,12
- Güven aralıkları:
A: [3,4 % - 4,9 %]
B: [4.0 % - 5.7 %]
B varyantı için değerler daha iyidir, ancak güven aralıkları önemli ölçüde örtüşmektedir. A'nın üst sınırı yüzde 4,9, B'nin alt sınırı ise yüzde 4,0'dır. Bu da farkın yeterince açık olmadığı anlamına gelmektedir.
Bu neden ikinci bir hata türüdür?
Çünkü bu etki var olsa da istatistiksel olarak doğrulanabilir değildir. En azından bu miktarda veri ile. Test gücü farkı görünür kılmak için yeterli değildir. Aslında daha iyi olmasına rağmen B varyantını reddediyorsunuz. Hata yorumlamada değil, yetersiz veri tabanında yatmaktadır.
Böyle durumlarda tek bir şey yardımcı olur: Test süresini uzatın, daha fazla veri toplayın veya kararınızı ek kriterlere göre verin. Bunlar örneğin etki büyüklüğü, iş etkisi veya önceki deneyimler olabilir. "Önemli değil" şeklinde genel bir sonuca varırsanız, genellikle gerçek fırsatları kaçırırsınız.
Güven aralıkları ile test çalışma süresi ve örneklem büyüklüğü nasıl planlanır?
Güven aralığının genişliğini ne etkiler?
Bir güven aralığı, ne kadar çok veri toplarsanız o kadar daralır.
Üç faktör belirleyicidir:
- Örneklem büyüklüğü: Daha fazla kullanıcı daha az istatistiksel gürültüye yol açar
- Dönüşüm oranlarının istikrarı: Büyük dalgalanmalar aralığı artırır
- Güven seviyesi: Daha yüksek seviye daha geniş aralık anlamına gelir
Örnek: Beklenen fark planlamanızı nasıl etkiler?
Yaklaşık yüzde 1,5 puanlık bir iyileşme bekliyorsunuz.
Varyant başına örnekleminizin ne kadar büyük olması gerekir?
- 4.0 %'ye karşı 5.5 %'de: varyant başına yaklaşık 3.500 ziyaretçi
- 4.0 %'ye karşı 4.5 %'de: varyant başına yaklaşık 19.000 ziyaretçi
Sonuç: Küçük etkiler büyük miktarda veri gerektirir. Bunu hafife alırsanız, önemli ölçüde örtüşen güven aralıkları ve güvenemeyeceğiniz sonuçlar elde edersiniz.
Uygulama için öneriler
Testleri her zaman geriye doğru planlayın: Kanıtlamak istediğiniz minimum etkiyi belirleyin ve buradan gerekli örneklem büyüklüğünü hesaplayın. Bunun için bir anlamlılık hesaplayıcısı kullanın. Körü körüne değil, süre, veri hacmi ve güven düzeyi için net bir hedef aralığı ile başlayın.
İyi temellendirilmiş boyut planlaması olmayan A/B testleri, şüphe durumunda yalnızca istatistiksel gürültü yaratır.
Pratik tuzaklar: Güven aralıkları hakkında düşünürken yapılan en yaygın hatalar
Kavram yanılgısı 1: Güven aralığını kesinlik ile karıştırmak
Yanılgı 2: Anlamlılığa ulaşılır ulaşılmaz testi iptal edin
Yanılgı 3: Güven aralıklarını sabit değerler gibi karşılaştırmak
Yanılgı 4: İstatistiksel olarak anlamlı = pratik olarak ilgili
Yanılgı 5: Özelleştirme olmadan çeşitli varyantların karşılaştırılması
Sonuç ve uygulamaya yönelik öneriler: Daha iyi testler için istatistikler nasıl kullanılır?
Güven aralıkları istatistik meraklıları için ek bir bilgi değildir. A/B testlerini güvenilir bir şekilde analiz etmek ve sağlam temellere dayanan kararlar almak isteyen herkes için önemli bir araçtır.
Bunları görmezden gelenler kör uçuyor demektir. Bunları doğru kullananlar sadece bir sonucun güvenli olup olmadığını değil, aynı zamanda ne kadar güvenli olduğunu ve etkisinin gerçekten ne kadar büyük olabileceğini de fark ederler.
Üç temel bilgi
1. tek bir yüzde değeri yeterli değildir
Güven aralığı olmadan, sonuçları doğru bir şekilde kategorize etmek için bir çerçeve yoktur.
2. önem tek başına yeterli değildir
İstatistiksel olarak dikkat çekici olmak, operasyonel olarak anlamlı olmak anlamına gelmez. Aralığın genişliği fark yaratır.
3. Test kalitesi hazırlığa bağlıdır
Herhangi bir boyut planlaması yapmazsanız, temiz istatistiklerle bile güvenilir açıklamalar yapamazsınız.
Uygulama için üç öneri
1. Güven aralıklarını bilinçli olarak kontrol edin
Her test raporunda, aralıkların ne kadar yakın olduğuna ve çakışıp çakışmadığına dikkat edin.
2. Teste başlamadan önce boyut planlaması yapın
Beklentilerinize göre numune boyutunu ve çalışma süresini belirlemek için bir hesap makinesi kullanın.
3. Alet sonuçlarını kontrol etmeden kabul etmeyin
Aracınızın size tam olarak ne gösterdiğini ve hesaplamanın nasıl yapıldığını kendinize sorun.
Güven aralıklarını anlayanlar öngörü ile test yapar ve işe yarayan kararlar alır.
A/B testi hakkında daha fazla makale
👉 A/B testi: nasıl çalışır, ipuçları ve çözümler
Hipotezden değerlendirmeye kadar etkili A/B testleri için 5 adımlı talimatlar içeren kapsamlı bir kılavuz.
👉 Kullanıcı testi: yöntemler, süreçler ve metrikler
Gerçek kullanıcı geri bildirimlerinin hedefli kullanıcı testleri yoluyla nasıl daha iyi kararlar alınmasını sağladığını öğrenin.
👉 Çok değişkenli testler aracılığıyla etkili optimizasyon
En iyi kombinasyonu belirlemek için birkaç öğeyi aynı anda nasıl test edeceğinizi öğrenin.
👉 A/A testleri açıklandı: Güvenilir veriler için doğrulama
Test kurulumunuzu doğrulamak ve veri kalitesini sağlamak için A/A testleri neden önemlidir?
👉 A/B testinde kaçınmanız gereken 10 kırmızı bayrak
A/B testlerinde en sık yapılan hatalar ve bunlardan nasıl kaçınılacağı.
👉 Büyük Sorgu A/B Testi
BigQuery ve Varify.io ile A/B testleri veri düzeyinde nasıl verimli bir şekilde analiz edilir?
👉 GTM ve GA4 ile sunucu tarafı izleme
Google Tag Manager ve GA4 ile sunucu tarafı izleme sayesinde verileriniz üzerinde daha fazla kontrol.
👉 Shopify için A/B testi: Bilmeniz gereken her şey
Shopify mağazalarında başarılı A/B testleri için akıllı stratejiler ve teknik ipuçları.
👉 Bölünmüş testler basitçe açıklanmıştır: tanım, uygulama, uygulama
Bölünmüş testlerin nasıl çalıştığı ve özellikle nasıl kullanılacağı aşağıda açıklanmıştır.
👉 WordPress A/B Testi
A/B testlerini WordPress web sitenize nasıl etkili bir şekilde entegre edebilirsiniz?
👉 Shopify Temaları A/B Testi
Daha iyi dönüşüm oranları için hedefli A/B testleri aracılığıyla Shopify temalarının optimizasyonu.