A/B Test Temelleri: Veriyle Tasarım Kararı Alma Rehberi
Seviye: Orta
Kategori: UX Research
Son güncelleme: Ocak 2025
Giriş
"Mavi buton mu, yeşil buton mu?"
Bu soruyu toplantıda tartışarak çözemezsin. Herkesin bir fikri var, kimse kanıtlayamıyor. HiPPO (Highest Paid Person's Opinion) kazanıyor.
Ya da... gerçek kullanıcılara sorarsın.
A/B test, tasarım kararlarını fikirlerden değil, veriden almayı sağlar. İki versiyonu gerçek kullanıcılara gösterirsin, hangisi daha iyi performans gösteriyorsa o kazanır.
Basit görünür ama doğru yapmak zor. Yanlış hipotez, yetersiz sample size, erken durdurma - hepsi yanlış sonuçlara götürür.
Bu yazıda A/B testin temellerini, nasıl yapılacağını ve dikkat edilmesi gerekenleri öğreneceksin.
A/B Test Nedir?
A/B Test: İki farklı versiyonu (A ve B) rastgele kullanıcı gruplarına gösterip hangisinin belirlenen metrikte daha iyi performans gösterdiğini ölçen kontrollü deneysel araştırma yöntemi.
Temel mantık:
- Versiyon A (Control): Mevcut tasarım
- Versiyon B (Variant): Yeni tasarım
- Kullanıcılar rastgele ikisinden birine yönlendirilir
- Belirlenen metrik karşılaştırılır
- İstatistiksel olarak anlamlı fark varsa, kazanan belirlenir
A/B Test Ne Zaman Kullanılır?
Uygun Durumlar
- Buton rengi, metin, konum değişiklikleri
- CTA (Call to Action) optimizasyonu
- Sayfa layout'u karşılaştırması
- Fiyatlandırma sayfası varyasyonları
- Onboarding akışı alternatifleri
- Email konu satırı testi
Uygun Olmayan Durumlar
- Yeterli trafik yoksa (sample size)
- Çok büyük değişiklikler (A/B yerine kullanıcı testi)
- "Neden" sorusu soruluyorsa (nitel araştırma gerek)
- Marka veya strateji kararları
- Uzun satın alma döngüsü olan ürünler
💡 A/B test "hangisi daha iyi" sorusuna cevap verir. "Neden daha iyi" için kullanılabilirlik testi veya görüşme gerekir.
A/B Test Süreci
Adım 1: Hipotez Oluştur
Test rastgele yapılmaz. Bir hipotezle başlar.
Hipotez yapısı: "Eğer [değişiklik] yaparsak, [metrik]'te [yön] göreceğiz, çünkü [neden]."
Adım 2: Metrik Belirle
Ne ölçüyorsun? Tek bir primary metrik seç.
Yaygın metrikler:
- Conversion rate (dönüşüm oranı)
- Click-through rate (CTR)
- Bounce rate (hemen çıkma)
- Time on page
- Revenue per user
- Sign-up rate
⚠️ Tek primary metrik seç. Çok metrik takip edersen, birinde tesadüfen anlamlı sonuç bulma olasılığın artar (multiple testing problem).
Adım 3: Sample Size Hesapla
Kaç kullanıcı gerekli? Bu, testin gücünü belirler.
Etkileyen faktörler:
- Mevcut conversion rate (baseline)
- Tespit etmek istediğin minimum fark (MDE)
- İstatistiksel güven seviyesi (genellikle %95)
- İstatistiksel güç (genellikle %80)
Sample Size Hesaplama
Baseline %5, MDE %20 relatif artış (%5 → %6) için yaklaşık 25.000 kullanıcı/varyant gerekir
Örnek:
%2 baseline, %50 relatif MDE → ~6.000 kullanıcı/varyant
Online hesaplayıcılar:
- Evan Miller Sample Size Calculator
- Optimizely Sample Size Calculator
- AB Test Guide Calculator
Adım 4: Testi Kur
- A ve B versiyonlarını hazırla
- Rastgele yönlendirmeyi kur
- Tracking'i doğrula
- QA yap
Adım 5: Testi Çalıştır
- Belirlenen sample size'a ulaşana kadar bekle
- Minimum 1-2 tam hafta (hafta içi/sonu etkisi)
- Erken bakmaktan kaçın (peeking)
Adım 6: Sonuçları Analiz Et
- İstatistiksel anlamlılık kontrol et
- Güven aralığına bak
- Segment bazlı analiz yap
- Sonucu dokümante et
İstatistiksel Kavramlar
İstatistiksel Anlamlılık (Statistical Significance)
Gözlemlenen farkın şans eseri olma olasılığının düşük olduğunu gösterir.
p-value:
- p < 0.05: %95 güvenle anlamlı
- p < 0.01: %99 güvenle anlamlı
Örnek: p = 0.03 demek, bu farkın şans eseri olma olasılığı %3.
Güven Aralığı (Confidence Interval)
Gerçek değerin hangi aralıkta olduğunu gösterir.
Örnek: Conversion artışı %15, güven aralığı [%8, %22] Gerçek artış %95 olasılıkla %8 ile %22 arasında.
İstatistiksel Güç (Statistical Power)
Gerçek bir fark varsa, onu tespit etme olasılığı. Genellikle %80 hedeflenir.
Minimum Detectable Effect (MDE)
Tespit edilebilecek en küçük fark. Küçük MDE = daha çok sample gerekir.
A/B Test Tipleri
Klasik A/B Test
İki versiyon karşılaştırması.
A/B/n Test
İkiden fazla versiyon (A, B, C, D...). Daha çok sample gerektirir.
Multivariate Test (MVT)
Birden fazla element kombinasyonu test edilir. Örneğin: 2 başlık × 2 görsel × 2 buton = 8 kombinasyon. Çok trafik gerektirir.
Split URL Test
Tamamen farklı sayfalar karşılaştırılır. Büyük değişiklikler için.
[TABLE] | Test Tipi | Ne Zaman | Sample İhtiyacı | |-----------|----------|-----------------| | A/B | Tek değişken | Orta | | A/B/n | Birkaç alternatif | Yüksek | | MVT | Kombinasyon optimizasyonu | Çok yüksek | | Split URL | Büyük değişiklik | Orta | [/TABLE]
Sık Yapılan Hatalar
1. Erken Durdurmak (Peeking)
Erken bakmak ve "iyi görünüyor" diye durdurmak, false positive oranını artırır.
2. Yetersiz Sample Size
Az kullanıcıyla test yapmak, güvenilir sonuç vermez. Hesaplayıcı kullan.
3. Çok Değişken Test Etmek
4. Yanlış Metrik
Primary metrik iş hedefiyle uyumlu olmalı. CTR artıp conversion düşebilir.
5. Segmentleri İhmal Etmek
Genel sonuç "fark yok" dese de, belirli segmentlerde fark olabilir (mobil vs desktop).
6. Sezonalite
Bayram, kampanya dönemleri sonuçları etkiler. Normal dönemde test et veya bunu hesaba kat.
7. Novelty Effect
Yeni olan dikkat çeker, zamanla etkisi azalır. Uzun süreli testler daha güvenilir.
Test Edilecek Şeyler
Yüksek Etki Potansiyeli
- CTA metni ve konumu
- Headline / değer önerisi
- Form uzunluğu
- Fiyatlandırma sunumu
- Checkout adım sayısı
- Onboarding akışı
Orta Etki Potansiyeli
- Buton rengi ve boyutu
- Görsel seçimi
- Sosyal kanıt yerleşimi
- Navigasyon yapısı
Düşük Etki Potansiyeli
- Minor metin değişiklikleri
- İkon değişiklikleri
- Küçük renk ayarlamaları
💡 Önce büyük değişiklikleri test et. %1'lik iyileştirmeler için zaman harcamak yerine, %20 potansiyeli olan testlere odaklan.
A/B Test Araçları
[TABLE] | Araç | Segment | Fiyat | |------|---------|-------| | Google Optimize | Ücretsiz (kapatıldı, alternatif: GA4 experiments) | Ücretsiz | | Optimizely | Enterprise | $$$ | | VWO | Mid-market | $$ | | AB Tasty | Mid-market | $$ | | LaunchDarkly | Feature flags + test | $$ | | Amplitude Experiment | Analytics entegre | $$ | | PostHog | Açık kaynak | Ücretsiz+ | [/TABLE]
Sonuç Yorumlama
Kazanan Var
B versiyonu istatistiksel olarak anlamlı şekilde daha iyi:
- Değişikliği uygula
- Öğrenileni dokümante et
- Sonraki test için insight kullan
Fark Yok (Inconclusive)
İstatistiksel anlamlılık yok:
- Değişiklik etkisiz olabilir
- Sample size yetersiz olabilir
- Daha uzun test veya farklı hipotez dene
Control Kazandı
A (mevcut) daha iyi:
- Değişikliği yapma
- Neden işe yaramadığını analiz et
- Farklı yaklaşım dene
Tasarımcının A/B Test Rolü
Tasarımcı olarak:
Test öncesi:
- Hipotez oluşturmaya katkı ver
- Araştırma insight'larını paylaş
- Varyasyonları tasarla
- Edge case'leri düşün
Test sırasında:
- Sonuçlara erken müdahale etme
- Sabırlı ol
Test sonrası:
- Sonuçları öğrenmeye dönüştür
- Kazanırsa uygula
- Kaybederse neden olduğunu anla
- Sonraki test fikirlerini geliştir
A/B Test Olmadan Karar Alma
Her şeyi test edemezsin. Ne zaman test etmeden ilerleyebilirsin?
- Trafik yetersizse
- Acil düzeltme gerekiyorsa (bug, kritik UX sorunu)
- Kullanıcı araştırması zaten net cevap verdiyse
- Değişiklik riski düşükse
- Test maliyeti faydayı aşıyorsa
Şimdi Sen Dene
20 dakika
Görev: Bir e-ticaret checkout sayfası için A/B test hipotezi oluştur.
Senaryo: Checkout'ta %40 abandon rate var. Adres formu en uzun adım.
Adımlar:
-
Problem analizi (5 dk)
- Neden kullanıcılar terk ediyor olabilir?
- 3 olası neden listele
-
Hipotez yaz (5 dk) Format: "Eğer [değişiklik] yaparsak, [metrik]'te [yön] göreceğiz, çünkü [neden]."
-
Test tasarımı (5 dk)
- Control (A): Mevcut ne?
- Variant (B): Ne değişecek?
- Primary metrik ne?
-
Başarı kriteri (5 dk)
- Minimum ne kadar iyileşme anlamlı?
- Tahmini sample size ne olur? (calculator kullan)
Örnek hipotez: "Eğer adres formunda otomatik tamamlama eklersek, checkout completion rate'te %15 artış göreceğiz, çünkü kullanıcılar daha az yazacak ve hata yapma olasılığı azalacak."
Özet
- A/B test, iki versiyonu karşılaştırarak veriyle karar almayı sağlar
- Süreç: Hipotez → Metrik → Sample size → Test → Analiz
- İstatistiksel anlamlılık: p < 0.05 genellikle yeterli
- Sample size hesapla, erken durdurma (peeking)
- Tek değişken test et, çok değişken için MVT kullan
- Kazanan varsa uygula, yoksa öğren ve devam et
- Her şeyi test etmek gerekmez, büyük etki potansiyeline odaklan
İlgili İçerikler
Önceki: Anket Tasarımı: Doğru Soru Sorma
Sonraki: Heuristic Evaluation Nedir? (yakında)
İlgili konular:
- Kullanılabilirlik Testi Nedir?
- Conversion Rate Optimization (yakında)
- UX Metrikleri Rehberi (yakında)
İlgili Roadmap: UX Designer Roadmap → Research & Data
Kaynaklar
Derinleşmek istersen:
- A/B Testing - NNGroup (İngilizce, 8 dk)
- Evan Miller Sample Size Calculator (Araç)
- Trustworthy Online Controlled Experiments - Kohavi (Kitap, A/B test kitabı)
