Un test A/B funziona bene. La variante B sembra migliore, persino statisticamente significativa. Decisione presa, test completato.
Ma poco dopo il risultato si annulla. Il miglioramento si spegne. Cosa è andato storto?
Molti si basano sul valore p. Questo indica solo se una differenza è probabile. Non quanto sia certo il risultato.
Gli intervalli di confidenza aiutano in questo senso. Mostrano quanto è stabile il risultato del test e quanta incertezza contiene.
Senza questa comprensione, prenderete decisioni che vi costeranno denaro in seguito.

Indice dei contenuti
Intervallo di confidenza: cos'è veramente e perché ne avete bisogno
Un intervallo di confidenza indica la precisione della stima del tasso di conversione.
Esempio: avete testato 2.000 utenti, 82 dei quali hanno convertito. Il risultato è un tasso di conversione di 4,1 %.
Uno strumento statistico calcola un intervallo di confidenza di [3,3 % - 5,0 %], con un livello di confidenza di 95 %.
Ciò significa che se si esegue lo stesso test 100 volte con nuovi utenti, il risultato reale rientrerà in questo intervallo in circa 95 di queste esecuzioni.
Qual è il livello di fiducia?
Il livello di confidenza indica la certezza che l'intervallo contenga il valore vero.
In pratica, si utilizza quasi sempre il 95 %. Un buon compromesso tra sicurezza ed efficienza.
Più alto è il livello, più ampio è l'intervallo, ma anche più cauta la valutazione.
Perché è importante
- Una singola cifra percentuale sembra precisa, ma è solo una stima.
- Solo l'intervallo mostra quanto sia affidabile questa stima
- Più piccolo è il campione, maggiore è la fluttuazione
- Più alto è il livello di fiducia, più conservativa è la valutazione.
Come gli intervalli di confidenza convalidano i test A/B
Immaginate di testare due varianti di una pagina di destinazione:
- Variante A: Conversione 4.1 %
- Variante B: Conversione 4.9 %
Â
Senza ulteriori informazioni, B sembra il chiaro vincitore. Ma solo un'occhiata agli intervalli di confidenza mostra se ci si può fidare:
A: [3,6 % - 4,6 %]
B: [4,3 % - 5,5 %]
Gli intervalli non si sovrappongono. Questo è un segnale forte: il miglioramento è probabilmente reale.
Un altro scenario:
A: [3,6 % - 4,6 %]
B: [4,0 % - 5,3 %]
Ora c'è una sovrapposizione. Ciò significa che le due varianti potrebbero effettivamente avere le stesse prestazioni. La differenza misurata potrebbe essere nata per caso. Una decisione su questa base sarebbe rischiosa.
Regola empirica:
- Nessuna sovrapposizione → Decisione possibile
- Sovrapposizione → risultato incerto, estendere il test o il set a più basi di dati
Cosa vi porta questo
- Si può riconoscere se una differenza è statisticamente verificata o solo apparentemente esistente.
- Non solo prendete le decisioni più velocemente, ma anche con una qualità superiore.
- Si riduce il rischio di investire risorse in una variante presumibilmente migliore.
Le zone a rischio sottostimate: Livello di confidenza, errori di 1° e 2° tipo
Un test A/B mostra un livello di confidenza del 95 %. Sembra affidabile, ma cosa significa esattamente?
Ciò significa che se si esegue lo stesso test un centinaio di volte con altri visitatori, il risultato reale rientrerà nell'intervallo di confidenza calcolato in circa 95 casi. In cinque casi, invece, non lo sarà . Questo cinque per cento corrisponde alla probabilità di errore che si aggiunge a ogni test. Si tratta del cosiddetto errore del 1° tipo.
Errore 1. tipo: si pensa che un risultato casuale sia reale
Un esempio:
- Variante A: 4,1 conversioni % (820 conversioni con 20.000 visitatori)
- Variante B: 4,6 conversioni % (920 conversioni con 20.000 visitatori)
- p-value: 0,045
- Intervalli di confidenza:
A: [3,8 % - 4,4 %]
B: [4,3 % - 4.9 %]
Sembra convincente. B sembra migliore, gli intervalli si sovrappongono appena. Tuttavia, il risultato potrebbe essere frutto del caso. In questo caso, la decisione sarebbe sbagliata, anche se il test è formalmente corretto.
Perché? I due intervalli di confidenza sono vicini. La variante A termina a 4,4 %, mentre la variante B inizia a 4,3 %. Questo scarto minimo potrebbe essere dovuto al caso. In realtà , entrambe le varianti potrebbero avere le stesse prestazioni. Il metodo riconosce la "significatività ", ma non l'incertezza del risultato. Questo è proprio il primo tipo di errore: si crede che una variante sia migliore, anche se l'effetto non è affidabile.
Errore 2: si trascura una variante effettivamente migliore
Un altro scenario:
- Variante A: 4,1 per cento (123 conversioni con 3.000 visitatori)
- Variante B: 4,8 per cento (144 conversioni con 3.000 visitatori)
- Valore p: 0,12
- Intervalli di confidenza:
A: [3,4 % - 4,9 %]
B: [4,0 % - 5,7 %]
I valori della variante B sono migliori, ma gli intervalli di confidenza si sovrappongono in modo significativo. Il limite superiore di A è del 4,9%, quello inferiore di B del 4,0%. Ciò significa che la differenza non è sufficientemente chiara.
Perché si tratta di un secondo tipo di errore?
Perché, sebbene l'effetto esista, non è statisticamente verificabile. Almeno non con questa quantità di dati. La potenza del test non è sufficiente a rendere visibile la differenza. Si rifiuta la variante B, anche se in realtà è migliore. L'errore non sta nell'interpretazione, ma nell'inadeguatezza del database.
In questi casi, solo una cosa è utile: Estendete la durata del test, raccogliete più dati o decidete in base a criteri aggiuntivi. Questi potrebbero essere, ad esempio, la dimensione dell'effetto, l'impatto sull'azienda o l'esperienza precedente. Se si giunge a una conclusione generalizzata di "non significativo", spesso si perdono vere opportunità .
Come pianificare il tempo di esecuzione del test e la dimensione del campione con intervalli di confidenza
Cosa influenza l'ampiezza dell'intervallo di confidenza?
Un intervallo di confidenza si restringe con il crescere dei dati raccolti.
Tre fattori sono decisivi:
- Dimensione del campione: Un maggior numero di utenti porta a un minor rumore statistico
- Stabilità dei tassi di conversione: Le grandi fluttuazioni aumentano l'intervallo
- Livello di confidenza: Un livello più alto significa un intervallo più ampio
Esempio: come la differenza prevista influenza la vostra pianificazione
Ci si aspetta un miglioramento di circa 1,5 punti percentuali.
Quanto deve essere grande il campione per variante?
- Con 4,0 % vs. 5,5 %: circa 3.500 visitatori per variante
- Con 4,0 % vs. 4,5 %: circa 19.000 visitatori per variante
Conclusione: Piccoli effetti richiedono grandi quantità di dati. Se si sottovaluta questo aspetto, si otterranno intervalli di confidenza che si sovrappongono notevolmente e risultati su cui non si può fare affidamento.
Raccomandazioni per la pratica
Pianificare sempre i test al contrario: determinare l'effetto minimo che si vuole dimostrare e calcolare la dimensione del campione necessaria a partire da questo. A tale scopo, utilizzate un calcolatore di significatività . Non iniziate alla cieca, ma con un chiaro obiettivo di durata, volume di dati e livello di confidenza.
I test A/B senza una pianificazione fondata delle dimensioni generano solo rumore statistico in caso di dubbio.
Insidie pratiche: gli errori più comuni nel pensare agli intervalli di confidenza
Errore 1: confondere l'intervallo di confidenza con la certezza
Errore 2: annullare il test non appena viene raggiunta la significativitÃ
Errore 3: Confrontare gli intervalli di confidenza come valori fissi
Errore 4: statisticamente significativo = praticamente rilevante
Errore 5: confrontare più varianti senza personalizzazione
Conclusioni e raccomandazioni per la pratica: come utilizzare le statistiche per ottenere test migliori
Gli intervalli di confidenza non sono una conoscenza aggiuntiva per i nerd della statistica. Sono uno strumento fondamentale per chiunque voglia analizzare in modo affidabile i test A/B e prendere decisioni fondate.
Chi li ignora vola alla cieca. Chi li usa correttamente non solo riconosce se un risultato è sicuro, ma anche quanto è sicuro e quanto potrebbe essere grande l'effetto.
Tre insegnamenti chiave
1. un singolo valore percentuale non è sufficiente
Senza un intervallo di confidenza, non esiste un quadro di riferimento per classificare correttamente i risultati.
2. la significatività da sola non basta
Statisticamente evidente non significa operativamente rilevante. L'ampiezza dell'intervallo fa la differenza.
3. la qualità del test dipende dalla preparazione
Se non si fa una pianificazione delle dimensioni, non si possono fare affermazioni affidabili nemmeno con statistiche pulite.
Tre raccomandazioni per la pratica
1. controllare consapevolmente gli intervalli di confidenza
In ogni rapporto di prova, prestare attenzione a quanto sono vicini gli intervalli e se si sovrappongono.
2. effettuare una pianificazione delle dimensioni prima di iniziare il test
Utilizzate una calcolatrice per determinare le dimensioni del campione e il tempo di esecuzione in base alle vostre aspettative.
3. non accettare i risultati degli strumenti senza averli verificati
Chiedetevi cosa mostra esattamente il vostro strumento e come viene effettuato il calcolo.
Coloro che comprendono gli intervalli di confidenza effettuano test previdenti e prendono decisioni che funzionano.
Altri articoli sui test A/B
👉 Test A/B: come funziona, consigli e soluzioni
Una guida completa con istruzioni in 5 fasi per test A/B efficaci, dall'ipotesi alla valutazione.
👉 Test degli utenti: metodi, processi e metriche
Scoprite come il feedback reale degli utenti porti a decisioni migliori grazie a test mirati.
👉 Ottimizzazione efficace attraverso i test multivariati
Imparate a testare diversi elementi contemporaneamente per identificare la combinazione migliore.
👉 I test A/A spiegati: la validazione per dati affidabili
Perché i test A/A sono importanti per convalidare la configurazione dei test e garantire la qualità dei dati.
👉 10 bandiere rosse nei test A/B che dovreste evitare
Gli errori più comuni nei test A/B e come evitarli.
👉 Test A/B di Big Query
Come analizzare in modo efficiente i test A/B a livello di dati con BigQuery e Varify.io.
👉 Tracciamento lato server con GTM e GA4
Maggiore controllo sui dati grazie al tracciamento lato server con Google Tag Manager e GA4.
👉 Test A/B per Shopify: tutto quello che c'è da sapere
Strategie intelligenti e suggerimenti tecnici per il successo dei test A/B nei negozi Shopify.
👉 Split test spiegati in modo semplice: definizione, applicazione, implementazione
Ecco come funzionano gli split test e come utilizzarli nello specifico.
👉 Test A/B di WordPress
Come integrare efficacemente i test A/B nel vostro sito web WordPress.
👉 Temi Shopify Test A/B
Ottimizzazione dei temi di Shopify attraverso test A/B mirati per migliorare i tassi di conversione.