Intervallo di confidenza nei test A/B: la variabile sottovalutata per ottenere risultati validi

Pubblicato il 14 luglio 2025
Indice dei contenuti

Un test A/B funziona bene. La variante B sembra migliore, persino statisticamente significativa. Decisione presa, test completato.

Ma poco dopo il risultato si annulla. Il miglioramento si spegne. Cosa è andato storto?

Molti si basano sul valore p. Questo indica solo se una differenza è probabile. Non quanto sia certo il risultato.

Gli intervalli di confidenza aiutano in questo senso. Mostrano quanto è stabile il risultato del test e quanta incertezza contiene.

Senza questa comprensione, prenderete decisioni che vi costeranno denaro in seguito.

Indice dei contenuti

Intervallo di confidenza: cos'è veramente e perché ne avete bisogno

Un intervallo di confidenza indica la precisione della stima del tasso di conversione.

Esempio: avete testato 2.000 utenti, 82 dei quali hanno convertito. Il risultato è un tasso di conversione di 4,1 %.

Uno strumento statistico calcola un intervallo di confidenza di [3,3 % - 5,0 %], con un livello di confidenza di 95 %.

Ciò significa che se si esegue lo stesso test 100 volte con nuovi utenti, il risultato reale rientrerà in questo intervallo in circa 95 di queste esecuzioni.

Qual è il livello di fiducia?

Il livello di confidenza indica la certezza che l'intervallo contenga il valore vero.
In pratica, si utilizza quasi sempre il 95 %. Un buon compromesso tra sicurezza ed efficienza.
Più alto è il livello, più ampio è l'intervallo, ma anche più cauta la valutazione.

Perché è importante

  • Una singola cifra percentuale sembra precisa, ma è solo una stima.
  • Solo l'intervallo mostra quanto sia affidabile questa stima
  • Più piccolo è il campione, maggiore è la fluttuazione
  • Più alto è il livello di fiducia, più conservativa è la valutazione.

Come gli intervalli di confidenza convalidano i test A/B

Immaginate di testare due varianti di una pagina di destinazione:

  • Variante A: Conversione 4.1 %
  • Variante B: Conversione 4.9 %

 

Senza ulteriori informazioni, B sembra il chiaro vincitore. Ma solo un'occhiata agli intervalli di confidenza mostra se ci si può fidare:

A: [3,6 % - 4,6 %]

B: [4,3 % - 5,5 %]

Gli intervalli non si sovrappongono. Questo è un segnale forte: il miglioramento è probabilmente reale.

Un altro scenario:

A: [3,6 % - 4,6 %]

B: [4,0 % - 5,3 %]

Ora c'è una sovrapposizione. Ciò significa che le due varianti potrebbero effettivamente avere le stesse prestazioni. La differenza misurata potrebbe essere nata per caso. Una decisione su questa base sarebbe rischiosa.

Regola empirica:

  • Nessuna sovrapposizione → Decisione possibile
  • Sovrapposizione → risultato incerto, estendere il test o il set a più basi di dati

Cosa vi porta questo

  • Si può riconoscere se una differenza è statisticamente verificata o solo apparentemente esistente.
  • Non solo prendete le decisioni più velocemente, ma anche con una qualità superiore.
  • Si riduce il rischio di investire risorse in una variante presumibilmente migliore.

Le zone a rischio sottostimate: Livello di confidenza, errori di 1° e 2° tipo

Un test A/B mostra un livello di confidenza del 95 %. Sembra affidabile, ma cosa significa esattamente?

Ciò significa che se si esegue lo stesso test un centinaio di volte con altri visitatori, il risultato reale rientrerà nell'intervallo di confidenza calcolato in circa 95 casi. In cinque casi, invece, non lo sarà. Questo cinque per cento corrisponde alla probabilità di errore che si aggiunge a ogni test. Si tratta del cosiddetto errore del 1° tipo.

Errore 1. tipo: si pensa che un risultato casuale sia reale

Un esempio:

  • Variante A: 4,1 conversioni % (820 conversioni con 20.000 visitatori)
  • Variante B: 4,6 conversioni % (920 conversioni con 20.000 visitatori)
  • p-value: 0,045
  • Intervalli di confidenza:
    A: [3,8 % - 4,4 %]
    B: [4,3 % - 4.9 %]

Sembra convincente. B sembra migliore, gli intervalli si sovrappongono appena. Tuttavia, il risultato potrebbe essere frutto del caso. In questo caso, la decisione sarebbe sbagliata, anche se il test è formalmente corretto.

Perché? I due intervalli di confidenza sono vicini. La variante A termina a 4,4 %, mentre la variante B inizia a 4,3 %. Questo scarto minimo potrebbe essere dovuto al caso. In realtà, entrambe le varianti potrebbero avere le stesse prestazioni. Il metodo riconosce la "significatività", ma non l'incertezza del risultato. Questo è proprio il primo tipo di errore: si crede che una variante sia migliore, anche se l'effetto non è affidabile.

Errore 2: si trascura una variante effettivamente migliore

Un altro scenario:

  • Variante A: 4,1 per cento (123 conversioni con 3.000 visitatori)
  • Variante B: 4,8 per cento (144 conversioni con 3.000 visitatori)
  • Valore p: 0,12
  • Intervalli di confidenza:
    A: [3,4 % - 4,9 %]
    B: [4,0 % - 5,7 %]

I valori della variante B sono migliori, ma gli intervalli di confidenza si sovrappongono in modo significativo. Il limite superiore di A è del 4,9%, quello inferiore di B del 4,0%. Ciò significa che la differenza non è sufficientemente chiara.

Perché si tratta di un secondo tipo di errore?

Perché, sebbene l'effetto esista, non è statisticamente verificabile. Almeno non con questa quantità di dati. La potenza del test non è sufficiente a rendere visibile la differenza. Si rifiuta la variante B, anche se in realtà è migliore. L'errore non sta nell'interpretazione, ma nell'inadeguatezza del database.

In questi casi, solo una cosa è utile: Estendete la durata del test, raccogliete più dati o decidete in base a criteri aggiuntivi. Questi potrebbero essere, ad esempio, la dimensione dell'effetto, l'impatto sull'azienda o l'esperienza precedente. Se si giunge a una conclusione generalizzata di "non significativo", spesso si perdono vere opportunità.

Come pianificare il tempo di esecuzione del test e la dimensione del campione con intervalli di confidenza

Molti test A/B vengono conclusi troppo presto. Un valore raggiunge la soglia di significatività, i tassi di conversione sembrano buoni e l'esperimento viene cancellato. Ma senza osservare l'intervallo di confidenza, non è chiaro quanto sia stabile il risultato. Se si decide troppo in fretta, si rischiano affermazioni distorte e misure non correttamente prioritarie.

Cosa influenza l'ampiezza dell'intervallo di confidenza?

Un intervallo di confidenza si restringe con il crescere dei dati raccolti.
Tre fattori sono decisivi:

  1. Dimensione del campione: Un maggior numero di utenti porta a un minor rumore statistico
  2. Stabilità dei tassi di conversione: Le grandi fluttuazioni aumentano l'intervallo
  3. Livello di confidenza: Un livello più alto significa un intervallo più ampio
Più piccola è la differenza che si vuole misurare, più visitatori sono necessari per ottenere un risultato affidabile.

Esempio: come la differenza prevista influenza la vostra pianificazione

Ci si aspetta un miglioramento di circa 1,5 punti percentuali.
Quanto deve essere grande il campione per variante?

  • Con 4,0 % vs. 5,5 %: circa 3.500 visitatori per variante
  • Con 4,0 % vs. 4,5 %: circa 19.000 visitatori per variante

Conclusione: Piccoli effetti richiedono grandi quantità di dati. Se si sottovaluta questo aspetto, si otterranno intervalli di confidenza che si sovrappongono notevolmente e risultati su cui non si può fare affidamento.

Raccomandazioni per la pratica

Pianificare sempre i test al contrario: determinare l'effetto minimo che si vuole dimostrare e calcolare la dimensione del campione necessaria a partire da questo. A tale scopo, utilizzate un calcolatore di significatività. Non iniziate alla cieca, ma con un chiaro obiettivo di durata, volume di dati e livello di confidenza.

I test A/B senza una pianificazione fondata delle dimensioni generano solo rumore statistico in caso di dubbio.

Insidie pratiche: gli errori più comuni nel pensare agli intervalli di confidenza

Anche se gli intervalli di confidenza sono noti da tempo a molti, nella pratica sono spesso fraintesi o applicati in modo errato. Soprattutto nei test di tutti i giorni, si verificano tipici errori di ragionamento che compromettono in modo massiccio la validità di un test.

Errore 1: confondere l'intervallo di confidenza con la certezza

Un intervallo di [4,3 % - 5,1 %] con un livello di confidenza del 95 % non significa che il valore vero si trovi sicuramente all'interno di questo intervallo. Significa che in 5 casi su 100 l'intervallo potrebbe essere sbagliato, anche se si è calcolato tutto correttamente.

Errore 2: annullare il test non appena viene raggiunta la significatività

Molti strumenti mostrano un risultato "significativo" in una fase iniziale. Se poi ci si ferma, si rischia un errore di 1° tipo. Un test breve con un campione piccolo è suscettibile agli outlier. Senza intervalli di confidenza stabili, ogni decisione è prematura.

Errore 3: Confrontare gli intervalli di confidenza come valori fissi

Una differenza di 0,4 punti percentuali può essere statisticamente rilevante o irrilevante, a seconda dell'ampiezza dell'intervallo. Se si considerano solo i valori medi e si ignorano gli intervalli, si prendono decisioni basate su una precisione apparente.

Errore 4: statisticamente significativo = praticamente rilevante

Un effetto può essere significativo, ma non significativo in termini di contenuto. Esempio: 0,2 punti percentuali di differenza con un campione ampio. Statisticamente stabile, ma poco rilevante in termini operativi. Gli intervalli di confidenza aiutano a valutare insieme effetto e dimensione.

Errore 5: confrontare più varianti senza personalizzazione

Nei test multivariati, il rischio di errori del primo tipo aumenta con ogni variante aggiuntiva. Chiunque confronti gli intervalli di confidenza senza correzioni aumenta inconsapevolmente la probabilità di errore. Ciò richiede un adeguato aggiustamento statistico (ad esempio, la correzione di Bonferroni o il disegno di un esperimento controllato).

Conclusioni e raccomandazioni per la pratica: come utilizzare le statistiche per ottenere test migliori

Gli intervalli di confidenza non sono una conoscenza aggiuntiva per i nerd della statistica. Sono uno strumento fondamentale per chiunque voglia analizzare in modo affidabile i test A/B e prendere decisioni fondate.

Chi li ignora vola alla cieca. Chi li usa correttamente non solo riconosce se un risultato è sicuro, ma anche quanto è sicuro e quanto potrebbe essere grande l'effetto.

Tre insegnamenti chiave

1. un singolo valore percentuale non è sufficiente
Senza un intervallo di confidenza, non esiste un quadro di riferimento per classificare correttamente i risultati.

2. la significatività da sola non basta
Statisticamente evidente non significa operativamente rilevante. L'ampiezza dell'intervallo fa la differenza.

3. la qualità del test dipende dalla preparazione
Se non si fa una pianificazione delle dimensioni, non si possono fare affermazioni affidabili nemmeno con statistiche pulite.

Tre raccomandazioni per la pratica

1. controllare consapevolmente gli intervalli di confidenza
In ogni rapporto di prova, prestare attenzione a quanto sono vicini gli intervalli e se si sovrappongono.

2. effettuare una pianificazione delle dimensioni prima di iniziare il test
Utilizzate una calcolatrice per determinare le dimensioni del campione e il tempo di esecuzione in base alle vostre aspettative.

3. non accettare i risultati degli strumenti senza averli verificati
Chiedetevi cosa mostra esattamente il vostro strumento e come viene effettuato il calcolo.

Coloro che comprendono gli intervalli di confidenza effettuano test previdenti e prendono decisioni che funzionano.

Altri articoli sui test A/B

👉 Test A/B: come funziona, consigli e soluzioni
Una guida completa con istruzioni in 5 fasi per test A/B efficaci, dall'ipotesi alla valutazione.

👉 Test degli utenti: metodi, processi e metriche
Scoprite come il feedback reale degli utenti porti a decisioni migliori grazie a test mirati.

👉 Ottimizzazione efficace attraverso i test multivariati
Imparate a testare diversi elementi contemporaneamente per identificare la combinazione migliore.

👉 I test A/A spiegati: la validazione per dati affidabili
Perché i test A/A sono importanti per convalidare la configurazione dei test e garantire la qualità dei dati.

👉 10 bandiere rosse nei test A/B che dovreste evitare
Gli errori più comuni nei test A/B e come evitarli.

👉 Test A/B di Big Query
Come analizzare in modo efficiente i test A/B a livello di dati con BigQuery e Varify.io.

👉 Tracciamento lato server con GTM e GA4
Maggiore controllo sui dati grazie al tracciamento lato server con Google Tag Manager e GA4.

👉 Test A/B per Shopify: tutto quello che c'è da sapere
Strategie intelligenti e suggerimenti tecnici per il successo dei test A/B nei negozi Shopify.

👉 Split test spiegati in modo semplice: definizione, applicazione, implementazione
Ecco come funzionano gli split test e come utilizzarli nello specifico.

👉 Test A/B di WordPress
Come integrare efficacemente i test A/B nel vostro sito web WordPress.

👉 Temi Shopify Test A/B
Ottimizzazione dei temi di Shopify attraverso test A/B mirati per migliorare i tassi di conversione.

Steffen Schulz
Immagine dell'autore
CPO Varify.io
Condividi l'articolo!

Aspettate,

È tempo di Uplift

Ricevete gratuitamente ogni mese i nostri potenti CRO Insights.

Acconsento alla raccolta e al trattamento dei dati di cui sopra ai fini della ricezione della newsletter via e-mail. Ho preso visione dell'informativa sulla privacy e lo confermo inviando il modulo.