PaneliaTools

Stichprobengröße für einen A/B-Test

Die meisten A/B-Tests scheitern, bevor sie beginnen: zu wenig Traffic pro Variante — und der beobachtete Unterschied bleibt im statistischen Rauschen. Dimensionieren Sie vor dem Start die Größenordnung: Dieser Rechner, voreingestellt auf eine feine Marge von ±2 %, liefert die Nutzerzahl, um jede Variante präzise zu messen — planen Sie dieses Volumen IN JEDEM Zweig des Tests ein.

Behalten Sie den Zielunterschied im Kopf: Eine Umfrage schätzt einen Anteil; ein A/B-Test erkennt eine Differenz zwischen zwei Anteilen. Die Größe unten garantiert die Messpräzision jeder Variante. Um die Erkennung eines kleinen Uplifts (z. B. +1 Konversionspunkt) rigoros zu dimensionieren, ergänzen Sie eine Poweranalyse mit minimal detektierbarem Effekt und β-Risiko.

Konfidenzniveau

95 % ist der Standard in der Marktforschung. z-Werte: 1,645 · 1,96 · 2,576 (statistische Tabellen, NIST).

Die akzeptable Abweichung zwischen Ihrer Stichprobe und der Realität. ±5 % ist die häufigste Wahl.

Wenn Sie unsicher sind, lassen Sie 50 %: der ungünstigste Fall, der die größte Stichprobe erfordert.

Die Gesamtzahl der Personen Ihrer Zielgruppe. Ab ~100 000 ist der Einfluss vernachlässigbar: leer lassen.

Benötigte Befragte

2.401

Sie benötigen 2.401 Befragte für ein Konfidenzniveau von 95 % bei einer Fehlermarge von ±2 %.

Exportieren:

Wie viele Befragte je Präzisionsniveau?

Präzision ist teuer: von ±5 % auf ±2 % versechsfacht sich die Stichprobe.

101001.00010.0001 %3 %5 %8 %10 %Fehlermarge

Übersichtstabelle

Stichprobengröße für die häufigsten Kombinationen.

Übersichtstabelle
Konfidenz± 3 %± 5 %± 10 %
90 %75227168
95 %1.06838597
99 %1.844664166

Die Stichprobe steht. Bleibt die Feldarbeit…

Klassische Feldarbeit dauert 6 Wochen und kostet 10 000 €. Panelia simuliert über 300 kalibrierte Befragte in 10 Minuten.

Meine Studie simulieren

Häufige Fragen

Gilt das Ergebnis für den ganzen Test oder pro Variante?
Pro Variante. Ein A/B-Test mit ±2 % und 95 % Konfidenz braucht ~2 401 Nutzer im Zweig A UND ebenso viele im Zweig B.
Warum ±2 % statt ±5 % für einen A/B-Test?
Weil reale Konversionsunterschiede oft klein sind (1–3 Punkte). Mit ±5 % Marge ist ein Uplift von 2 Punkten nicht nachweisbar: Die Intervalle beider Varianten überlappen sich.
Wann darf ich meinen Test stoppen?
Wenn jede Variante die VORAB berechnete Größe erreicht hat — nicht, wenn der Unterschied signifikant wird. Einen Test zu stoppen, sobald er „grün“ wird, bläht die Falsch-Positiv-Rate drastisch auf.
Meine Konversionsrate liegt bei 3 %, nicht bei 50 %. Was ändert das?
Tragen Sie 3 % beim „erwarteten Anteil“ ein: p·(1−p) schrumpft und die benötigte Stichprobe sinkt. 50 % bleibt die vorsichtige Wahl, wenn Sie Ihre Basisrate nicht kennen.