Was ist A/B-Testing?
A/B-Testing, auch Split Testing genannt, ist ein Vergleichsverfahren, bei dem zwei Varianten eines Produkts, Inhalts oder Designs gegeneinander getestet und miteinander verglichen werden – etwa das bisherige Design (A) gegen eine neue Version (B). Zum Beispiel erhalten Besuchende einer Website zufällig eine von zwei Design-Varianten, um diese miteinander vergleichen zu können [1].
Ziel ist es herauszufinden, welche Version besser funktioniert – zum Beispiel mehr Klicks erzeugt, zu längeren Verweildauern, mehr abgeschlossenen Bestellungen führt oder allgemein verständlicher ist. So können Entscheidungen auf Basis echter Nutzung getroffen werden.
A/B-Testing eignet sich besonders gut, um einzelne Gestaltungselemente zu prüfen: Etwa die Farbe eines Buttons, die Platzierung eines Formulars oder die Länge eines Textes. Wichtig ist dabei: Pro Test sollte nur eine Änderung erfolgen – sonst bleibt unklar, was wirklich den Unterschied gemacht hat [6].
Vorteile der Methode
A/B-Testing macht es möglich, Produkte systematisch zu verbessern – und zwar auf Basis des tatsächlichen Verhaltens von Nutzenden. Durch den direkten Vergleich zeigt sich, welche Variante verständlicher ist, besser funktioniert oder eher zur gewünschten Handlung führt.
Das hat gleich mehrere Vorteile:
Die Methode hilft, Probleme in der Nutzung früh zu erkennen und Designentscheidungen zu treffen. Sie bringt Struktur in Optimierungsprozesse, die sonst oft planlos verlaufen. Vor allem aber ermöglicht A/B-Testing, Entscheidungen auf der Basis von Daten zu treffen. Das reduziert (frühzeitige) Fehlentwicklungen und stärkt das Vertrauen in das eigene Produkt.
Auch das Engagement der Zielgruppe lässt sich verbessern: Wer gezielt herausfindet, welche Inhalte, Funktionen oder Designs gut ankommen, kann Angebote besser darauf abstimmen. Das steigert nicht nur die Zufriedenheit der Nutzenden, sondern oft auch die Conversion Rate oder Konversionsrate – also den Anteil derer, die eine gewünschte Handlung ausführen, etwa einen Kauf abschließen [2, 3, 6].
Die richtige Vorbereitung in vier Schritten
Ein erfolgreicher A/B-Test braucht etwas Planung. Wenn Sie diese vier Schritte beachten, legen Sie die Grundlage für gute Ergebnisse:
1. Testhypothese formulieren und Ziele definieren
Ein A/B-Test startet mit einer Annahme: Was wollen Sie verändern – und was erwarten Sie davon? Die Annahme bzw. Hypothese die man zu Beginn aufstellt, bestimmt das weitere Vorgehen und sollte direkt mit einem klar definierten Ziel verbunden sein, das Sie mit Ihrem A/B-Test erreichen möchten.
Die Testhypothese beschreibt die vermutete Wirkung einer bestimmten Änderung – z. B., dass ein neuer Button-Text (Änderung) zu mehr Klicks (Ergebnis) führt.
Folgende Kriterien sollte eine Hypothese erfüllen:
-
verifizierbar / falsifizierbar (sie kann bestätigt oder widerlegt werden)
-
eindeutig (widerspruchsfrei)
-
nachvollziehbar (begründet)
-
messbar bzw. operationalisierbar (in Variablen/Messgrößen übersetzbar)
Beispiel:
„Sie betreiben eine E-Commerce-Website. Sie haben in qualitativen Usability-Tests beobachtet, dass mehrere Teilnehmende einen Button mit der Aufschrift „Kaufen“ nicht beachtet haben. Ihre Hypothese ist, dass eine Designänderung die Konversionsrate von diesem Button erhöhen wird, was schließlich zu höheren Klicks und Umsätzen führt“ [5, 6].
2. Eine konkrete Änderung festlegen
Nachdem Sie eine Hypothese aufgestellt haben, müssen Sie entscheiden, welche Änderungen an welchem Designelement vorgenommen werden sollen, um Ihre Hypothese zu testen. Diese Änderungen sollten nur ein einziges Designelement betreffen und keine umfassende Überarbeitung des Designs darstellen. So bleibt klar, welche Änderung den Effekt verursacht hat.
Beispiel:
„Auf der Grundlage Ihrer Erkenntnisse aus qualitativen Usability-Tests beschließen Sie, die Beschriftung des Buttons zu ändern. Die Teilnehmenden haben während der Usability-Tests zwar den Button wahrgenommen, waren sich aber nicht sicher, was er aussagen soll. Sie behalten also das visuelle Design der Schaltfläche bei, ändern aber die Beschriftung in ‚Jetzt Kaufen‘ “ [6].
3. Erfolgskennzahlen definieren
Was soll sich verbessern? Klickrate, Anmeldungen, Käufe? Um das zu messen, braucht es konkret festgelegte Kennzahlen sogenannte Hauptkennzahlen. Diese sollten eng mit der formulierten Hypothese verbunden sein. Möchten Sie zum Beispiel testen, ob ein geänderter Button-Text zu mehr Käufen führt, könnte die primäre Kennzahl die Klickrate auf den Button sein.
Ergänzend dazu sollten Leitplankenmetriken festgelegt werden. Sie dienen als Sicherheitsnetz und helfen zu erkennen, ob eine scheinbar positive Veränderung an anderer Stelle negative Folgen hat. Leitplankenmetriken könnten z. B. die Absprungrate oder der Umsatz sein.
Beispiel:
Eine vereinfachte Kaufabwicklung kann zwar zu mehr Bestellungen führen – aber wenn dadurch weniger Produktempfehlungen angezeigt werden, kann der durchschnittliche Bestellwert sinken. Genau solche Nebenwirkungen machen Leitplankenmetriken sichtbar. [6] [7]
Wichtig ist: Alle Kennzahlen sollten messbar sein, auf die jeweilige Variante (A oder B) zurückgeführt werden können und relevant für das Ziel des Tests sein. Nur so lässt sich am Ende beurteilen, ob die Hypothese bestätigt oder verworfen werden kann.
4. Testdauer und Stichprobengröße planen
Testdauer
Damit ein A/B-Test verlässliche Ergebnisse liefert, sollten zwei Dinge im Vorfeld geklärt sein: Wie viele Personen müssen teilnehmen? Und wie lange soll der Test laufen?
Beide Faktoren hängen vor allem von den täglichen Besuchenden (Website-Traffic) und der Anzahl an zu testenden Varianten ab. Grundsätzlich gilt:
Je mehr Varianten getestet werden, desto mehr Testpersonen braucht man insgesamt und je höher der Website-Traffic (Anzahl der Besuchenden der Webseite) desto schneller erhält man ein aussagekräftiges Ergebnis [8].
Ein Test sollte mindestens ein bis zwei Wochen laufen – selbst bei hohem Besucheraufkommen. So lassen sich Schwankungen zwischen Wochentagen, Zielgruppen oder äußeren Einflüssen (z. B. Wochenenden, Feiertage) ausgleichen und das Ergebnis besser einordnen [6, 8].
Stichprobengröße berechnen
Die angestrebte Stichprobengröße hängt von vier Aspekten ab:
1) Erwartete Konversionsrate: Gibt den prozentualen Anteil der Besuchenden an, die eine gewünschte Handlung ausführen. Sie basiert auf Erfahrungswerten oder bisherigen Daten.
2) Minimale Effektgröße: Gibt an, um wieviel Prozent, die eine Variante besser oder schlechter sein müsste, damit der Unterschied als relevant gilt.
Faustregel: Je kleiner die minimale Effektgröße, desto größer die Stichprobengröße.
Sie kann entweder in absoluten oder relativen Prozenten angegeben werden.
3) Irrtumswahrscheinlichkeit: Die Wahrscheinlichkeit, dass ein Unterschied festgestellt wird, obwohl keiner existiert. In der Praxis liegt dieser Wert meist bei 5 %.
4) Teststärke: Zeigt, mit welcher Wahrscheinlichkeit ein existierender Unterschied zwischen den Varianten erkannt wird. Der Standard liegt hier bei 80%.
Für die Berechnung der Stichprobengröße können Sie Online- Stichprobenrechner wie Evan Miller oder Abtasty nutzen – dort lassen sich alle vier Aspekte direkt eingeben.
Beispiel:
Sie möchten die Betreffzeile Ihres E-Mail-Newsletters optimieren. Aktuell liegt die durchschnittliche Konversionsrate bei 30 %. Die neue Variante soll mindestens 10 % besser abschneiden – das ist Ihre minimale Effektgröße (relative Prozentangabe).
Bei einer Teststärke von 80 % und einer Irrtumswahrscheinlichkeit von 5 % ergibt die Berechnung:
Sie benötigen rund 3.692 Testpersonen pro Variante, um ein statistisch signifikantes Ergebnis zu erhalten. [9]
Die Abbildung 1 zeigt das angenommene Beispiel und das Ergebnis der Stichprobengrößenberechnung mit Hilfe des Evan Miller Kalkulators.
Wo kommt A/B-Testing zum Einsatz?
A/B-Testing wird in zahlreichen Bereichen zur Verbesserung der Conversion Rate (siehe oben) und der User Experience eingesetzt. Besonders verbreitet ist die Methode im Online-Handel – etwa bei Produktdarstellungen, Bestellprozessen oder Preisangaben. Auch in Medien- und Unterhaltungsangeboten werden A/B-Tests genutzt, zum Beispiel zur Auswahl von Überschriften, Bildern oder Vorschlägen.
Weitere typische Anwendungsfelder sind digitale Werbeanzeigen, Newsletter, mobile Anwendungen, Social Media Beiträge oder Anmeldeprozesse. Ebenso relevant ist A/B-Testing bei webbasierten Softwarelösungen, etwa zur Optimierung von Benutzerführung, Funktionalitäten oder Oberflächengestaltung. Selbst bei Printmaterialien, Formularen oder Verpackungsgestaltungen lassen sich verschiedene Varianten gezielt vergleichen [3, 4, 6].
Häufig gemachte Fehler bei A/B-Tests
Auch wenn A/B-Testing leicht umzusetzen ist, gibt es Punkte, die zu vermeiden sind. Häufige Fehler sind:
-
Tests ohne Hypothese: Wer „einfach mal testet“, gewinnt am Ende keine belastbaren Erkenntnisse.
-
Zu frühes Abbrechen: Ergebnisse sollten erst ausgewertet werden, wenn genug Daten vorliegen – sonst kommt es zu Fehlinterpretationen der Ergebnisse.
-
Neuheitseffekt & Gewöhnung: Neue Varianten wirken oft kurzfristig attraktiver (Neuheitseffekt) oder werden von Bestandsnutzenden abgelehnt (Primäreffekt). Deshalb sollte man Ergebnisse auch nach Nutzendengruppen unterscheiden und differenziert betrachten.
-
Test ohne Berücksichtigung des Umfelds: Statistisch signifikant heißt nicht automatisch praxisrelevant. Die Ergebnisse müssen zur Zielgruppe und zur Situation des Unternehmens passen [6].
-
Die Testdauer und Stichprobengröße wird nicht vorab festgelegt: Die Testdauer und die Stichprobengröße sollten jeweils an das Forschungsproblem, die Hypothese und den Zeitraum, in dem die Studie durchgeführt werden soll, angepasst werden. Je mehr Varianten oder Elemente getestet werden, desto mehr Testpersonen und Zeit sollte man einplanen. Wer nicht konkret plant, riskiert unklare Ergebnisse – selbst wenn der Test formal korrekt durchgeführt wurde [8, 9].
Und nicht zuletzt gilt: Eine positive Veränderung bei einer Kennzahl bedeutet nicht automatisch einen langfristigen Erfolg. A/B-Testing sollte deshalb Teil eines größeren UX-Prozesses sein – und nicht als alleinige Lösung verstanden werden [6].
Wer sich dieser Grenzen bewusst ist und methodisch sauber arbeitet, kann A/B-Testing als wertvolles Werkzeug nutzen – auch mit begrenzten Ressourcen.
Fazit
A/B-Testing ist ein wirkungsvolles Werkzeug zur nutzerzentrierten Optimierung von Produkten. Wer strukturiert vorgeht, klare Hypothesen aufstellt und die richtigen Erfolgskennzahlen wählt, kann mit vergleichsweise geringem Aufwand wertvolle Erkenntnisse gewinnen – und so Entscheidungen datenbasiert treffen.
Quellen
[1] Optimizely. 2025. Was ist A/B Testing? Optimizely. Retrieved April 16, 2025 from www.optimizely.com/de/optimization-glossary/ab-testing/
[2] Sohrab Salimi. A/B Testing. Agile Academy. Retrieved June 18, 2025 from www.agile-academy.com/de/agiles-lexikon/a-b-testing/
[3] Manuel Stegemann and Thomas Suwelack. 2020. A/B-Testing – Verfahren zur Optimierung der digitalen Interaktion zwischen Konsumenten und Unternehmen. In Data-driven Marketing: Insights aus Wissenschaft und Praxis, Silvia Boßow-Thies, Christina Hofmann-Stölting and Heike Jochims (eds.). Springer Fachmedien, Wiesbaden, 159–176. doi.org/10.1007/978-3-658-29995-8_7
[4] The Story. A/B-Tests — wie führt man A/B-Tests durch? Retrieved June 18, 2025 from thestory.is/de/journal/ab-ux-tests/
[5] 2024. How to: Die optimale Hypothese als Basis für einen erfolgreichen A/B-Test. Retrieved June 18, 2025 from www.mstage.at/blog/artikel/optimale-hypothese-als-basis-fuer-einen-erfolgreichen-a-b-test
[6] A/B Testing 101. Nielsen Norman Group. Retrieved June 18, 2025 from www.nngroup.com/articles/ab-testing/
[7] Wie man die Metriken der Leitplanken misst (+ Beispiele). Retrieved June 18, 2025 from clickup.com/de/blog/228518/leitplankenmetriken
[8] A/B-Test: Wie berechne ich Stichproben und Testdauer? | Kameleoon. Retrieved June 18, 2025 from www.kameleoon.com/de/blog/ab-test-wie-berechne-ich-stichproben-und-testdauer
[9] Stichprobengröße im A/B-Testing – so rechnest du richtig. Retrieved June 18, 2025 from www.webit.de/marketing-automation/stichproben-ab/