Von Abhay Talreja
1.2.2026
Mein neuester Artikel - Empirical Process Control - The Key to Agile Success
Relative Schätzung in Agile: Der vollständige Leitfaden zur Arbeitsbewertung ohne Stunden
Relative Schätzung ist eine Technik, bei der Teams Arbeitspakete durch Vergleich untereinander bewerten, anstatt in absoluten Einheiten wie Stunden oder Tagen zu schätzen. Anstatt zu fragen „Wie lange wird das dauern?", fragen Teams „Ist das größer oder kleiner als das andere, was wir gemacht haben?" Dieser Perspektivwechsel ist eines der wirkungsvollsten - und am häufigsten missverstandenen - Konzepte in Agile. Teams, die relative Schätzung anwenden, erstellen durchgängig genauere Prognosen, verbringen weniger Zeit mit Schätzungen und decken versteckte Risiken früher auf. Dieser Leitfaden behandelt, warum relative Schätzung funktioniert, welche Techniken verfügbar sind, wie man sie implementiert und welche Fehler Teams zum Scheitern bringen.
| Aspekt | Relative Schätzung | Absolute Schätzung |
|---|---|---|
| Was Sie schätzen | Größe im Vergleich zu anderen Arbeitspaketen | Stunden, Tage oder Kalenderzeit |
| Kernfrage | „Ist das größer oder kleiner als X?" | „Wie viele Stunden wird das dauern?" |
| Maßeinheit | Story Points, T-Shirt-Größen oder Kategorien | Stunden, Tage oder Personentage |
| Genauigkeit | Bewusst grob (z.B. Fibonacci-Skala) | Scheinbar präzise („genau 14 Stunden") |
| Personenabhängig | Nein - das Team schätzt gemeinsam | Ja - hängt davon ab, wer die Arbeit erledigt |
| Treffsicherheit über Zeit | Verbessert sich, wenn das Team die Velocity kalibriert | Bleibt inkonsistent, unabhängig von der Übung |
| Am besten für | Sprint Planning, Release-Prognosen, Backlog-Dimensionierung | Aufgabenzerlegung innerhalb einer Story, Zeiterfassung |
Relative Schätzung ist die Praxis, Arbeitspakete durch Vergleich untereinander zu bewerten, anstatt absolute Zeitwerte zuzuweisen. Wenn ein Team relative Schätzung verwendet, fragt es nicht „Wie viele Stunden wird diese Story dauern?", sondern „Wie verhält sich diese Story im Vergleich zu anderen Stories, die wir bereits bewertet oder abgeschlossen haben?"
Das Ergebnis ist eine relative Größe - eine Zahl, ein Label oder eine Kategorie, die das Element auf einer Skala im Vergleich zu allem anderen im Product Backlog einordnet. Eine Story, die auf 8 Punkte geschätzt wird, bedeutet nicht „8 Stunden" oder „8 Tage" - sie bedeutet „diese Story ist ungefähr 8/5 so groß wie unsere 5-Punkte-Referenz-Story."
Relative Schätzung ist NICHT im Scrum Guide enthalten. Der Scrum Guide schreibt keine bestimmte Schätztechnik vor. Relative Schätzung ist eine ergänzende Praxis, die von Scrum-Teams weit verbreitet eingesetzt wird, weil sie hervorragend mit Velocity-basierter Planung und empirischer Prozesskontrolle harmoniert. Für die PSM-1-Prüfung müssen Sie das Konzept verstehen, Arbeit relativ zu anderer Arbeit zu bewerten - nicht eine bestimmte Schätztechnik.
Stellen Sie sich vor, Sie sortieren einen Stapel Steine nach Gewicht. Sie haben zwei Möglichkeiten:
Der relative Ansatz ist schneller, benötigt keine Werkzeuge und liefert eine brauchbare Reihenfolge. Sie kennen nicht das genaue Gewicht jedes Steins, aber Sie wissen mit Sicherheit, dass Stein C etwa doppelt so schwer ist wie Stein A. Für Planungszwecke - „Kann ich diese Steine in einer Fahrt transportieren?" - reicht der relative Vergleich in der Regel aus.
Softwareschätzung funktioniert genauso. Sie müssen selten exakte Stunden wissen. Sie müssen die relative Größe kennen, um beantworten zu können: „Passt diese Arbeit in den nächsten Sprint?"
Das Weber-Fechner-Gesetz, das im 19. Jahrhundert formuliert wurde, besagt, dass Menschen Unterschiede in Reizen proportional und nicht absolut wahrnehmen. Sie können den Unterschied zwischen dem Heben eines 1-kg-Gewichts und eines 2-kg-Gewichts leicht erkennen (100% Unterschied). Aber den Unterschied zwischen einem 50-kg-Gewicht und einem 51-kg-Gewicht (2% Unterschied) zu erkennen, ist viel schwieriger, obwohl beide Unterschiede genau 1 kg betragen.
Dieses Gesetz erklärt, warum die Fibonacci-Sequenz so gut für Schätzungen funktioniert. Die Abstände zwischen den Werten wachsen proportional: 1-2-3-5-8-13-21. Jede Zahl ist ungefähr 60% größer als die vorherige. Das spiegelt wider, wie unser Gehirn Größenordnungen tatsächlich verarbeitet - wir unterscheiden proportionale Unterschiede, keine absoluten.
Wenn Teams in Stunden schätzen, werden sie gezwungen, absolute Urteile zu fällen, für die ihr Gehirn nicht gemacht ist. Wenn sie in relativen Größen mit wachsenden Intervallen schätzen, arbeiten sie mit ihren kognitiven Stärken statt dagegen.
Forschung in der kognitiven Psychologie zeigt durchgehend, dass Menschen wesentlich besser im Vergleichen sind als im Vorhersagen:
Teams, die von Stunden auf relative Schätzung umsteigen, sehen typischerweise innerhalb von 4-6 Sprints eine Verbesserung ihrer Prognosegenauigkeit, weil sie aufhören, gegen ihre eigene kognitive Architektur zu kämpfen.
Relative Schätzung gibt Teams einen konkreten Anker - eine Referenz-Story - der die Schätzung schneller und konsistenter macht. Ohne Anker beginnt jede Schätzsitzung von Null: „Also... sind das 16 Stunden?" Mit einer Referenz-Story ist das Gespräch fundiert: „Unsere 5-Punkte-Referenz-Story war die Benutzerprofil-API. Diese neue Story ist ähnlich komplex, aber mit mehr Unsicherheit durch die Drittanbieter-Integration, also ist sie wahrscheinlich eine 8."
Verankerung reduziert auch die Streuung der Schätzungen innerhalb eines Teams. Wenn alle gegen die gleiche Referenz vergleichen, konvergieren ihre Schätzungen natürlich. Ohne Referenz verankert jede Person an ihrem eigenen privaten mentalen Modell, was zu größerer Abweichung führt.
Absolute Schätzungen erzeugen Druck für falsche Präzision. „14 Stunden" zu sagen impliziert, dass Sie die Aufgabendauer mit einer Genauigkeit kennen, die Softwareentwicklung selten unterstützt. Wenn aus diesen 14 Stunden dann 22 Stunden werden, fühlt es sich wie ein Versagen an.
Relative Schätzungen begrüßen Unsicherheit von Natur aus. Zu sagen „das ist ungefähr so groß wie diese 8-Punkte-Story" erkennt an, dass Sie die genauen Stunden nicht kennen - und auch nicht kennen müssen. Die wachsenden Abstände der Fibonacci-Skala verhindern bewusst falsche Präzision: Sie können nicht „das ist eine 6" sagen, wenn Ihre Auswahlmöglichkeiten 5 oder 8 sind, und diese Grobheit ist ein Merkmal, kein Fehler.
Eine Referenz-Story ist ein gut verstandenes, abgeschlossenes Arbeitselement, das das Team als Maßstab für alle zukünftigen Schätzungen verwendet. Die Wahl der richtigen Referenz-Story ist entscheidend - sie wird zum Lineal, an dem alles andere gemessen wird.
Eigenschaften einer guten Referenz-Story:
Weisen Sie Ihrer Referenz-Story einen Wert in der Mitte Ihrer Skala zu - typischerweise 3 oder 5 auf einer Fibonacci-Skala.
Eine einzelne Referenz-Story reicht nicht aus. Bauen Sie einen Katalog von 5-7 Referenz-Stories auf, die Ihre Schätzskala abdecken:
| Punkte | Referenz-Story | Warum diese Größe |
|---|---|---|
| 1 | Tooltip zu einem vorhandenen Button hinzufügen | Trivialer Aufwand, keine Komplexität, keine Unsicherheit |
| 2 | Eingabevalidierung zu einem bestehenden Formularfeld hinzufügen | Geringer Aufwand, niedrige Komplexität, keine Unsicherheit |
| 3 | Neuen API-Endpunkt mit Standard-CRUD erstellen | Moderater Aufwand, niedrige Komplexität, minimale Unsicherheit |
| 5 | Benutzerprofilseite mit API-Integration bauen | Erheblicher Aufwand, moderate Komplexität, etwas Unsicherheit |
| 8 | Drittanbieter-Zahlungsgateway integrieren | Großer Aufwand, hohe Komplexität, beachtliche Unsicherheit |
| 13 | Benachrichtigungssystem mit Echtzeit-Push neu gestalten | Sehr großer Aufwand, hohe Komplexität, erhebliche Unsicherheit |
Überprüfen und aktualisieren Sie diesen Katalog vierteljährlich oder wenn sich die Teamzusammensetzung wesentlich ändert. Neue Teammitglieder sollten diese Referenz-Stories vor ihrer ersten Schätzsitzung studieren.
Relative Schätzung verbessert sich durch Kalibrierung - den Prozess, Schätzungen mit tatsächlichen Ergebnissen zu vergleichen und anzupassen:
Diese Kalibrierungsschleife ist der Motor, der relative Schätzung im Laufe der Zeit immer genauer macht. Teams, die die Kalibrierung überspringen, bleiben bei verrauschten Schätzungen hängen, die sich nie verbessern.
Story Points sind die am weitesten verbreitete Einheit für relative Schätzung. Jeder Story Point repräsentiert eine Mischung aus Aufwand, Komplexität und Unsicherheit - ausgedrückt als einzelne Zahl auf einer relativen Skala.
Wesentliche Merkmale:
Story Points sind ideal für Sprint-Planung und Release-Prognosen. Sie erfordern eine Investition in Referenz-Stories, Kalibrierung und Team-Konsistenz - aber der Ertrag sind zuverlässige Velocity-Daten innerhalb von 4-6 Sprints.
T-Shirt-Größen verwenden Labels statt Zahlen: XS, S, M, L, XL, XXL. Es ist die zugänglichste Form der relativen Schätzung, weil jeder intuitiv versteht, dass ein „Large" größer ist als ein „Small".
Am besten geeignet für:
Einschränkung: T-Shirt-Größen lassen sich nicht zu einer Velocity aggregieren. Sie können nicht „2 Medium und 1 Large" zusammenrechnen, um eine Kapazitätszahl zu erhalten. Viele Teams beginnen mit T-Shirt-Größen und wechseln zu Story Points, sobald sie sich mit dem relativen Denken wohlfühlen.
Die Fibonacci-Sequenz (1, 2, 3, 5, 8, 13, 21) ist die gängigste Skala für relative Schätzung, weil ihre wachsenden Abstände widerspiegeln, wie die menschliche Wahrnehmung funktioniert. Die Sequenz zwingt Schätzer, am unteren Ende bedeutsame Unterscheidungen zu treffen (ist das eine 2 oder eine 3?), während sie am oberen Ende falsche Präzision verhindert (es gibt keine Option zwischen 13 und 21).
Warum Fibonacci für Schätzungen funktioniert:
Manche Teams verwenden modifizierte Fibonacci (1, 2, 3, 5, 8, 13, 20, 40, 100), die 21 durch 20 für einfacheres Kopfrechnen ersetzt und 40 und 100 für Backlog-Elemente hinzufügt, die noch aufgeteilt werden müssen.
Affinitätsschätzung ist eine schnelle Technik zur Dimensionierung großer Mengen von Elementen. Das Team gruppiert Elemente physisch oder virtuell in relative Größenkategorien, indem es sie miteinander vergleicht - nicht indem jedes einzelne im Detail diskutiert wird.
So funktioniert es:
Geschwindigkeitsvorteil: Affinitätsschätzung kann 50-100 Elemente in 30-60 Minuten dimensionieren - 10x schneller als Planning Poker für die gleiche Anzahl von Elementen.
Am besten geeignet für: Initiale Dimensionierung eines großen Backlogs, PI-Planung in skalierten Frameworks und jede Situation, in der Sie schnell grobe Schätzungen für viele Elemente benötigen.
Planning Poker ist der Goldstandard für detaillierte relative Schätzung. Jeder Developer wählt gleichzeitig eine Karte mit seiner Schätzung aus, wodurch Ankerverzerrungen verhindert werden. Wenn Schätzungen auseinandergehen, diskutiert das Team - und diese Diskussionen sind oft der wertvollste Teil des Prozesses.
So funktioniert es:
Am besten geeignet für: Sprint-Level-Verfeinerung von 5-15 Elementen, bei der detaillierte Diskussion und Risikoerkennung wichtig sind.
Wählen Sie die Technik, die zu Ihrem aktuellen Bedarf passt:
| Situation | Empfohlene Technik |
|---|---|
| Neues Team, erste Schätzung | T-Shirt-Größen (niedrige Einstiegshürde) |
| Großes Backlog braucht initiale Dimensionierung (50+ Elemente) | Affinitätsschätzung |
| Sprint-Level-Verfeinerung (5-15 Elemente) | Planning Poker mit Story Points |
| Roadmap- oder PI-Planung | T-Shirt-Größen oder Affinitätsschätzung |
| Erfahrenes Team, stabiles Backlog | Story Points mit schnellem Konsens |
Bevor Sie Ihre erste Schätzsitzung durchführen, identifizieren Sie 3-5 abgeschlossene Stories, die Ihre Skala abdecken. Präsentieren Sie sie dem Team und einigen Sie sich auf ihre relativen Größen. Schreiben Sie sie auf - diese werden Ihr Kalibrierungsanker für jede zukünftige Sitzung.
Für Planning Poker:
Für Affinitätsschätzung:
Notieren Sie nach jedem Sprint die Gesamtzahl der abgeschlossenen Story Points (nur Stories, die die Definition of Done erfüllen). Nach 4-6 Sprints haben Sie genug Daten für zuverlässige Velocity-basierte Prognosen.
Verbringen Sie in jeder Sprint Retrospective 5 Minuten mit der Überprüfung der Schätzgenauigkeit:
Nach 6-10 Sprints evaluieren Sie, ob Ihre Skala noch funktioniert:
Sobald die Velocity stabil ist (Variationskoeffizient unter 25%), verwenden Sie sie für:
| Dimension | Relative Schätzung | Absolute Schätzung |
|---|---|---|
| Kognitive Belastung | Niedrig - Mustererkennung und Vergleich | Hoch - erfordert Simulation der zukünftigen Ausführung |
| Geschwindigkeit | Schnell - die meisten Elemente in 1-3 Minuten geschätzt | Langsam - detaillierte Aufgabenzerlegung erforderlich |
| Genauigkeit (einzelnes Element) | Niedrig - jede einzelne Schätzung kann um eine Fibonacci-Stufe daneben liegen | Mittel - Stundenschätzungen können bei vertrauter Arbeit nah dran sein |
| Genauigkeit (aggregiert) | Hoch - Über- und Unterschätzungen gleichen sich über einen Sprint aus | Niedrig - Fehler potenzieren sich, statt sich auszugleichen |
| Team vs. Einzelperson | Teambasiert - reduziert individuelle Verzerrung | Oft individuell - die Einschätzung einer Person |
| Umgang mit Unsicherheit | Gut - grobe Skala absorbiert Unbekannte | Schlecht - Druck für falsche Präzision |
| Lernkurve | Moderat - erfordert 4-6 Sprints zur Kalibrierung | Niedrig - jeder versteht Stunden |
| Wartung | Erfordert Referenz-Stories und Kalibrierung | Erfordert Neubewertung bei Umfangsänderungen |
| Teamübergreifender Vergleich | Nicht möglich (teamspezifische Einheiten) | Möglich, aber irreführend (unterschiedliche Leistungsfähigkeit) |
| Stakeholder-Kommunikation | Erfordert Übersetzung in Termine mittels Velocity | Direkt, aber oft ungenau |
Verwenden Sie relative Schätzung, wenn:
Verwenden Sie absolute Schätzung, wenn:
Viele Teams nutzen beides: Relative Schätzung für die Story-Ebene (Story Points für Sprint-Planung und Prognosen) und absolute Schätzung für die Aufgabenebene (Stunden für die individuelle Arbeitsorganisation innerhalb eines Sprints).
Ein SaaS-Team mit 7 Entwicklern verwendet Story Points auf einer Fibonacci-Skala mit Planning Poker für die Sprint-Verfeinerung. Ihre Referenz-Stories: 1-Punkt-Konfigurationsänderungen, 3-Punkt-Feature-Anpassungen, 5-Punkt-neue Features mit API-Integration, 8-Punkt-Integrationen mit Drittanbieterdiensten. Sie führen 2-Wochen-Sprints mit stabiler Velocity von 34 Punkten durch, was ihnen ermöglicht, vierteljährliche Releases mit einer Genauigkeit von 1 Sprint zu prognostizieren.
Ein Gesundheitswesen-Team, das EHR-Integrationssoftware entwickelt, berücksichtigt regulatorische Compliance in seinen relativen Schätzungen. Stories mit PHI (Protected Health Information) werden automatisch 1-2 Fibonacci-Stufen höher bewertet als gleichwertige Nicht-PHI-Stories, wegen erforderlicher HIPAA-Dokumentation, Audit-Protokollierung, Verschlüsselungsverifizierung und Sicherheitsprüfung. Ihre Velocity (22 Punkte pro Sprint) ist niedriger als bei nicht-regulierten Teams, aber die Prognosen sind genau, weil der Compliance-Aufwand in den relativen Größen eingebettet ist.
Ein Fintech-Team, das Zahlungsverarbeitungsfunktionen schätzt, verwendet T-Shirt-Größen für erste Roadmap-Diskussionen mit Stakeholdern (S/M/L entspricht 1-Monat/1-Quartal/Mehrquartal-Lieferung) und konvertiert für die Sprint-Arbeit in Story Points. PCI-DSS-Compliance-Anforderungen sind in ihren Referenz-Stories erfasst - ein „5-Punkte-Zahlungsfeature" beinhaltet automatisch die Compliance-Tests, die das Team als Begleiterscheinung jeder zahlungsbezogenen Änderung kennt.
Ein E-Commerce-Team verfolgt relative Schätzungen über drei Arbeitstypen: kundenorientierte Features, Performance-Optimierung und Infrastruktur. Sie pflegen separate Referenzkataloge für jeden Typ, weil sich die Profile von Aufwand/Komplexität/Unsicherheit deutlich unterscheiden. Ein 5-Punkte-Kundenfeature umfasst UI-Arbeit und API-Integration, während eine 5-Punkte-Infrastrukturänderung Terraform-Module und Monitoring-Setup umfasst. Separate Kataloge verhindern typübergreifende Schätzungsdrift.
Ein Team eines Regierungsauftragnehmers nutzt relative Schätzung innerhalb der Einschränkungen von Festpreisverträgen. Sie schätzen das initiale Backlog mittels Affinitätsschätzung, um eine Gesamtzahl an Story Points zu erhalten, teilen durch die prognostizierte Velocity, um die Anzahl der Sprints zu schätzen, und präsentieren die Sprint-Anzahl (mit Konfidenzbereich) dem Auftraggeber. Intern verfolgen sie die Velocity und nutzen sie für Sprint Planning. Die relativen Schätzungen ermöglichen es ihnen, innerhalb des festen Budgets umzupriorisieren und den Umfang anzupassen, ohne in Stunden neu zu schätzen.
Ein EdTech-Team, das ein Lernmanagementsystem entwickelt, nutzt relative Schätzung mit einer Besonderheit: Sie dimensionieren Barrierefreiheitsarbeit separat. Jedes Feature erhält zwei Schätzungen - Basisfunktionalität und Barrierefreiheits-Compliance (WCAG 2.1 AA). Ein Feature könnte 5 Punkte für die Basisfunktionalität und 3 Punkte für Barrierefreiheit haben, was insgesamt 8 Punkte ergibt. Diese Sichtbarkeit hilft dem Product Owner, die Kosten der Barrierefreiheits-Compliance zu verstehen und entsprechend zu planen, anstatt sie als unsichtbaren Overhead zu behandeln.
Merkmale:
Worauf Sie sich konzentrieren sollten:
Erwartetes Ergebnis: Bis Sprint 4 sollte das Team schneller bei Schätzungen konvergieren und sich mit der relativen Skala wohlfühlen.
Merkmale:
Worauf Sie sich konzentrieren sollten:
Erwartetes Ergebnis: Bis Sprint 10 sollte die Velocity-Varianz sinken und die Sprint-Abschlussraten sich verbessern.
Merkmale:
Worauf Sie sich konzentrieren sollten:
Erwartetes Ergebnis: Zuverlässige Release-Terminprognosen mit einer Genauigkeit von 1-2 Sprints.
Merkmale:
Worauf Sie sich konzentrieren sollten:
Erwartetes Ergebnis: Schätzung wird zu einer leichtgewichtigen Praxis mit niedrigem Overhead, die zuverlässig die Planung unterstützt.
Was passiert: Das Management oder das Team legt eine Umrechnung fest: „1 Story Point = 4 Stunden." Eine 5-Punkte-Story wird erwartet, 20 Stunden zu dauern.
Warum es schädlich ist: Dies zerstört den gesamten Zweck der relativen Schätzung. Punkte werden zu einer Zeiteinheit, was Personenabhängigkeit, falsche Präzision und Zeitdruck zurückbringt. Wenn Sie ohnehin in Stunden umrechnen, können Sie gleich in Stunden schätzen.
Lösung: Definieren oder erlauben Sie niemals eine Punkt-zu-Stunden-Umrechnung. Verwenden Sie Velocity für zeitbasierte Planung: „Unsere durchschnittliche Velocity beträgt 28 Punkte pro Sprint. Das verbleibende Backlog umfasst 84 Punkte. Das sind etwa 3 Sprints."
Was passiert: Jede Schätzsitzung beginnt von Null ohne gemeinsamen Anker. Teammitglieder schätzen basierend auf ihren eigenen privaten mentalen Modellen.
Warum es schädlich ist: Ohne Referenz-Stories driften Schätzungen im Laufe der Zeit. Was vor drei Monaten eine 5 war, ist jetzt eine 3, wodurch Velocity-Trends bedeutungslos werden. Teammitglieder divergieren auch stärker, weil sie sich auf unterschiedliche persönliche Baselines verankern.
Lösung: Pflegen Sie einen Katalog von 5-7 Referenz-Stories an wichtigen Skalenwerten. Zeigen Sie sie bei jeder Schätzsitzung an. Überprüfen und aktualisieren Sie den Katalog vierteljährlich.
Was passiert: Der Senior Developer oder Tech Lead spricht zuerst, und alle anderen passen ihre Schätzung an. Oder der Product Owner schlägt eine Größe vor, bevor das Team schätzt.
Warum es schädlich ist: Dies führt zu Ankerverzerrung - die zuerst genannte Zahl wird zum Gravitationszentrum. Es bringt auch Junior-Teammitglieder zum Schweigen, die wertvolle Perspektiven zu Testkomplexität oder Unsicherheit haben könnten.
Lösung: Verwenden Sie gleichzeitiges Aufdecken (Planning Poker) für jede Schätzung. Niemand spricht seine Schätzung vor dem Aufdecken aus. Der Product Owner stellt die Story vor und beantwortet Fragen, schlägt aber niemals eine Größe vor.
Was passiert: Das Team debattiert 15-20 Minuten darüber, ob eine Story eine 5 oder eine 8 ist und dreht sich dabei oft im Kreis.
Warum es schädlich ist: Der Präzisionsunterschied zwischen benachbarten Fibonacci-Werten ist über einen Sprint hinweg winzig. 15 Minuten Debatte zu führen spart keinerlei Prognosegenauigkeit. Es entzieht auch Energie, die für das Aufdecken von Risiken und Missverständnissen verwendet werden sollte.
Lösung: Setzen Sie ein Zeitlimit von 3-5 Minuten pro Element. Wenn das Team nach zwei Runden nicht konvergieren kann, nehmen Sie die höhere Schätzung und machen weiter. Wenn die Debatte offenbart, dass die Story schlecht verstanden wird, senden Sie sie zur Verfeinerung zurück, anstatt weiter zu schätzen.
Was passiert: Das Management bemerkt, dass Team A 40 Punkte pro Sprint abschließt und Team B 25, und folgert, dass Team B unterdurchschnittlich leistet.
Warum es schädlich ist: Story Points sind teamspezifisch. Team As „5 Punkte" und Team Bs „5 Punkte" repräsentieren unterschiedliche Arbeitsmengen - sie haben sich an verschiedenen Referenz-Stories mit unterschiedlichen Teamzusammensetzungen kalibriert. Sie zu vergleichen ist, als würde man Testergebnisse aus verschiedenen Prüfungen vergleichen.
Lösung: Wenn teamübergreifende Vergleiche nötig sind, verwenden Sie objektive Messgrößen: Durchsatz (abgeschlossene Stories pro Sprint), Durchlaufzeit (Tage von Start bis Abschluss) oder gelieferten Geschäftswert. Vergleichen Sie niemals rohe Story Point Velocity.
Was passiert: Individuelle „Velocity" wird verfolgt: „Sarah hat 18 Punkte abgeschlossen, Carlos hat 12 abgeschlossen."
Warum es schädlich ist: Es erzeugt Fehlanreize. Entwickler blasen Schätzungen auf, um produktiver zu wirken. Zusammenarbeit nimmt ab, weil einem Teammitglied zu helfen den persönlichen Score nicht erhöht. Pair Programming und Mentoring werden zu „Velocity-Bremsern". Das Teamvertrauen erodiert.
Lösung: Relative Schätzung liefert ausschließlich Daten auf Teamebene. Individuelle Leistung sollte durch qualitative Maßnahmen bewertet werden: Code-Review-Qualität, Wissensaustausch, Mentoring und Beitrag zu Teamergebnissen.
Was passiert: Das Team schätzt jeden Sprint, überprüft aber nie, ob seine Schätzungen genau waren. Es aktualisiert nie Referenz-Stories und identifiziert keine systematischen Verzerrungen.
Warum es schädlich ist: Ohne Kalibrierung stagniert oder verschlechtert sich die Schätzgenauigkeit. Das Team verpasst Lernmöglichkeiten. Velocity-Daten werden für Prognosen unzuverlässig, weil die Beziehung zwischen Punkten und tatsächlicher Arbeit driftet.
Lösung: Verbringen Sie in jeder Sprint Retrospective 5 Minuten mit der Überprüfung der Schätzgenauigkeit. Identifizieren Sie die größte Überraschung (am meisten über- oder unterschätzte Story), diskutieren Sie warum und aktualisieren Sie Referenz-Stories oder Schätzpraktiken entsprechend.
Was passiert: Das Team schätzt jede Art von Arbeit: Features, Bugs, technische Schulden, Spikes, Dokumentation und Meetings. Alles bekommt Story Points.
Warum es schädlich ist: Bugs und Spikes sind von Natur aus unvorhersehbar - ihre „Größe" ist unbekannt, bis man die Arbeit beginnt. Sie zu schätzen erzeugt falsche Präzision und verunreinigt die Velocity-Daten. Wenn Bug-Punkte zur Velocity zählen, werden Teams dazu angeregt, mehr Bugs zu erzeugen.
Lösung: Schätzen Sie Stories (Features mit definierten Akzeptanzkriterien). Verfolgen Sie Bugs nach Anzahl, nicht nach Punkten. Begrenzen Sie Spikes zeitlich (z.B. „2 Tage Recherche") anstatt sie zu schätzen. Reservieren Sie einen Kapazitätspuffer für nicht-schätzbare Arbeit.
Was passiert: Ein Team verwendet eine lineare Skala (1, 2, 3, 4, 5, 6, 7, 8, 9, 10), die Debatten über den Unterschied zwischen 6 und 7 ermöglicht.
Warum es schädlich ist: Lineare Skalen fördern falsche Präzision. Der Unterschied zwischen einer 6 und einer 7 ist für die meisten Stories nicht sinnvoll unterscheidbar, aber die Existenz der Skala lädt zur Debatte ein. Zeit wird mit Präzision verschwendet, die die Prognose nicht verbessert.
Lösung: Verwenden Sie Fibonacci (1, 2, 3, 5, 8, 13, 21) oder eine ähnlich nichtlineare Skala. Die wachsenden Abstände zwingen Schätzer dazu, bedeutsame, erkennbare Unterscheidungen zu treffen, während sie bedeutungslose Präzision bei größeren Werten verhindern.
Was passiert: Nach 3-4 Sprints mit verrauschten Velocity-Daten erklärt das Team oder das Management „Story Points funktionieren nicht" und wechselt zurück zu Stunden.
Warum es schädlich ist: Relative Schätzung braucht 4-6 Sprints der Kalibrierung, um zuverlässige Velocity-Daten zu liefern. Sie nach 3 Sprints zu beurteilen ist, wie eine Diät nach 3 Tagen zu beurteilen. Das frühe Rauschen ist der Kalibrierungsprozess bei der Arbeit - das Team lernt, konsistent zu schätzen.
Lösung: Verpflichten Sie sich zu mindestens 8 Sprints, bevor Sie bewerten, ob relative Schätzung für Ihr Team funktioniert. Verfolgen Sie die Velocity-Varianz über die Zeit - sie sollte abnehmen. Wenn sie nach 8 Sprints nicht abnimmt, untersuchen Sie die Grundursachen (Team-Instabilität, Umfangsänderungen, mangelhafte Verfeinerung), anstatt den Schätzansatz zu beschuldigen.
Wenn mehrere Teams am gleichen Produkt arbeiten, braucht relative Schätzung Koordination:
Gemeinsame Referenz-Stories: Wenn Teams Schätzungen vergleichen oder aggregieren müssen (z.B. für PI-Planung), etablieren Sie 3-5 gemeinsame Referenz-Stories, gegen die alle Teams kalibrieren. Dies erzeugt „normalisierte" Story Points, die über Teams hinweg grob vergleichbar sind.
Unabhängige Velocity: Auch mit gemeinsamen Referenz-Stories pflegt jedes Team seine eigene Velocity. Eine 5-Punkte-Story kann Team A einen Tag und Team B drei Tage kosten - das ist in Ordnung, weil die Velocity jedes Teams sein spezifisches Tempo widerspiegelt.
Portfolio-Level-Schätzung: Für Roadmap- und Portfolio-Planung verwenden Sie T-Shirt-Größen oder Affinitätsschätzung statt Story Points. Diese Techniken sind schneller und erfordern keine teamübergreifende Punkt-Normalisierung.
Feature-Level-Aggregation: Wenn ein Feature über mehrere Teams geht, schätzt jedes Team seinen Anteil unabhängig mit seiner eigenen Skala. Die Gesamtschätzung ist die Summe der Team-Level-Schätzungen, umgerechnet in Sprints mittels der Velocity jedes Teams. Addieren Sie keine rohen Punkte über Teams - addieren Sie prognostizierte Sprint-Anzahlen.
Koordinationszeremonien: Während der PI-Planung oder Big-Room-Planung verwenden Sie Affinitätsschätzung, um eine gemeinsame Sicht auf relative Feature-Größen zu erstellen. Dann zerlegt jedes Team seinen Anteil in Stories und schätzt mit seiner eigenen Story-Point-Skala während der Sprint-Level-Planung.
Relative Schätzung funktioniert, weil sie sich mit der Funktionsweise menschlicher Kognition deckt. Wir sind darauf programmiert zu vergleichen, nicht vorherzusagen. Wir nehmen proportionale Unterschiede wahr, keine absoluten. Wir treffen schnellere und genauere Urteile, wenn wir konkrete Referenzpunkte haben.
Kernaussagen:
Wie funktioniert relative Schätzung mit der #NoEstimates-Bewegung?
Wie funktioniert relative Schätzung in SAFe (Scaled Agile Framework) auf Programmebene?
Wie moderiert man relative Schätzung bei Remote- oder verteilten Teams?
Wie erklärt man dem Management, das stundenbasierte Schätzungen erwartet, relative Schätzung?
Können KI- oder Machine-Learning-Tools die manuelle relative Schätzung ersetzen?
Wie interagiert relative Schätzung mit DevOps und Continuous-Delivery-Praktiken?
Welche Schätzspiele oder Übungen können Teams beim Erlernen der relativen Schätzung helfen?
Wie geht man mit relativer Schätzung um, wenn sich die Teamzusammensetzung häufig ändert?
Ist relative Schätzung mit Festpreis- oder Festumfangsverträgen kompatibel?
Wie funktioniert relative Schätzung für Nicht-Software-Arbeit wie Marketing, Design oder Content-Erstellung?
Welche Beziehung besteht zwischen relativer Schätzung und Scrums Empirismus?
Wie verhindert man Story-Point-Inflation bei langfristiger Nutzung der relativen Schätzung?
Wie adressiert relative Schätzung die Bedürfnisse diverser Teams mit unterschiedlichen Erfahrungsstufen?
Kann relative Schätzung zusammen mit OKRs (Objectives and Key Results) verwendet werden?
Welche Datenschutzaspekte gelten für die organisationsübergreifende Weitergabe von Daten der relativen Schätzung?