Kurzfassung: Am 21. Dezember 2025 hat Andrej Karpathy seinen Jahresrückblick „2025 LLM Year in Review“ veröffentlicht. Seine zentrale These: 2025 war der Wendepunkt, an dem LLMs vom probabilistischen Imitieren zum logischen Schließen gewechselt sind – getragen von Reinforcement Learning with Verifiable Rewards (RLVR).
Was RLVR ist und warum es funktioniert
- Klassisches LLM-Training lernt, die wahrscheinlichste nächste Token-Folge zu wählen (Imitation).
- RLVR trainiert auf verifizierbare Belohnungen: Hat der Code kompiliert? Ist die Mathe-Aufgabe korrekt?
- Ergebnis: Die Modelle werden in Coding und Mathematik dramatisch besser – weniger dagegen in Aufsätzen oder kreativem Schreiben, wo „verifizierbare Belohnung“ schwer definierbar ist.
Die zweite These: Perzeptions-Gap
Karpathy beobachtet einen gefährlichen Abstand: Wer täglich mit LLMs codet, erlebt „atemberaubende“ Verbesserungen. Wer LLMs nur gelegentlich zum Texte-Schreiben nutzt, erlebt wenig Fortschritt und hält den Hype für übertrieben. Beide haben Recht – für ihren Bereich.
Was Mittelständler daraus ziehen
Wenn Ihre KI-Investitionen in der verifizierbaren Ecke liegen (Rechnungsprüfung, Code-Assistenz, Entscheidungsunterstützung auf harten Zahlen), werden sie 2026 überproportional besser. Wenn Sie auf Content-Generierung setzen, bleiben Sie abhängig von menschlicher Qualitätssicherung.
Quellen
Reden wir über Ihren nächsten Freiraum-Moment.
Kostenlose Erstberatung, unverbindlich, 30 Minuten. Wir hören zu, skizzieren Optionen, Sie entscheiden.