Speculative Decoding, universell: Intel und Weizmann liefern 2,8x Speedup

admin

17/10/2025

Kurzfassung: Intel und das Weizmann Institute haben auf der ICML 2025 ein Paper vorgestellt, das Speculative Decoding universell macht: Ein kleines Draft-Modell beschleunigt ein großes LLM um bis zu 2,8x, auch wenn die Tokenizer unterschiedlich sind. Das war bisher der Hauptgrund, warum die Methode nicht überall ankam.

Warum das Paper wichtig ist

Speculative Decoding ist mittlerweile der Standardweg, um LLM-Latenz zu halbieren – vorher musste Draft- und Ziel-Modell aber die gleiche Vokabular-Basis haben.
Mit dem Cross-Tokenizer-Ansatz kann man z. B. ein Qwen-Draft auf ein Llama-Ziel loslassen.
Hardware-Kosten bleiben gleich. Lediglich der Speicherbedarf steigt leicht (wegen zwei Modellen).

Einordnung für KMU

In der Praxis heißt das: APIs wie Groq oder Together werden spürbar schneller. Für Self-Hosting lohnt ein kleines 1B-Modell als Draft vor dem eigentlichen 8B–13B-Produktiv-Modell – deutlich weniger Wartezeit pro Antwort, ohne dass Qualität leidet.

Quellen

Siliconflow: Best Small LLMs for Edge

Reden wir über Ihren nächsten Freiraum-Moment.

Kostenlose Erstberatung, unverbindlich, 30 Minuten. Wir hören zu, skizzieren Optionen, Sie entscheiden.

Termin vereinbaren

Reden wir über Ihren nächsten Freiraum-Moment.

Kostenlose Erstberatung, unverbindlich, 30 Minuten. Wir hören zu, skizzieren Optionen, Sie entscheiden.

Termin vereinbaren