Kategorie: Effizienz & Edge
-
Google TurboQuant: LLM-Speicher um Faktor 6 geschrumpft – ohne Qualitätsverlust
Am 25. März 2026 hat Google Research TurboQuant vorgestellt: 6x weniger KV-Cache-Speicher, 8x schnellere Attention auf H100, bei…
-
Lokale LLMs im Mittelstand: DSGVO-sicher, günstig, überraschend gut
Eine 8-Milliarden-Parameter-Version von Llama oder Qwen läuft 2026 auf einem 2.000-€-Mini-PC. Für viele KMU-Use-Cases ist das DSGVO-komfortabler und…
-
DeepSeek V4: 1-Billion-MoE-Modell zu einem Preis, der die Branche sprachlos macht
DeepSeek hat Anfang März 2026 V4 veröffentlicht: 1-Billion-Parameter Mixture-of-Experts mit nur 37 Mrd. aktiven Parametern, 1M Kontext, SWE-Bench-Verified…
-
NVIDIA sagt es offen aus: Die Zukunft der KI ist klein
Ein NVIDIA-Position-Paper Ende 2025 argumentiert, der nächste Sprung in KI komme nicht von größeren Modellen, sondern von kleineren.…
-
ExecuTorch 1.0: Warum Ihr Smartphone 2026 ein echter LLM-Client wird
Meta hat im Oktober 2025 ExecuTorch 1.0 GA veröffentlicht – das erste produktionsreife Framework, um PyTorch-Modelle auf Smartphones…
-
Speculative Decoding, universell: Intel und Weizmann liefern 2,8x Speedup
Auf der ICML 2025 haben Intel und Weizmann gezeigt, dass kleine Draft-Modelle große LLMs um Faktor 2,8 beschleunigen…