26/03/2026

Google TurboQuant: LLM-Speicher um Faktor 6 geschrumpft – ohne Qualitätsverlust

Am 25. März 2026 hat Google Research TurboQuant vorgestellt: 6x weniger KV-Cache-Speicher, 8x schnellere Attention auf H100, bei…

16/03/2026

Lokale LLMs im Mittelstand: DSGVO-sicher, günstig, überraschend gut

Eine 8-Milliarden-Parameter-Version von Llama oder Qwen läuft 2026 auf einem 2.000-€-Mini-PC. Für viele KMU-Use-Cases ist das DSGVO-komfortabler und…

07/03/2026

DeepSeek V4: 1-Billion-MoE-Modell zu einem Preis, der die Branche sprachlos macht

DeepSeek hat Anfang März 2026 V4 veröffentlicht: 1-Billion-Parameter Mixture-of-Experts mit nur 37 Mrd. aktiven Parametern, 1M Kontext, SWE-Bench-Verified…

10/11/2025

NVIDIA sagt es offen aus: Die Zukunft der KI ist klein

Ein NVIDIA-Position-Paper Ende 2025 argumentiert, der nächste Sprung in KI komme nicht von größeren Modellen, sondern von kleineren.…

24/10/2025

ExecuTorch 1.0: Warum Ihr Smartphone 2026 ein echter LLM-Client wird

Meta hat im Oktober 2025 ExecuTorch 1.0 GA veröffentlicht – das erste produktionsreife Framework, um PyTorch-Modelle auf Smartphones…

17/10/2025

Speculative Decoding, universell: Intel und Weizmann liefern 2,8x Speedup

Auf der ICML 2025 haben Intel und Weizmann gezeigt, dass kleine Draft-Modelle große LLMs um Faktor 2,8 beschleunigen…

Kategorie: Effizienz & Edge