EDMONTON, KANADA – 28. JANUAR: Eine Frau hält ein Mobiltelefon vor einen Computerbildschirm, auf dem das DeepSeek-Logo zu sehen ist, am 28.01.2025 in Edmonton, Kanada. (Foto von Artur Widak/NurPhoto via Getty Images)
NurPhoto via Getty Images
DeepSeek V4, das lang erwartete Update von DeepSeek, erscheint zu einem äußerst wettbewerbsintensiven Zeitpunkt, kurz nachdem Open AIs GPT 5.5 und Anthropics Opus 4.7 nacheinander gestartet sind. Das Rennen der KI-Modelle erreicht offensichtlich ein neues Niveau. Als überzeugter Befürworter von Open-Source-Tools beeindruckt DeepSeek Entwickler mit seiner Kosteneffizienz statt mit bloßer Skalierung.
Die Vorschauversion umfasst zwei Mixture-of-Experts-Modelle mit einem Kontextfenster von einer Million Token: DeepSeek-V4-Pro mit insgesamt 1,6 Billionen Parametern und 49 Milliarden aktivierten Parametern sowie DeepSeek-V4-Flash mit insgesamt 284 Milliarden Parametern und 13 Milliarden aktivierten Parametern.
Long-Context-Agents, Coding-Assistenten, Recherche-Tools und Enterprise-Copilots stehen alle vor demselben Flaschenhals: Jeder neu generierte Token muss möglicherweise auf eine wachsende Verlaufshistorie von Dokumenten, Code, Tool-Aufrufen und Zwischenberechnungen zurückgreifen. DeepSeeks technischer Bericht zeigt, dass seine V4-Modelle dieses Problem durch architektonische Komprimierung lösen, anstatt Nutzer einfach zu bitten, mehr Rechenleistung zu bezahlen.
Die zentrale Innovation: Speicher komprimieren ohne Denkfähigkeit zu verlieren
Die wichtigste architektonische Neuerung von DeepSeek V4 ist ein hybrides Attention-Design, das Compressed Sparse Attention (CSA) mit Heavily Compressed Attention (HCA) kombiniert. Das bedeutet, dass das Modell nicht jeden vorherigen Token auf dieselbe kostspielige Weise speichert und durchsucht. CSA komprimiert Gruppen von Key-Value-Einträgen und wählt dann die relevantesten komprimierten Blöcke aus. HCA komprimiert noch aggressiver und ermöglicht dichte Attention über einen deutlich kürzeren Speicherstrom.
Dies ist wichtig, weil Attention einer der Hauptkostentreiber bei KI mit langem Kontext ist. Mit wachsender Kontextlänge wird die konventionelle Attention sowohl in Bezug auf Rechenleistung als auch Speicher immer kostspieliger. DeepSeeks hybrides Attention-Design behandelt langen Kontext als ein Ingenieurdproblem der Speicherhierarchie. Einige Informationen benötigen feinkörnige lokale Attention. Andere können komprimiert werden. Durch die Kombination dieser Modi macht V4 den Millionen-Token-Kontext zu einer praktischeren Fähigkeit. Anfang dieses Jahres veröffentlichten DeepSeek-Forscher ein Paper, das Engram vorschlug – ein konditioniertes Speichermodul, das die Denkeffizienz verbessert, indem es die statische Wissensabfrage strukturell von der dynamischen Berechnung trennt.
Warum dies mehr KI-Innovation vorantreiben könnte
Niedrigere Inferenzkosten verändern, wer experimentieren kann. Wenn Long-Context-Reasoning günstiger wird, können mehr Entwickler Agents bauen, die vollständige Repositories lesen, lange rechtliche Akten analysieren, mehrdokumentige Finanzberichte vergleichen oder über ausgedehnte Tool-Nutzungssitzungen hinweg arbeiten. Dies erweitert den Designraum über Chatbot-Prompts hinaus.
Für Startups senkt DeepSeek V4 die Kosten für ambitionierte Anwendungsversuche. Für Unternehmen macht es Large-Context-Workflows realistischer. Für Open-Source-Entwickler bietet es ein technisches Rezept: MoE-Sparsität, Long-Context-Komprimierung, Low-Precision-Inferenz, Custom-Kernels und Post-Training für agentische Aufgaben kombinieren.
Die Hardware-Botschaft: KI-Modelle sagen Chips nun, was sie werden sollen
DeepSeek V4 ist auch deshalb bemerkenswert, weil der technische Bericht explizite Empfehlungen zum Hardware-Design macht. Das Team argumentiert, dass zukünftige Hardware das Verhältnis zwischen Rechenleistung und Kommunikation optimieren sollte, anstatt blindlings die Bandbreite zu erhöhen.
Reuters berichtete außerdem, dass DeepSeek V4 für den Betrieb auf Huaweis Ascend-Chips angepasst wurde und dass Huawei angab, seine auf dem Ascend 950 basierenden Supernode-Cluster unterstützen die V4-Serie vollständig. Dies macht V4 zu einem Teil einer größeren Hardware-Geschichte. Das KI-Rennen verlagert sich von Modellgewichten zu Full-Stack-Co-Design, bei dem Modelle, Kernels, Speichersysteme, Interconnects und Chips gemeinsam weiterentwickelt werden.
Günstigere Intelligenz erweitert den Markt
Die wichtigste Konsequenz von DeepSeek V4 könnte wirtschaftlicher Natur sein. Wenn die Kosten für Long-Context-Reasoning sinken, werden KI-Anwendungsfälle, die einst zu teuer wirkten, plausibler. Full-Codebase-Agents, langfristige Forschungsassistenten, dokumentenintensive Rechts-Workflows, Tools zur finanziellen Sorgfaltspflicht, Systeme zur wissenschaftlichen Literaturrecherche und Enterprise-Knowledge-Agents profitieren alle von günstigerem Speicher und günstigerer Inferenz.
Das bedeutet, dass DeepSeek V4 das KI-Rennen neu rahmt. Wenn DeepSeek leistungsstarke offene Modelle mit niedrigeren Speicher- und Rechenanforderungen liefern kann, werden Closed-Source-Marktführer unter mehr Druck geraten, Premium-Preise zu rechtfertigen. Open-Source-Wettbewerber werden unter Druck geraten, die Effizienzverfahren von V4 zu erreichen.
Source: https://www.forbes.com/sites/geruiwang/2026/04/26/deepseek-v4-shows-that-the-next-ai-race-is-about-efficiency/








