Kostenlose KI, die GPT-5 schlägt: Einblicke in die rekordverdächtige Leistung von Kimi K2 Thinking

Kostenlose KI, die GPT-5 schlägt: Einblicke in die rekordverdächtige Leistung von Kimi K2 Thinking – wichtige Hinweise

Modell mit offenem Gewicht schlägt geschlossene Konkurrenten: Kimi K2 Thinking übertrifft GPT-5 und Claude Sonnet 4.5 in mehreren Reasoning- und Agenten-Benchmarks, darunter Humanity’s Last Exam (44,9 % vs. 41,7 % und 32,0 %) und BrowseComp (60,2 % vs. 54,9 % und 24,1 %), und bleibt dabei völlig kostenlos und quelloffen unter einer modifizierten MIT-Lizenz

Beispiellose Fähigkeiten für lange Zeiträume: Das Modell behält eine kohärente Argumentation über 200 bis 300 aufeinanderfolgende Tool-Aufrufe hinweg bei, ohne dass ein Mensch eingreifen muss – eine Fähigkeit, die neue Maßstäbe für autonome KI-Agenten setzt und weit über die 30 bis 50 Schritte hinausgeht, bei denen die meisten bisherigen Modelle nachlassen

Effiziente Architektur mit praktischem Einsatz: Durch die Verwendung eines Mixture-of-Experts-Designs mit einer Billion Gesamtparametern, aber nur 32 Milliarden aktiven Parametern pro Token, kombiniert mit nativer INT4-Quantisierung, liefert Kimi K2 Thinking eine Spitzenleistung mit einer zweifachen Verbesserung der Inferenzgeschwindigkeit, während die Kosten für das Training nur 4,6 Millionen Dollar betragen

Wenn ein vollständig offenes Modell für künstliche Intelligenz anfängt, proprietäre Systeme zu übertreffen, deren Zugang Millionen kostet, wird man aufmerksam. Kimi K2 Thinking, das von dem in Peking ansässigen Unternehmen Moonshot AI im November 2025 veröffentlicht wurde, hat genau das getan. Dieses Billionen-Parameter-System kann nicht nur mit Closed-Source-Konkurrenten wie GPT-5 und Claude Sonnet 4.5 mithalten, sondern übertrifft sie in mehreren Schlüsselbereichen und ist dabei völlig frei und offen für jedermann nutzbar

Was Kimi K2 Thinking anders macht

Der Name selbst gibt einen Hinweis darauf, was dieses Modell auszeichnet. Kimi K2 Thinking ist die neueste Entwicklung der Kimi-Serie, die speziell als “denkender Agent” und nicht nur als Chatbot für Konversationen entwickelt wurde. Während sich die meisten KI-Modelle durch schnelle Antworten auszeichnen, verfolgt Kimi K2 Thinking einen grundlegend anderen Ansatz, indem er Probleme Schritt für Schritt durchdenkt und dynamisch Tools zur Bewältigung komplexer Aufgaben aufruft

Moonshot AI hat dieses Modell mit einer Mixture-of-Experts-Architekturentwickelt, die insgesamt eine Billion Parameter enthält, von denen jedoch nur 32 Milliarden bei jeder Inferenz aktiv sind. Dank dieses spärlichen Aktivierungsdesigns kann das Modell eine enorme Skalierung erreichen und ist gleichzeitig überraschend effizient in der Ausführung. Die Architektur umfasst 61 Schichten, 384 Experten (mit 8 ausgewählten pro Token) und unterstützt ein beeindruckendes Kontextfenster mit 256.000 Token – doppelt so lang wie bei vielen Wettbewerbern

Was Kimi K2 Thinking wirklich von früheren Modellen unterscheidet, ist seine Trainingsmethodik. Das Team hat in der Post-Trainingsphase Quantization-Aware Training eingesetzt und für die Mixture-of-Experts-Komponenten native INT4-Präzision implementiert. Diese Technik ermöglicht im Vergleich zur Standardpräzision eine etwa zweimal schnellere Inferenzgeschwindigkeit bei gleichbleibender Benchmark-Leistung. Berichten zufolge, die sich auf Quellen berufen, die mit der Angelegenheit vertraut sind, kostete das Training dieses Modells nur 4,6 Millionen Dollar – ein Bruchteil dessen, was große Technologieunternehmen normalerweise in Spitzensysteme investieren

Rekordverdächtige Leistung bei Benchmarks

Kimi K2 Thinking's Record-Breaking Performance - Benchmarks in General Tasks Source
Kimi K2 Thinking’s Record-Breaking Performance – Benchmarks in General Tasks Quelle

Die Zahlen erzählen eine überzeugende Geschichte. Bei “Humanity’s Last Exam”, einem bekanntermaßen schwierigen Test zur Messung fortgeschrittener Denkfähigkeiten, erzielte Kimi K2 Thinking 44,9 % – mehr als die 41,7 % von GPT-5 und deutlich mehr als die 32,0 % von Claude Sonnet 4.5. Dieser Benchmark testet speziell die Art des komplexen, mehrstufigen Denkens, das wirklich fähige Systeme von solchen unterscheidet, die lediglich Muster abgleichen

Die agenturischen Fähigkeiten des Modells zeigen sich noch deutlicher bei Aufgaben, die den Einsatz von Werkzeugen und die Navigation im Internet erfordern. Bei BrowseComp, einem Test, der misst, wie gut KI-Systeme Informationen im Internet suchen und zusammenstellen können, erreichte Kimi K2 Thinking 60,2 % und übertraf damit die 54,9 % von GPT-5 um ein Vielfaches und die 24,1 % von Claude Sonnet 4.5 um mehr als das Doppelte. Unabhängige Tests von Artificial Analysis bestätigten diese Stärken und meldeten, dass Kimi K2 Thinking beim τ²-Bench Telecom Benchmark 93% erreichte, die höchste Punktzahl, die sie unabhängig für den Einsatz von Agententools gemessen haben

Bei der Codierungsleistung ergibt sich ein differenzierteres Bild. Beim SWE-Bench Verified, bei dem getestet wird, ob Modelle Patches zur Behebung echter Softwarefehler erzeugen können, erzielte Kimi K2 Thinking 71,3 %. Dies ist zwar konkurrenzfähig, liegt aber hinter den 74,9 % von GPT-5 und den 77,2 % von Claude bei Debugging-Aufgaben im Repository-Bereich zurück. Im LiveCodeBench v6, der sich auf wettbewerbsfähige Programmierung und algorithmische Herausforderungen konzentriert, übertraf Kimi K2 Thinking jedoch mit 83,1 % die 64,0 % von Claude und näherte sich den 87,0 % von GPT-5

Die mathematischen Fähigkeiten erwiesen sich als besonders stark, wenn das Modell Werkzeuge verwenden konnte. Bei AIME 2025 mit Python-Zugriff erreichte Kimi K2 Thinking 99,6 % und übertraf damit den Benchmark von GPT-5 und Claude. Beim GPQA-Diamond-Benchmark, bei dem naturwissenschaftliche Fragen auf Hochschulniveau geprüft werden, erreichte Kimi K2 Thinking 85,7 % und lag damit leicht vor GPT-5 mit 84,5 %

Die geheime Soße: Orchestrierung von Werkzeugen mit langem Zeithorizont

Die vielleicht beeindruckendste technische Leistung von Kimi K2 Thinking liegt in seiner Fähigkeit, 200 bis 300 aufeinanderfolgende Tool-Aufrufe ohne menschliches Eingreifen auszuführen. Die meisten früheren Modelle würden nach 30 bis 50 Schritten die Kohärenz verlieren oder von der Aufgabe abdriften, aber dieses System behält sein zielgerichtetes Verhalten über Hunderte von Aktionen hinweg bei

Diese Fähigkeit ergibt sich aus dem Trainingsansatz des Modells. Anstatt die Verwendung von Werkzeugen und das Denken als separate Funktionen zu behandeln, hat Kimi K2 Thinking gelernt, Gedankenketten und Funktionsaufrufe durchgängig miteinander zu verknüpfen. Wenn es mit einem komplexen Problem konfrontiert wird, kann es die Aufgabe in Teilaufgaben zerlegen, für jeden Schritt geeignete Werkzeuge aufrufen, über die Ergebnisse nachdenken, seine Strategie anpassen und die Iteration fortsetzen, bis eine Lösung erreicht ist

Eine von Moonshot gezeigte Demonstration zeigte, wie das Modell ein mathematisches Problem auf Doktoranden-Niveau durch 23 ineinandergreifende Überlegungen und Tool-Aufrufe löste. Das System suchte selbstständig nach relevanten Informationen, führte Berechnungen mit Python durch, begründete Zwischenergebnisse und verfeinerte seinen Ansatz iterativ ohne menschliche Anleitung. Diese Art von nachhaltiger, mehrstufiger Problemlösung stellt einen qualitativen Sprung über das hinaus dar, was die meisten Chatbots leisten können

Praktische Anwendungen und Tests in der realen Welt

Erste Anwender haben Kimi K2 Thinking in verschiedenen Bereichen auf Herz und Nieren geprüft. Ein Entwickler hat es in die KI-Plattform von Cline integriert und berichtet, dass das Modell eine natürlichsprachliche Funktionsanforderung in Kodierungsaufgaben aufteilen, Code für jede Komponente generieren, die Implementierung testen und iterativ mit minimaler Überwachung verfeinern kann. Die daraus resultierende Codequalität war durchweg hoch, auch wenn der Prozess nicht immer reibungslos verlief – der Entwickler bemerkte eine Lücke zwischen der Intelligenz des Modells auf hoher Ebene und der Ausführungsstabilität des Tools auf niedriger Ebene

Für Forschungsworkflows haben die Benutzer Kimi K2 Thinking als besonders wertvoll empfunden, wenn es mit anderen Modellen in einer Pipeline kombiniert wird. Ein Ansatz besteht darin, Kimi K2 Thinking als Front-End zu verwenden, um eine umfassende Informationssammlung durchzuführen – unter Ausnutzung der Fähigkeiten von Kimi K2 Thinking in Bezug auf lange Kontexte und die Ausführungsstabilität, um riesige Mengen relevanter Daten zu sammeln – und diesen Kontext dann für die abschließende Analyse an ein anderes Schlussfolgerungsmodell weiterzuleiten. Diese hybride Strategie macht sich die Stärken des Modells zunutze und umgeht gleichzeitig etwaige Einschränkungen

Akademische Nutzer berichten, dass Kimi K2 Thinking besonders gut mit langen Dokumenten umgehen kann und eine niedrige Halluzinationsrate aufweist, was es für Literaturübersichten und Forschungssynthesen geeignet macht. Das Kontextfenster mit 256.000 Token bedeutet, dass das Modell ganze Forschungsarbeiten, Bücher oder Codebasen in einer einzigen Sitzung verarbeiten kann, ohne dass wichtige Details verloren gehen

Kreatives Schreiben ist eine weitere Stärke, die dieses Modell auszeichnet. Mehrere Nutzer auf Reddit haben den menschenähnlichen Schreibstil von Kimi K2 Thinking gelobt und angemerkt, dass seine Ausgabe nur selten von KI-Erkennungstools erkannt wird. Diese Qualität ist auf das Training des Modells mit zwei dominanten Sprachen zurückzuführen – es beherrscht sowohl Englisch als auch Chinesisch auf nahezu Expertenniveau und verfügt über ein 160.000 Wörter umfassendes Vokabular, das mehrere Schriften und Sprachen umfasst

Zugriff und Verwendung von Kimi K2 Thinking

Der Einstieg in Kimi K2 Thinking erfordert nur minimale technische Kenntnisse. Nutzer können über verschiedene Kanäle auf das Modell zugreifen, die jeweils für unterschiedliche Bedürfnisse geeignet sind. Der einfachste Ansatz ist der Besuch von kimi.com, wo Moonshot eine kostenlose Webschnittstelle ähnlich wie ChatGPT anbietet. Das Anlegen eines Kontos dauert nur wenige Sekunden, und die Benutzer können sofort mit dem vollständigen Modell Gespräche führen

Für Entwickler, die Anwendungen entwickeln, stellt Moonshot eine API zur Verfügung, die mit den Standards von OpenAI und Anthropic kompatibel ist, was eine unkomplizierte Integration ermöglicht. Die Preisstruktur liegt deutlich unter der von Mitbewerbern: Mit 0,15 US-Dollar pro Million Input-Token und 2,50 US-Dollar pro Million Output-Token kostet Moonshot nur einen Bruchteil der Preise von GPT-4, die bei 2,00 US-Dollar und 8,00 US-Dollar liegen. Ein typisches Unternehmen, das monatlich 100 Millionen Input-Token und 20 Millionen Output-Token verwendet, würde mit Kimi K2 Thinking nur 65 US-Dollar ausgeben, verglichen mit 360 US-Dollar für GPT-4

Technische Anwender, die eine vollständige Kontrolle wünschen, können die vollständigen Modellgewichte von Hugging Face herunterladen. Das Modell läuft auf Inferenzmaschinen wie vLLM, SGLang und KTransformers. Obwohl das komplette Modell etwa 600 GB wiegt, ist es dank der INT4-Quantisierung auch auf High-End-Hardware handhabbar. Ein Tester berichtete, dass er etwa 15 Token pro Sekunde auf zwei M3 Ultra Chips erreicht

Bei der Arbeit mit Kimi K2 Thinking ist es wichtig, den Arbeitsablauf des Werkzeugaufrufs zu verstehen. Das Modell akzeptiert bei jeder Anfrage eine Liste verfügbarer Werkzeuge und entscheidet dann selbständig, wann und wie sie aufgerufen werden. Die Entwickler beschreiben die Informationen zum Werkzeugaufruf in einem standardisierten Format, senden sie an das Modell, führen alle angeforderten Funktionen aus, fügen die Ergebnisse an den Gesprächsverlauf an und lassen das Modell weiterdenken, bis es feststellt, dass es über genügend Informationen verfügt, um die Anfrage zu beantworten

Der Vorteil der Lizenzierung

Moonshot hat Kimi K2 Thinking unter einer modifizierten MIT-Lizenz veröffentlicht, die die meisten Hindernisse für die Nutzung beseitigt. Dies gibt den Nutzern volle Rechte für die kommerzielle Nutzung und abgeleitete Arbeiten, so dass sowohl einzelne Forscher als auch Unternehmensentwickler die Software frei in ihre Projekte integrieren können. Die Modifikation fügt nur eine Bedingung hinzu: Anwendungen, die mehr als 100 Millionen monatlich aktive Nutzer bedienen oder mehr als 20 Millionen Dollar Umsatz pro Monat generieren, müssen “Kimi K2” in ihrer Produktoberfläche anzeigen

Für die überwiegende Mehrheit der Anwendungsfälle – von der akademischen Forschung über Startup-Anwendungen bis hin zu unternehmensinternen Tools – kommt diese Zuordnungsklausel nie zum Tragen. Die Lizenzierung stellt einen der freizügigsten Ansätze dar, die es für ein Modell der Frontier-Klasse gibt, und steht im krassen Gegensatz zu den Abonnementgebühren und API-Kosten, die für geschlossene Alternativen erforderlich sind

Vertiefung der technischen Architektur

Um zu verstehen, was Kimi K2 Thinking möglich macht, muss man seine architektonischen Innovationen untersuchen. Das Mixture-of-Experts-Design verwendet 384 spezialisierte Experten in den Feedforward-Schichten, wobei ein Gating-Mechanismus dynamisch 8 Experten pro Eingabe-Token auswählt. Dieses spärliche Aktivierungsmuster bedeutet, dass trotz der Tatsache, dass das Modell eine Billion Parameter enthält, nur etwa 32 Milliarden für jedes Token aktiviert werden – was in etwa der Aktivierung von 3,2 % der Gesamtkapazität entspricht

Der Aufmerksamkeitsmechanismus mit der Bezeichnung MLA (Multi-head Local Attention) ermöglicht es dem Modell, Kontexte mit bis zu 256.000 Token zu verarbeiten. Im Vergleich zu DeepSeek R1, das die architektonische DNA mit Kimi K2 Thinking teilt, verwendet das Modell nur halb so viele Aufmerksamkeitsköpfe (64 gegenüber 128), aber etwa 1,5 Mal mehr Experten pro MoE-Schicht (384 gegenüber 256). Das Vokabular wurde von den 129.000 Wörtern von DeepSeek auf 160.000 Wörter erweitert, was eine bessere Abdeckung über mehrere Sprachen hinweg ermöglicht

Beim Training kam der von Moonshot entwickelte MuonClip-Optimierer zum Einsatz, der beim Training mit 15,5 Billionen Token für Stabilität sorgt. In der Nachtrainings-Phase wurde Quantization-Aware Training speziell für die MoE-Komponenten eingesetzt, so dass Kimi K2 Thinking nativ in INT4-Präzision ohne die für Post-Hoc-Quantisierung typische Leistungsverschlechterung laufen kann

Wo Kimi K2 Thinking sich auszeichnet und wo es Schwierigkeiten hat

Tests unter realen Bedingungen zeigen sowohl Stärken als auch Grenzen auf. Unabhängige Prüfer, die nicht-agentenbasierte Benchmarks durchführten, fanden heraus, dass Kimi K2 Thinking zwar bei vielen Aufgaben bewundernswert abschneidet, aber bei einigen Problemen des räumlichen Denkens strauchelt und gelegentlich eine falsche Syntax für domänenspezifische Sprachen wie Blender-Skripte erzeugt. Mathematische Fragen, bei denen die Benchmark-Leistung des Modells vermuten ließ, dass es sie lösen würde, führten in der Praxis manchmal zu unerwarteten Fehlern

Die größte Stärke des Modells liegt in der Planung, Fehlersuche und in der Durchführung von Aufgaben mit logischem Denken. Mehrere Entwickler berichten, dass Kimi K2 Thinking die Leistung von GPT-5 als Planungs- und Debugging-Assistent erreicht oder übertrifft. Für Arbeitsabläufe, die eine sorgfältige Zerlegung komplexer Probleme in überschaubare Schritte und eine anschließende systematische Ausführung erfordern, ist dieses Modell durchweg von Nutzen

Einige Benutzer stellen jedoch Inkonsistenzen fest, wenn sich der Gesamtkontext der Grenze von 256.000 Token nähert. Wenn die “Werkbank” des Modells mit Informationen aus früheren Schritten vollgestopft wird, kann die Argumentation unvorhersehbar werden oder unerwartet abbrechen. Dies deutet darauf hin, dass die Architektur zwar sehr lange Kontexte unterstützt, das Training aber möglicherweise nicht für alle möglichen Szenarien für die Verwendung von Werkzeugen mit langen Ketten optimiert wurde

Die Open-Source-Implikationen

Die Veröffentlichung von Kimi K2 Thinking ist mehr als nur ein weiteres Modell – sie signalisiert eine strukturelle Veränderung in der KI-Landschaft. Zum ersten Mal erreicht oder übertrifft ein offenes System proprietäre Spitzenmodelle bei wichtigen logischen und agentenbasierten Benchmarks. Dies stellt die Annahme in Frage, dass die leistungsfähigste KI hinter den Bezahlschranken von Unternehmen verschlossen bleiben muss

Unternehmen, die sich bisher ausschließlich auf proprietäre APIs verlassen haben, können nun offene Alternativen mit Argumentation auf GPT-5-Niveau einsetzen und dabei die vollständige Kontrolle über Gewichte, Daten und Compliance behalten. Die Transparenz ermöglicht die Überprüfung von Schlussfolgerungsspuren, die Feinabstimmung für domänenspezifische Anwendungen und die Beseitigung der Anbieterbindung. Für akademische Forscher bedeutet der Zugang zu einem Billionen-Parameter-Schlussfolgermodell ohne Abonnementgebühren eine Demokratisierung der Teilnahme an der KI-Forschung

Die Wettbewerbsdynamik hat sich bereits verschoben. Nur wenige Wochen vor der Markteinführung von Kimi K2 Thinking hielt MiniMax-M2 den Titel des besten Open-Source-Modells mit beeindruckenden Ergebnissen bei mehreren Benchmarks. Kimi K2 Thinking übertraf diese Ergebnisse deutlich – zum Beispiel erreichte es 60,2 % bei BrowseComp gegenüber 44,0 % von M2 und 71,3 % bei SWE-Bench Verified gegenüber 69,4 % von M2. Diese rasche Abfolge immer leistungsfähigerer offener Modelle deutet darauf hin, dass die Grenze tatsächlich eher kollaborativ als proprietär geworden ist

Zukünftige Richtungen und was als nächstes kommt

Die Kimi-Modellfamilie entwickelt sich schnell weiter. Moonshot hat im Jahr 2025 bereits mehrere Versionen veröffentlicht, darunter spezialisierte Varianten wie Kimi-VL für visuelle Sprachaufgaben und Kimi-Researcher für autonome Forschungsabläufe. Das Unternehmen hat das Kontextfenster von 128.000 Token im ursprünglichen Kimi K2 auf 256.000 in den nachfolgenden Versionen erweitert

Mit Blick auf die Zukunft gibt es in mehreren Bereichen Verbesserungsmöglichkeiten. Die gelegentliche Instabilität bei langen Werkzeugverwendungsketten deutet darauf hin, dass das Training für erweiterte agenturische Arbeitsabläufe verbessert werden sollte. Während die mathematische und kodierte Leistung bereits ein hohes Niveau erreicht, könnte eine weitere Verfeinerung die verbleibenden Lücken zu den besten proprietären Systemen bei Software-Engineering-Aufgaben im Repository-Bereich schließen

Die Integration mit externen Werkzeugen und APIs wird wahrscheinlich erweitert, wodurch Kimi K2 Thinking als autonomer Agent noch leistungsfähiger wird. Die Architektur des Modells – mit seiner effizienten Sparse-Aktivierung und nativen Quantisierung – weist auf eine Zukunft hin, in der Billionen-Parameter-Modelle eher zur Routine als zur Ausnahme werden

Praktische Empfehlungen für Benutzer

Unternehmen, die Kimi K2 Thinking evaluieren, sollten eine hybride Routing-Strategie in Betracht ziehen. Leiten Sie planungsintensive Forschungsaufgaben, wettbewerbsorientierte Programmierung und algorithmische Kodierung an Kimi K2 Thinking weiter, wo seine agentischen Stärken zum Tragen kommen. Behalten Sie GPT-5 oder Claude in der Schleife für Fehlerbehebungen im Repository-Maßstab, terminallastige Entwicklungsaufgaben und Szenarien, die maximale Produktionszuverlässigkeit erfordern

Einzelne Entwickler können über die kostenlose Webschnittstelle unter kimi.com sofort mit dem Experimentieren beginnen. Diejenigen, die Anwendungen entwickeln, sollten die API testen, die Spitzenleistung zu einem Bruchteil der Preise der Konkurrenz bietet. Technische Benutzer mit geeigneter Hardware können das Modell lokal ausführen und erhalten so die vollständige Kontrolle, während sie von der zweifachen Beschleunigung der Inferenz durch die native INT4-Unterstützung profitieren

Die besten Ergebnisse erzielen Sie, wenn Sie die Eingabeaufforderungen klar strukturieren und die Fähigkeit des Modells nutzen, vor der Ausführung zu planen. Kimi K2 Thinking kann zunächst als “Architekt” fungieren, indem es einen detaillierten Plan für komplexe Aufgaben erstellt, und dann als “Dispatcher”, der diesen Plan Schritt für Schritt ausführt. Dieser Ansatz des externalisierten Denkens umgeht alle Einschränkungen des Denkens und nutzt gleichzeitig die außergewöhnlichen Ausführungsfähigkeiten des Modells

Definitionen

Expertenmischung (Mixture-of-Experts, MoE): Ein architektonischer Ansatz, bei dem ein großes Modell viele spezialisierte “Experten”-Teilnetze enthält, aber nur eine kleine Teilmenge für jede Eingabe aktiviert wird, was eine enorme Skalierung bei gleichzeitig überschaubaren Berechnungen ermöglicht. Kimi K2 Thinking verwendet 384 Experten, von denen 8 pro Token ausgewählt werden

Kontext-Fenster: Die Menge an Text (gemessen in Token), die ein Modell auf einmal verarbeiten und sich merken kann. Kimi K2 Thinking unterstützt 256.000 Token – das entspricht in etwa einem 500-seitigen Buch – und ermöglicht so die Analyse umfangreicher Dokumente oder längerer Konversationen

Quantisierungsorientiertes Training (QAT): Eine Technik, bei der ein Modell lernt, die Genauigkeit auch bei der Verwendung von Zahlen mit geringerer Genauigkeit (wie INT4 anstelle von Standard-Gleitkommazahlen) beizubehalten, was eine schnellere Inferenz und geringere Speicheranforderungen ermöglicht, ohne die Leistungsqualität zu beeinträchtigen

Werkzeugaufrufe/Funktionsaufrufe: Die Fähigkeit eines KI-Modells, zu erkennen, wann es externe Informationen oder Fähigkeiten benötigt, entsprechende Tools aufzurufen (z. B. Websuche, Taschenrechner oder Codeausführung) und die Ergebnisse in seinen Schlussfolgerungsprozess zu integrieren

SWE-Bench: Ein Benchmark, mit dem getestet wird, ob KI-Modelle reale Softwarefehler automatisch beheben können, indem sie Codebasen analysieren, Probleme verstehen und entsprechende Patches generieren – und damit eher die praktischen Programmierfähigkeiten als das theoretische Wissen messen

Die letzte Prüfung der Menschheit (HLE): Ein besonders schwieriger Benchmark, der dazu dient, fortgeschrittene Denkfähigkeiten bei Problemen zu testen, die eher tiefes, mehrstufiges Denken als einfachen Musterabgleich oder Wissensabruf erfordern

Agenten-KI: Systeme, die zu autonomem, zielgerichtetem Verhalten fähig sind – sie planen mehrstufige Arbeitsabläufe, rufen bei Bedarf Hilfsmittel auf, passen Strategien auf der Grundlage von Ergebnissen an und führen komplexe Aufgaben ohne ständige menschliche Anleitung aus

Modell mit offenem Gewicht: Ein KI-System, bei dem die trainierten Parameter (Gewichte) öffentlich zum Download zur Verfügung stehen, so dass jeder das Modell ausführen, untersuchen oder ändern kann, im Gegensatz zu geschlossenen Modellen, die nur über APIs zugänglich sind

Häufig gestellte Fragen

Was ist Kimi K2 Thinking und wie funktioniert es?

Kimi K2 Thinking ist ein von Moonshot AI entwickeltes Open-Source-KI-Modell mit Billionen von Parametern, das als “denkender Agent” fungiert und in der Lage ist, komplexe Probleme Schritt für Schritt zu durchdenken und dabei selbstständig externe Tools aufzurufen. Im Gegensatz zu herkömmlichen Chatbots, die lediglich auf Anfragen reagieren, kann Kimi K2 Thinking mehrdeutige Probleme in klare Teilaufgaben zerlegen, nach Informationen suchen, Code ausführen, Ergebnisse analysieren und ohne menschliches Eingreifen in Hunderten von Schritten iterieren. Das Modell verwendet eine “Mixture-of-Experts”-Architektur mit 384 spezialisierten Experten, die für jede Schlussfolgerung nur 32 Milliarden der insgesamt Billionen Parameter aktivieren, wodurch es sowohl leistungsstark als auch effizient ist

Wie schlägt sich Kimi K2 Thinking im Vergleich zu GPT-5 und Claude in der Praxis?

Kimi K2 Thinking übertrifft sowohl GPT-5 als auch Claude Sonnet 4.5 in mehreren wichtigen Benchmarks, insbesondere in den Szenarien für agentenbasiertes Denken und die Nutzung von Werkzeugen. Bei “Humanity’s Last Exam” erreichte Kimi K2 Thinking 44,9 % im Vergleich zu 41,7 % bei GPT-5 und 32,0 % bei Claude. Bei “BrowseComp” (Web-Recherche) erreichte Kimi K2 Thinking 60,2 % gegenüber 54,9 % bei GPT-5 und 24,1 % bei Claude. Bei den Programmieraufgaben ist das Bild differenzierter – Kimi K2 Thinking übertrifft die Konkurrenz mit 83,1 % im LiveCodeBench, liegt aber leicht hinter GPT-5 und Claude bei Aufgaben zur Fehlerbehebung im Repository wie SWE-Bench Verified. Insgesamt zeigt Kimi K2 Thinking Stärken in den Bereichen Planung, nachhaltiges Denken und autonome Aufgabenerledigung, was es besonders wertvoll für Forschung, algorithmische Programmierung und mehrstufige Problemlösungs-Workflows macht

Ist die Nutzung von Kimi K2 Thinking wirklich kostenlos, und welche Lizenzbeschränkungen gibt es?

Ja, Kimi K2 Thinking kann wirklich kostenlos genutzt werden, und zwar über mehrere Zugangsmethoden, darunter die Webschnittstelle unter kimi.com, die API-Plattform unter platform.moonshot.ai und herunterladbare Gewichte auf Hugging Face. Das Modell wird unter einer modifizierten MIT-Lizenz veröffentlicht, die volle kommerzielle und derivative Rechte bietet, was bedeutet, dass sowohl Einzelpersonen als auch Unternehmen es ohne Gebühren in ihre Produkte integrieren können. Die einzige Einschränkung gilt für extrem große Implementierungen: Wenn Ihre Anwendung mehr als 100 Millionen monatlich aktive Nutzer bedient oder mehr als 20 Millionen Dollar Umsatz pro Monat generiert, müssen Sie “Kimi K2” in Ihrer Produktoberfläche anzeigen. Für die überwiegende Mehrheit der Nutzer – darunter Startups, Forscher und sogar umfangreiche Unternehmensanwendungen – gilt diese Schwelle nicht, so dass das Modell im Wesentlichen uneingeschränkt gilt

Welche Hardware-Anforderungen sind erforderlich, um Kimi K2 Thinking lokal zu betreiben?

Die lokale Ausführung von Kimi K2 Thinking erfordert dank der nativen INT4-Quantisierung des Modells eine umfangreiche, aber immer besser zugängliche Hardware. Das komplette Modell wiegt in seiner quantisierten Form etwa 600 GB und ist damit deutlich kleiner als typische Billionen-Parameter-Modelle. Ein Entwickler berichtete, dass er auf zwei M3 Ultra Chips etwa 15 Token pro Sekunde erreichen konnte, was zeigt, dass auch High-End-Hardware für den Endverbraucher in der Lage ist, Inferenzen zu verarbeiten. Um eine optimale Leistung zu erzielen, arbeitet das Modell mit Inferenz-Engines wie vLLM, SGLang und KTransformers, die die Arbeitslast effizient verteilen können. Die meisten Unternehmen entscheiden anhand des Nutzungsvolumens, ob sie selbst gehostet werden sollen: Für Unternehmen, die monatlich weniger als 10 Millionen Token verarbeiten, ist die API mit 0,15 US-Dollar pro Million eingegebener Token in der Regel kosteneffizienter, während Unternehmen, die monatlich mehr als 100 Millionen Token verarbeiten, trotz der Hardware-Investitionen vom Selbst-Hosting profitieren

Was macht die Tool-Calling-Fähigkeit von Kimi K2 Thinking im Vergleich zu anderen KI-Modellen besonders?

Kimi K2 Thinking zeichnet sich durch seine Fähigkeit aus, 200 bis 300 aufeinanderfolgende Tool-Aufrufe auszuführen und dabei ein kohärentes, zielgerichtetes Verhalten über die gesamte Kette hinweg beizubehalten – weit mehr als die 30 bis 50 Schritte, bei denen die meisten früheren Modelle anfangen, abzubauen oder die Ziele aus den Augen zu verlieren. Das Modell wurde von Anfang bis Ende darauf trainiert, Denkketten mit Funktionsaufrufen zu verschachteln, d. h. es ruft nicht nur mechanisch Tools auf, sondern entscheidet aktiv, wann Tools benötigt werden, welche Informationen aus den Ergebnissen extrahiert werden sollen und wie die Strategie auf der Grundlage der Ergebnisse angepasst werden soll. Dies ermöglicht echte autonome Arbeitsabläufe: Kimi K2 Thinking kann Recherchen durchführen, indem es mehrere Quellen durchsucht, Ergebnisse zusammenfasst, Berechnungen zur Überprüfung von Behauptungen durchführt, iteriert, wenn erste Ansätze scheitern, und komplexe mehrstufige Aufgaben durchführt, ohne dass in jeder Phase ein menschliches Eingreifen erforderlich ist. Die praktischen Auswirkungen zeigen sich in Anwendungsfällen wie der automatisierten Softwareentwicklung, der umfassenden Synthese von Forschungsergebnissen und der Lösung komplexer Probleme, die traditionell mehrere Stunden oder Tage lang menschlichen Einsatz erfordern würden.

Laszlo Szabo / NowadAIs

Laszlo Szabo is an AI technology analyst with 6+ years covering artificial intelligence developments. Specializing in large language models, ML benchmarking, and Artificial Intelligence industry analysis

Categories

Follow us on Facebook!

How AI Cryptocurrency Trading Turned $10,000 Into $14,000 (While Others Lost Everything) - article featured image
Previous Story

Wie AI Cryptocurrency Trading $10.000 in $14.000 verwandelte (während andere alles verloren)

AI Espionage The Ghost in the Machine is Now a Real Spy - featured image, a ghost with computer background
Next Story

KI-Spionage: Der Geist in der Maschine ist jetzt ein echter Spion

Latest from Blog

Go toTop