Anthropic veröffentlichte Claude Opus 4.7 am Donnerstag, sein leistungsfähigstes allgemein verfügbares KI-Modell bisher, mit messbaren Verbesserungen beim Codieren, bei der Bildverarbeitung und bei mehrstufigen agentic Workflows. Die Veröffentlichung enthält ein ungewöhnliches Eingeständnis: Das stärkere Modell des Unternehmens, Mythos Preview, bleibt hinter einem eingeschränkten Zugriffsprogramm zurück, dem sich die meisten Entwickler und Unternehmen nicht anschließen können.
Was die Claude Opus 4.7 Veröffentlichung enthält
Introducing Claude Opus 4.7, our most capable Opus model yet.
It handles long-running tasks with more rigor, follows instructions more precisely, and verifies its own outputs before reporting back.
You can hand off your hardest work with less supervision. pic.twitter.com/PtlRdpQcG5
— Claude (@claudeai) April 16, 2026
Das neue Modell ist über die Claude API, Amazon Bedrock, Google Cloud’s Vertex AI und Microsoft Foundry verfügbar. Laut Anthropic hat Claude Opus 4.7 auf einem 93-Aufgaben-Codier-Benchmark die Auflösung um 13% gegenüber Opus 4.6 verbessert und vier Aufgaben abgedeckt, die weder Opus 4.6 noch Sonnet 4.6 lösen konnten. Rakuten berichtete, dass das neue Modell auf seinem internen SWE-Bench 3x mehr Produktionsaufgaben löst als Opus 4.6, mit zweistelligen Gewinnen sowohl bei der Code-Qualität als auch bei der Test-Qualität.
Das Modell wird mit einem neuen xhigh Aufwand-Level geliefert, das zwischen den bestehenden Einstellungen high und max positioniert ist und Entwicklern eine feinere Kontrolle über den Kompromiss zwischen Denk-Tiefe und Antwort-Latenz bei schwierigen Problemen gibt. Die Unterstützung der Bildauflösung wurde erheblich erweitert: Opus 4.7 kann jetzt Bilder bis zu 3,75 Megapixel und 2.576 Pixel auf der langen Kante verarbeiten — etwa dreimal so hoch wie bei seinem Vorgänger. Ein aktualisierter Tokenizer erhöht den Token-Verbrauch um 1,0–1,35x, was Entwickler bei der Kostenplanung berücksichtigen sollten; Anthropic hat einen Migrationsleitfaden veröffentlicht, um Teams bei der Umstellung von Opus 4.6 zu unterstützen.
Task-Budgets — ein Entwickler-Tool zur Steuerung von Claudes Token-Ausgaben — sind neben dieser Veröffentlichung in die öffentliche Beta eingetreten. Anthropic sagt, dass Opus 4.7 die stärkste Effizienzbasis hat, die es je für mehrstufige Arbeiten auf seinem internen Forschungsagenten-Benchmark beobachtet hat und insgesamt 0,715 erreichte.
Konkrete Vorteile und dokumentierte Einschränkungen
Frühanwender in verschiedenen Branchen berichten über konsistente Verbesserungen bei komplexen, lang laufenden Aufgaben. CursorBench bewertete Opus 4.7 mit 70%, gegenüber 58% für Opus 4.6, und beschrieb es als “ein sehr beeindruckendes Codier-Modell, insbesondere für seine Autonomie und kreativere Denkweise”. Auf dem visuellen Akutheits-Benchmark von Xbow erreichte das Modell 98,5% gegenüber 54,5% bei Opus 4.6 — eine annähernde Verdoppelung, die Solve Intelligence auf “wesentliche Verbesserungen beim multimodalen Verständnis, von der Lesung chemischer Strukturen bis zur Interpretation komplexer technischer Diagramme” zurückführte.
In den Branchen Finanzen und Recht erreichte Harvey 90,9% Genauigkeit auf BigLaw Bench bei hohem Aufwand, mit besserer Denk-Kalibrierung bei Überprüfungs-Tabellen und merklich intelligenterer Handhabung von mehrdeutigen Dokumentenbearbeitungsaufgaben. Databricks fand 21% weniger Fehler auf seinem OfficeQA Pro Benchmark, wenn Opus 4.7 mit Quelldokumenten arbeitete, verglichen mit seinem Vorgänger. Das General Finance Modul auf Anthropic’s internem Benchmark verbesserte sich von 0,767 unter Opus 4.6 auf 0,813 unter Opus 4.7.
Agentic Plattformen stellten Effizienzgewinne ohne die typische Regressionssteuer fest. Notion Agent beschrieb eine 14%ige Verbesserung bei komplexen mehrstufigen Workflows, die bei weniger Tokens und einem Drittel der Tool-Fehler erreicht wurde. Genspark schrieb dem Modell zu, bei Schleifenresistenz, Konsistenz und gnädiger Fehlerbehebung zu glänzen — drei Attribute, die oft mit zunehmender Länge von Agent-Ketten nachlassen. Factory Droids berichtete über Verbesserungen zwischen 10% und 15% bei den Erfolgsraten von Aufgaben in seinen Droid-Workflows.
Anthropic bot eine bemerkenswerte interne Demonstration: Opus 4.7 baute autonom eine vollständige Rust-Text-to-Speech-Engine von Grund auf — neuronales Modell, SIMD-Kerne und ein Browser-Demo — und führte dann seine eigene Ausgabe durch einen Spracherkenner, um zu überprüfen, ob sie mit einer Python-Referenzimplementierung übereinstimmte. Qodo fügte hinzu, dass das Modell drei TBench-Aufgaben bestand, die frühere Claude-Modelle nicht erfüllen konnten, und eine Rennbedingung behob, die dem vorherigen besten Modell entgangen war.
Die Einschränkungen sind im Claude Opus 4.7 System Card dokumentiert. Anthropic erkennt an, dass Opus 4.7 bei bestimmten Sicherheitsmaßnahmen geringfügig schwächer ist als Opus 4.6 — insbesondere zeigt es eine größere Tendenz, übermäßig detaillierte Hinweise zur Schadensbegrenzung bei kontrollierten Substanzen zu geben. Anthropic stellt auch klar fest, dass Mythos Preview das am besten abgestimmte Modell ist, das das Unternehmen trainiert hat. Die 1,0–1,35x Token-Verbrauchssteigerung des Tokenizers hat direkte Kostenauswirkungen für Hochvolumene-API-Verbraucher, eine operative Realität, die der Migrationsleitfaden direkt anspricht.
Wettbewerb, Zugangsgleichheit und die Mythos-Decke
Die Veröffentlichung positioniert Opus 4.7 gegen OpenAI’s GPT-5.4 und Google’s Gemini 3.1 Pro. Laut The Next Web führt Opus 4.7 auf SWE-bench Pro mit einer Punktzahl von 64,3% gegenüber GPT-5.4’s 57,7%. Gemini 3.1 Pro ist pro Token günstiger, was für kostenempfindliche Teams von Bedeutung sein wird, auch wenn die Benchmark-Zahlen Anthropic’s Angebot bevorzugen.
Der strukturell bedeutsamere Kontext ist Anthropic’s Zwei-Ebenen-Modell-Strategie. Wie The Verge berichtete, räumte Anthropic in Opus 4.7’s Systemkarte ein, dass das Modell die Fähigkeitsgrenze des Unternehmens nicht vorantreibt, da Mythos Preview bei jeder relevanten Bewertung höher punktete. Mythos Preview bleibt auf ausgewählte Organisationen beschränkt — darunter, laut 9to5Mac, wichtige Software-Plattform-Anbieter wie Apple — während der breitere Entwicklermarkt Opus 4.7 verwendet.
Anthropic begründet die Aufteilung mit Sicherheitsgründen. Das Unternehmen erklärte, es beabsichtige, die Verbreitung von Mythos Preview begrenzt zu halten und Opus 4.7 als Testumgebung für neue Cybersicherheitsvorkehrungen zu verwenden, bevor es weiter verbreitet wird. Sicherheitsexperten, die einen frühen Zugang für legitime offensive und defensive Arbeiten suchen, können sich über das Cyber Verification Program bewerben; Anthropic’s Project Glasswing umreißt seinen öffentlichen Rahmen für die Abwägung von AI-Risiken und -Vorteilen in der Cybersicherheit. Unabhängige Evaluatoren können die Leistung des Modells bei wirtschaftlich wertvoller Wissensarbeit durch das Drittanbieter-Tool GDPval-AA bewerten.
Anthropic hat auch einen etwa zweimonatigen Rhythmus für Opus-Updates etabliert, laut 9to5Mac — ein Tempo, das Pipeline-Vertrauen signalisiert, aber auch die Frage beschleunigt, wie schnell die öffentlich zugängliche Modell-Ebene hinter der eingeschränkten zurückfällt.
Was kommt als nächstes und was bleibt ungelöst
Partner-Endorsements sind breit und konsistent über Branchen hinweg. Replit nannte das Upgrade eine einfache Entscheidung. Warp beschrieb es als einen bedeutenden Schritt nach oben. Vercel berichtete über ein solides Upgrade ohne Regressionen. Bolt bestätigte Gewinne von bis zu 10% bei länger laufenden App-Entwicklungsarbeiten ohne die typischerweise mit hoch-agentic Modellen verbundenen Regressionen. Hebbia berichtete über einen zweistelligen Anstieg der Genauigkeit von Tool-Aufrufen und Planungen in seinen Kern-Orchestrator-Agenten.
Quantium nannte Opus 4.7 “das beste Modell der Welt für die Erstellung von Dashboards und datenreichen Schnittstellen” und “das leistungsfähigste Modell, das wir getestet haben”. Eine Finanztechnologie-Plattform im frühen Teststadium sagte, sie sehe “das Potenzial für einen bedeutenden Sprung” für ihre Entwickler. Qodo sagte, das Modell “fühlt sich wie ein echter Schritt nach oben in Sachen Intelligenz an”. Ramp stellte fest, dass Opus 4.7 sich insbesondere bei Agent-Team-Workflows auszeichnet, wo die Koordination zwischen mehreren Modellinstanzen am wichtigsten ist.
Die offenen Fragen sind struktureller Natur. Wie lange wird Anthropic einen bedeutenden Leistungsunterschied zwischen Opus 4.7 und Mythos Preview aufrechterhalten, und an welchem Punkt wird dieser Unterschied zu einem Wettbewerbsnachteil für Unternehmen, die keinen eingeschränkten Zugang erhalten können? Die Tokenizer-Änderung erhöht leise die Gesamtbetriebskosten für Hochvolumeneinsätze, auch wenn die Effizienz pro Aufgabe verbessert wird. Und wie Anthropic es ausdrückt: Opus 4.7 “erweitert die Grenze dessen, was Modelle tun können, um Aufgaben zu untersuchen und zu erledigen” — was immer noch eine Grenze impliziert, und diese Grenze liegt unter dem, was die eigenen internen Bewertungen des Unternehmens erreichen können.
FAQ – Häufig gestellte Fragen
Wie wird das neue xhigh Aufwand-Level in Claude Opus 4.7 meine API-Kosten beeinflussen?
Das xhigh Aufwand-Level wird voraussichtlich die Kosten um etwa 15-20% im Vergleich zum hohen Aufwand-Level erhöhen, aber dies kann je nach spezifischem Anwendungsfall und Aufgabenkomplexität variieren. Um dies zu mildern, können Entwickler ihre Aufgabenbudgets anpassen und ihre Modelle feinabstimmen, um Kosten-Leistungs-Kompromisse zu optimieren. Anthropic bietet Leitlinien zur Kostenplanung in ihrem Migrationsleitfaden.
Kann ich Claude Opus 4.7 für meine spezifische Branche oder Aufgabe feinabstimmen?
Ja, Anthropic ermöglicht Entwicklern, Claude Opus 4.7 für spezifische Aufgaben und Branchen über ihre API feinabzustimmen. Dies kann besonders nützlich für Domänen wie Finanzen und Recht sein, wo spezielle Kenntnisse und Terminologie entscheidend sind. Feinabstimmung kann dazu beitragen, die Genauigkeit und Relevanz des Modells für spezifische Anwendungsfälle zu verbessern.
Wie schneidet Claude Opus 4.7 im Vergleich zu anderen state-of-the-art KI-Modellen in Bezug auf multimodales Verständnis ab?
Claude Opus 4.7 zeigt deutliche Verbesserungen beim multimodalen Verständnis und konkurriert mit anderen Top-Modellen wie GPT-4 und Gemini. Seine Fähigkeit, komplexe technische Diagramme und chemische Strukturen zu interpretieren, wurde von Frühanwendern besonders gelobt. Eine umfassende Vergleich mit anderen Modellen ist jedoch noch erforderlich, um seine relativen Stärken und Schwächen vollständig zu bewerten.
Last Updated on April 16, 2026 7:27 p.m. by Laszlo Szabo / NowadAIs | Published on April 16, 2026 by Laszlo Szabo / NowadAIs

