Glanzleistung in Chemie, Totalausfall in Biologie

Maximilian Idahl

Maximilian Idahl

13 Min. Lesezeit

Im Dezember 2025 hat OpenAI FrontierScience veröffentlicht, den bis dahin härtesten öffentlichen Science-Benchmark. Seitdem ist eine neue Generation von Frontier-Modellen erschienen: GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro. Jedes davon verspricht einen deutlichen Leistungssprung. Zeit, den Stand der Dinge zu prüfen. In diesem Beitrag lassen wir den Benchmark mit elluminate auf den aktuellen Modellen erneut laufen und analysieren die Ergebnisse.

Der FrontierScience-Benchmark von OpenAI

Mit den wachsenden Reasoning-Fähigkeiten aktueller KI-Modelle kommen bestehende Science-Benchmarks kaum noch hinterher. GPQA[2] galt einmal als extrem schwierig, doch in den letzten zwei Jahren sind die Modell-Scores von 39 % auf 92 % gestiegen. FrontierScience ist bewusst härter, origineller und aussagekräftiger angelegt. Der Benchmark umfasst 160 Aufgaben aus Physik, Chemie und Biologie, erstellt von 42 internationalen Olympia-Medaillengewinnern und 45 promovierten Forschern. Jede Aufgabe wurde unabhängig fachlich begutachtet, und alle Aufgaben, die OpenAIs interne Modelle bereits lösen konnten, wurden während der Erstellung aussortiert. Das macht das spätere starke Abschneiden von GPT-5.4 besonders interessant. Hier eine der einfacheren Aufgaben aus dem Olympiade-Set Chemie:

Aufgabe: Chlorperchlorat (Cl₂O₄) ist ein interessantes Chloroxid. Die Chloratome haben unterschiedliche Oxidationsstufen. Was ist das Produkt ihrer Oxidationsstufen?

Antwort: 7

Das ist noch am leichteren Ende. Die meisten Aufgaben sind deutlich anspruchsvoller. Sie verlangen mehrstufige Syntheseketten, umfangreiche Herleitungen oder experimentelle Versuchsplanungen, die Wissen aus mehreren Teilgebieten verknüpfen.

Der Benchmark besteht aus zwei Teilsätzen. Olympiad enthält 100 Aufgaben mit genau einer korrekten Antwort: eine Zahl, Gleichung, Formel oder kurze Wortangabe. Research enthält 60 offene Teilaufgaben, die repräsentativ für den Arbeitsalltag eines promovierten Forschers sind. Jede davon ist auf drei bis fünf Stunden Bearbeitungszeit ausgelegt und wird nach einer 10-Punkte-Skala bewertet.

Für diese Evaluation konzentrieren wir uns auf den Olympiad-Teil: 100 schwere Aufgaben mit verifizierbaren Antworten. So haben wir das Ganze in elluminate aufgesetzt.

Datensatz importieren

OpenAI hat den FrontierScience-Datensatz frei zugänglich auf HuggingFace veröffentlicht. Den Olympiad-Teil in elluminate zu importieren ist mit dem Python-SDK schnell erledigt: Wir filtern den Research-Track heraus (seine Antworten beginnen mit “Points:”), entfernen die im Datensatz eingebetteten Instruktionen und legen eine Collection an:

import datasets as hfds
from elluminate import Client

COLUMNS = ["problem", "reference_answer", "subject"]
# Full instruction text truncated for readability
INSTRUCTION_OLYMPIAD = 'Think step by step and solve the problem below. At the end of ...'

client = Client()

ds_en = hfds.load_dataset("openai/frontierscience") ["test"]
ds_en = ds_en.filter(lambda x: "Points:" not in x["answer"])
ds_en = ds_en.map(lambda x: {"problem": x["problem"].replace(INSTRUCTION_OLYMPIAD, "").strip()})
ds_en = ds_en.rename_column("answer", "reference_answer")

client.create_collection(
    name="FrontierScience Olympiad",
    variables=ds_en.select_columns(COLUMNS).to_list(),
)

So sieht das Ergebnis in der Web-UI aus:

elluminate Web-UI mit der importierten FrontierScience-Olympiad-Collection und den Spalten problem, reference_answer und subject

Die Spalte subject ermöglicht uns später das Filtern nach Fachgebiet, sodass wir die Modell-Leistung zwischen Biologie, Chemie und Physik vergleichen können.

Prompt-Template und Kriterien einrichten

Neben der Collection brauchen wir noch zwei Dinge: ein Prompt-Template, das dem Modell sagt, was zu tun ist, und eine Reihe von Kriterien, nach denen das Rating-Modell die Antworten bewertet.

In Anlehnung an OpenAIs FrontierScience-Implementierung umrahmt unser Prompt-Template jede Aufgabe mit der Anweisung, schrittweise zu lösen und eine finale Antwort zu formulieren. Jeder (problem)-Platzhalter wird zur Evaluation durch eine Aufgabe aus der Collection ersetzt.

elluminate Prompt-Template-Editor mit dem FrontierScience-Aufgaben-Template und Schritt-für-Schritt-Anweisungen

Für die Evaluation des Olympiad-Teils von FrontierScience reicht ein einziges Kriterium: Stimmt die finale Antwort des Modells mit der Referenz überein? Dabei wollen wir auch äquivalente Formen akzeptieren: übereinstimmende algebraische Ausdrücke, Zahlen im Rahmen einer Rundung auf eine Nachkommastelle, äquivalente Verbindungsnamen und Einheitenumrechnungen.

elluminate Kriterienkonfiguration für den FrontierScience-Antwortabgleich mit Äquivalenzregeln

Dieses Kriterium haben wir direkt aus dem Judge-Prompt übernommen, den OpenAI in ihrem Paper veröffentlicht hat[1].

Experimente durchführen

Jetzt können die Experimente starten. Wir übergeben die Aufgabe an den Eval Agent von elluminate, einen in die Plattform integrierten KI-Assistenten, der Experimente aus einem Prompt in natürlicher Sprache anlegen, ausführen und auswerten kann.

Wir haben ihm folgende Anweisung gegeben:

Evaluiere die folgenden Modelle mit reasoning_effort high auf dem FrontierScience-Benchmark. Nutze dafür die bestehende Collection, das Prompt-Template und das Kriterium:

  • GPT-5.4
  • Claude Opus 4.6
  • Gemini 3.1 Pro

Der Eval Agent legt für jedes der angefragten Modelle ein Experiment an und startet es. Konfiguration und Ausführung übernimmt er selbstständig. Hier sein Trace:

elluminate Eval Agent erhält die Anweisung, drei Frontier-Modelle auf FrontierScience zu evaluieren

elluminate Eval Agent erstellt und konfiguriert Experimente für jedes Modell

elluminate Eval Agent konfiguriert und startet die Experimente für jedes Modell

Im Experimente-Dashboard verfolgen wir den Fortschritt:

elluminate Experimente-Dashboard: Claude ist fertig, Gemini 3.1 und GPT 5.4 laufen noch

Claude ist bereits fertig, während Gemini 3.1 und GPT 5.4 noch laufen.

Ergebnisse interpretieren

Sobald alle Experimente durchgelaufen sind, bitten wir den Eval Agent um die Analyse:

elluminate Eval Agent erhält die Anfrage, die FrontierScience-Experimentergebnisse zu analysieren

elluminate Eval Agent lädt Ergebnisse und führt paarweise Vergleiche zwischen den Modellen durch

elluminate Eval Agent identifiziert Fehlermuster wie Vorzeichenfehler und fehlende Terme

elluminate Eval Agent vergleicht Ausgabelänge und Genauigkeit der Modelle

elluminate Eval Agent Zusammenfassung der FrontierScience-Benchmark-Ergebnisse

elluminate Eval Agent detaillierte Analyse der FrontierScience-Experimentergebnisse

Der Eval Agent ist weit über das bloße Ablesen der Scores hinausgegangen. Er hat die Ergebnisse jedes Experiments abgerufen, paarweise Vergleiche durchgeführt, um Aufgaben zu finden, die das eine Modell löste und das andere nicht, konkrete Fehlerfälle angesehen und typische Fehlermuster wie Vorzeichenfehler und fehlende Terme identifiziert.

Das zentrale Ergebnis: Gemini 3.1 Pro und GPT-5.4 liegen an der Spitze nahezu gleichauf (82,8 % und 81,8 %), während Claude Opus 4.6 mit 59 % zurückbleibt.1

Ein interessantes Detail, das der Eval Agent aufgedeckt hat, ist der Zusammenhang zwischen Ausgabelänge und Genauigkeit. GPT-5.4 erzeugt rund 4.000 Tokens pro Antwort mit umfangreichem, sichtbarem Chain-of-Thought-Reasoning, während Gemini mit unter 800 Tokens eine leicht bessere Genauigkeit erreicht. Claude liefert die kürzesten Antworten und ist mit Abstand am schnellsten, doch die niedrige Token-Zahl deutet darauf hin, dass es bei diesen Aufgaben nicht tief genug schlussfolgert. Ein naheliegender nächster Schritt wäre, den Prompt zu optimieren und Claude zu tieferem Reasoning zu bewegen.

Auswertung nach Fachgebiet

Zusätzlich haben wir den Eval Agent um eine Auswertung nach Fachgebiet gebeten:

ModellPhysik (50)Chemie (40)Biologie (10)
Gemini 3.1 Pro80,0 %95,0 %50,0 %
GPT-5.478,0 %95,0 %50,0 %
Claude Opus 4.656,0 %70,0 %30,0 %
Durchschnitt über alle Modelle71,3 %86,6 %43,3 %

Chemie ist nahezu gelöst. Sowohl GPT-5.4 als auch Gemini 3.1 Pro erreichen 95 % und scheitern an jeweils nur 2 Aufgaben.

Physik ist schwieriger, aber mit rund 80 % schon in Sichtweite.

Biologie ist die deutliche Schwachstelle. Keines der Modelle schafft mehr als die Hälfte. Es handelt sich um experimentelle Biologie-Aufgaben (Molekulares Klonen, scRNA-seq, Signalwege), die spezialisiertes Wet-Lab-Wissen voraussetzen. Mit nur 10 Aufgaben im Teilsatz sind die Zahlen mit Vorsicht zu genießen, doch das Schwierigkeitsprofil ist über alle drei Modelle hinweg konsistent.

Claudes Rückstand zieht sich gleichmäßig durch alle drei Fachgebiete, er konzentriert sich nicht auf einen Bereich. Zusammen mit den oben beobachteten kürzeren Ausgaben spricht das für einen systematischen Unterschied in der Reasoning-Tiefe, nicht für eine fachspezifische Schwäche.

Wie es weitergeht

Vor drei Monaten erreichte das beste Modell bei diesen Aufgaben 77 %. Jetzt liegen zwei Modelle über 82 %, und Chemie ist mit 95 % nahezu gelöst. Physik ist in Sichtweite. Die Biologie-Aufgaben bleiben an der Frontier bislang ungelöst. Beim aktuellen Tempo des Fortschritts wahrscheinlich nicht mehr lange.

Mit elluminate sind wir in kürzester Zeit von einem öffentlichen HuggingFace-Datensatz zu einem vollständigen Modellvergleich gelangt. Von hier aus lässt sich die Arbeit in viele Richtungen weiterführen: weitere Modelle evaluieren, das Prompt-Template optimieren, um die Leistung eines bestimmten Modells zu verbessern, oder mehr Durchläufe rechnen, um die Varianz zu senken. Derselbe Workflow greift für jede Evaluation, nicht nur für Science-Benchmarks.

Wenn Sie elluminate selbst ausprobieren möchten, nehmen Sie Kontakt auf — wir helfen Ihnen beim Einstieg. Wir unterstützen alle Arten von Anwendungsfällen, einschließlich agentischer Evaluation.

Literaturverzeichnis

  1. Wang, M., Lin, R., Hu, K., Jiao, J., Chowdhury, N., Chang, E., & Patwardhan, T. (2026). FrontierScience: Evaluating AI’s Ability to Perform Expert-Level Scientific Tasks. arXiv:2601.21165
  2. Rein, D., Hou, B. L., Stickland, A. C., Petty, J., Pang, R. Y., Dirani, J., Michael, J., & Bowman, S. R. (2023). GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022

Weitere Artikel

Nutzen Sie das volle Potenzial von KI

Erfahren Sie, wie unsere Produkte Ihnen helfen können, KI-Agenten sicher zu evaluieren, deployen und zu überwachen.