Die Expert Trap: Was uns ein albernes Filmrätsel-Spiel über Prompts lehrt

Daniel Albensoeder

Daniel Albensoeder

7 Min. Lesezeit

Es gibt ein altbekanntes Internet-Spiel namens Explain a Film Plot Badly: Beschreiben Sie einen bekannten Film so irreführend wie möglich und lassen Sie die anderen raten. “Rampant inflation causes a housing crisis” ist Up . “The world’s machinery is threatened by malfunctioning batteries” ist The Matrix . Der Reiz liegt in der Irreführung: Jeder Hinweis ist technisch korrekt und absichtlich so formuliert, dass er in die falsche Richtung weist.

Es ist auch ein nahezu perfekter Test für laterales Denken - genau die Art Aufgabe, bei der die Intuition darüber, „was ein Modell besser macht”, meistens danebenliegt. Also haben wir das Spiel in eine Evaluation verwandelt. Ein Modell per Prompt zum Weltklasse-Filmexperten zu erklären, machte es schlechter - und der Effekt zeigte sich bei jedem getesteten Modell. Noch kurioser: Das Upgrade auf das neuere, Benchmark-führende Opus 4.8 machte es ebenfalls schlechter, nicht besser. Beides sind Schritte, die alle empfehlen; mit beidem rechnet niemand - bis man es evaluiert.

Das Setup

Für das Modell läuft das Spiel umgekehrt: Es bekommt den irreführenden Einzeiler und muss erraten, welcher Film beschrieben wird - es löst das Rätsel, statt es zu schreiben. Wir haben 50 echte irreführende Beschreibungen bekannter Filme aus dem Internet gesammelt, jede gepaart mit dem tatsächlichen Titel als Ground-Truth.

Diese 50 Beschreibungen haben wir gegen fünf Modelle laufen lassen - Claude Opus 4.8 und 4.7, Claude Sonnet 4.6, GPT-5.5 und das lokal betreibbare Open-Weight-Modell Mistral Small 3.2 24B - jeweils über mehrere Durchläufe für stabile Ergebnisse. Das Einzige, was zwischen den Experimenten variierte, war der Prompt.

Zur Bewertung der Antworten nutzten wir elluminate, unsere Evaluierungsplattform, mit zwei binären Pass/Fail-Kriterien, bewertet von einem LLM-Judge:

  • Correct Movie - hat die endgültige Antwort den richtigen Film genannt (kleinere Titelvarianten erlaubt)?
  • Considered Correct Movie - hat das Modell den richtigen Film irgendwann in seiner Argumentation erwähnt, auch wenn es sich am Ende für etwas anderes entschied? Dieses Kriterium trennt einen knappen Fehlschuss, bei dem es der richtige Film auf die Shortlist schaffte, aber gegen einen anderen Tipp verlor, von einem klaren Fehlschuss, bei dem der Titel nie auftauchte.

Die Expert Trap

Unsere Intuition lief in dieselbe Richtung wie die aller anderen: dem Modell Expertise einimpfen. „You are a world-class X” eröffnet unzählige Tutorials, Vendor-Docs und Corporate-Prompt-Bibliotheken. Also begann ein Prompt mit einer selbstsicheren Persona - “You are a legendary cinephile and film historian who has watched over 10,000 movies… famous for your ability to identify any movie from the most obscure or misleading descriptions.” Ein simulierter Experte müsste doch besser abschneiden.

Er tat das Gegenteil. Wir verglichen diese „Movie Expert”-Persona mit einem Prompt, der das Modell stattdessen anwies, wie die Person zu denken, die die irreführende Beschreibung verfasst hat:

“The writer KNOWS the movie and is deliberately making it sound like something else. For each clue, think: what iconic movie element could this be a twisted version of? Then work backwards from famous movies to see which one fits ALL the clues.”

Gleiche Modelle, gleiche Samples, gleicher Judge. Die Zahlen unten zeigen den Anteil der 50 korrekt benannten Filme - und die Experten-Persona verlor in jeder einzelnen Zeile:

Modell„Think Like the Writer”„Movie Expert”Differenz
GPT-5.586 %81 %−5
Claude Opus 4.865 %55 %−10
Claude Opus 4.765 %61 %−4
Claude Sonnet 4.664 %57 %−7
Mistral Small 3.2 24B32 %16 %−16

Mehrere Prozentpunkte Trefferquote, weg - allein durch einen schmeichelnden Eröffnungssatz. Der Effekt zeigte sich bei jedem getesteten Modell: GPT-5.5, Opus 4.7 und Sonnet gaben je vier bis sieben Punkte ab, und bei Opus 4.8 und Mistral wuchs der Abstand in den zweistelligen Bereich. Die Richtung ist über wiederholte Durchläufe konsistent - auch wenn die kleineren Abstände von vier bis sieben Punkten näher am Lauf-zu-Lauf-Rauschen liegen als die zweistelligen.

Warum Expertise nach hinten losgeht

Die Fehlerfälle erzählen die Geschichte. Wo die Experten-Persona danebenlag, zeigte sich fast immer dasselbe Muster: Das Modell verbiss sich in eine selbstsichere Antwort und zog den richtigen Film nicht einmal in Betracht.

  • “Drinking coffee reveals that everything is a lie” ( The Usual Suspects ) → antwortete selbstsicher mit The Matrix
  • “An estranged daughter is knocked up by her father’s namesake” ( The Big Lebowski ) → antwortete selbstsicher mit Knocked Up
  • “A cosplayer enters the main chamber of the House of Representatives, appears to die, but runs for city council instead” ( Dave ) → antwortete selbstsicher mit Mr. Smith Goes to Washington

Der Judge markierte diese als Fehlschlag sowohl bei „Correct Movie” als auch bei „Considered Correct Movie” - die richtige Antwort tauchte in der Argumentation überhaupt nicht auf. Die Experten-Persona belohnt genau das falsche Verhalten für diese Aufgabe: einen schnellen, autoritativen ersten Tipp - und sie unterdrückt die breite, zweifelnde Suche, die das Rätsel eigentlich verlangt.

Genau das macht das „Considered”-Kriterium sichtbar. Es geht nicht nur darum, dass die Experten-Persona häufiger den falschen Film wählt - sie bringt den richtigen Film überhaupt seltener ins Spiel. Bei jedem Modell, dessen Argumentation wir auslesen können, senkte die Experten-Persona die Rate, mit der der richtige Film überhaupt erwähnt wurde:

ModellRichtigen Film erwogen - WriterRichtigen Film erwogen - ExpertDifferenz
Claude Opus 4.867 %56 %−11
Claude Opus 4.771 %65 %−6
Claude Sonnet 4.668 %62 %−6
Mistral Small 3.2 24B47 %25 %−22

GPT-5.5 legt seinen Reasoning-Trace nicht offen - das „Considered”-Kriterium lässt sich dafür nicht messen.

Eine falsche Endantwort kann Pech sein. Eine richtige Antwort, die nie in die Argumentation einfließt, ist ein Such-Problem - das Modell hat die Tür geschlossen, bevor es zum richtigen Kandidaten kam. Genau das richtet „agiere wie ein Experte” hier an: Es verengt die Suche, statt sie zu weiten.

Die Prompts, die gut abschneiden, teilen eine Eigenschaft - und sie ist das genaue Gegenteil der Experten-Variante. Ob sie das Modell anweisen, vom Autor der Beschreibung her rückwärts zu arbeiten, sich an der ikonischsten Szene eines Films festzubeißen oder vor der Antwort seine Top-Tipps aufzulisten: Sie drängen das Modell, die Suche zu weiten und die Festlegung aufzuschieben. Die Experten-Persona macht das Umgekehrte: Sie belohnt eine schnelle, selbstsichere Einzelantwort. Das ist die Falle - bei einem Rätsel, das auf Irreführung aufgebaut ist, schlägt offenes Abwägen mehrerer Filme die Gewissheit beim ersten Tipp.

Wir haben zehn Prompts getestet, nicht zwei

Der direkte Vergleich oben war nicht handverlesen - er ist ein Beispiel für eine breitere Erkenntnis: Der beste Prompt hängt vom Modell ab. Wir haben dieselben zehn Prompt-Strategien - von einem minimalen Bare-Bones-Prompt bis zu mehrstufigen Routinen wie „generate and eliminate” und „rank your top three by confidence” - über alle fünf Modelle laufen lassen. Trefferquote auf den 50 Samples, sortiert nach Opus 4.8:

Prompt-StrategieOpus 4.8Opus 4.7Sonnet 4.6GPT-5.5Mistral 24B
Think Like the Writer65 %65 %64 %86 %32 %
Generate and Eliminate64 %64 %60 %82 %20 %
Adversarial Debrief61 %74 %56 %83 %21 %
Iconic Scenes Focus60 %76 %60 %88 %27 %
Top 3 with Confidence59 %72 %62 %85 %24 %
Gut Then Reconsider59 %64 %58 %78 %24 %
Every Word is a Lie57 %54 %54 %82 %12 %
Movie Expert persona55 %61 %57 %81 %16 %
Genre Inversion55 %58 %58 %80 %10 %
Minimal (no guidance)43 %52 %50 %76 %16 %

Drei Dinge fallen auf. Erstens: Der beste Prompt hängt vom Modell ab - und von der Modellversion. „Iconic Scenes” führt den Sweep auf Opus 4.7 und GPT-5.5 an, aber auf Opus 4.8 rutscht es ins Mittelfeld und „Think Like the Writer” übernimmt die Spitze - derselbe Prompt, der schon auf Sonnet und Mistral vorn lag. Und jeder Sieger landet auf den Modellen, auf denen er nicht gewinnt, nur im Mittelfeld. Tunen Sie einen Prompt auf einem Modell, wechseln Sie zu einem anderen - oder lassen Sie den Anbieter einfach eine neue Version ausliefern - und Ihre „beste” Wahl funktioniert plötzlich nicht mehr.

Zweitens: Die Experten-Persona ist überall eine schlechte Default-Wahl. Sie gewinnt auf keinem Modell; überall landet sie weit hinten, hinter den strukturierten, lateralen Strategien, und auf den kleineren und älteren Modellen sinkt sie auf das Niveau des „Minimal”-Prompts ganz ohne Anweisungen. „Agiere wie ein Experte” bringt hier nichts - und kostet oft. Es ist nicht das Schlimmste, was Sie tun können - aber nie die richtige Wahl.

Drittens: Die Prompt-Wahl wiegt umso schwerer, je schwächer das Modell. Sie ist nie egal - selbst auf GPT-5.5 liegen bester und schlechtester Prompt zwölf Punkte auseinander - aber dort ist der Abstand vergleichsweise klein. Bei Mistral ist er riesig: Der beste Prompt erreicht etwa das Dreifache des schlechtesten. Je kleiner das Modell, desto stärker schlägt die exakte Wortwahl auf das Ergebnis durch.

Ein neueres Modell rät nicht besser

Sehen Sie sich die beiden Opus-Spalten an. Claude Opus 4.8 ist das neuere, allgemein stärkere Modell - es schlägt 4.7 auf den meisten gängigen Benchmarks. Bei dieser Aufgabe schneidet es schlechter ab, auf sieben von zehn Prompts (auf zwei weiteren gleichauf, nur auf einem vorn), und der 4.7-Champion „Iconic Scenes” fällt von 76 % auf 60 %.

Es ist erneut die Expert Trap, eine Ebene höher. In den Traces zeigt sich: 4.8 legt sich früher fest. Es verbeißt sich in eine selbstsichere Lesart und schreibt dafür eine flüssige Begründung, statt Kandidaten durchzugehen. Auf „A cosplayer enters the main chamber of the House of Representatives, appears to die, but runs for city council” ( Dave ) arbeitet sich 4.7 durch die Optionen und landet bei Dave; 4.8 hängt sich an „Run, Forrest, run!”, antwortet Forrest Gump und denkt nicht mehr um. Das „Considered”-Kriterium bestätigt, dass es kein Pech ist - 4.8 bringt den richtigen Film seltener ins Spiel als 4.7 (74 % → 62 % bei „Iconic Scenes”). Ein entschlosseneres Modell verengt die Suche genauso, wie es „agiere wie ein Experte” tut.

Das ist der unbequeme Teil. „Nimm das neueste Modell” ist die andere Folklore-Regel, der alle vertrauen - direkt neben „agiere wie ein Experte”. Hier machte das neuere Modell dieses Produkt schlechter - und nur die Evaluation hat es bemerkt. Ein höherer Wert auf einem öffentlichen Leaderboard ist nicht dasselbe wie das richtige Verhalten für Ihre Aufgabe, und der einzige Weg herauszufinden, in welche Richtung ein Upgrade Ihre Zahlen bewegt, ist, sie zu messen.

Das Fazit

Wie eingangs erwähnt, ist der Rat „agiere als Experte” überall zu finden. Für diese Aufgabe war er aktiv schädlich - und wir wissen das nur, weil wir eine Evaluation gefahren haben: ein festes Test-Set, definierte Pass/Fail-Kriterien, ein LLM-Judge auf jeder Antwort, mehrere Durchläufe für Stabilität. Liest man die Outputs der Experten-Persona für sich allein, wirken sie hervorragend: flüssig, selbstsicher, gut durchdacht. Sie würden sie ausliefern. Das Problem wird erst sichtbar, wenn man sie im großen Maßstab an Ground-Truth-Daten misst.

Genau darin liegt das ganze Argument für Evaluation, gepackt in ein albernes Beispiel. Prompt-Engineering-Folklore ist voller plausibel klingender Regeln, die unbemerkt Trefferquote kosten - und Intuition kann Ihnen nicht sagen, welcher Prompt gewinnt - erst recht nicht, wenn der Sieger von einem Modell zum nächsten wechselt oder ein neueres Modell plötzlich schlechter rät. Ein paar gut aussehende Antworten zu lesen, sagt es Ihnen auch nicht. Eine Evaluation schon - in diesem Fall in etwa der Zeit, die das Lesen dieses Artikels kostet.

Wenn „wir glauben, dieser Prompt ist besser” derzeit der Modus ist, in dem Prompt-Entscheidungen in Ihrem Team fallen, dann ist genau das die Lücke, die evidenzbasierte Evaluation schließen soll.


Bei ellamind bauen wir elluminate, die Evaluierungsplattform, die aus „wir glauben, es funktioniert” ein „wir wissen, es funktioniert” macht. Dieses gesamte Experiment - Collection, Kriterien, zehn Prompts, fünf Modelle - wurde darin gebaut und ausgeführt, und die Dokumentation zeigt Schritt für Schritt, wie Sie einen solchen Sweep selbst durchführen. Wenn Sie Prompt- und Modell-Entscheidungen auf Bauchgefühl treffen, sprechen wir gern mit Ihnen.

Weitere Artikel

Nutzen Sie das volle Potenzial von KI

Erfahren Sie, wie unsere Produkte Ihnen helfen können, KI-Agenten sicher zu evaluieren, deployen und zu überwachen.