Bring Your Own Dataset: Langfuse in elluminate einbinden

Raphael Huppertz

Raphael Huppertz

7 Min. Lesezeit

Wer Langfuse oder andere Observability-Plattformen nutzt, um LLM-Anwendungen zu überwachen, hat in der Regel hunderte echter Interaktionen gesammelt: Konversationen, Edge Cases und Fehlerfälle, die sich perfekt als Testfälle eignen würden. Nur: Diese Daten in den Evaluations-Workflow zu bekommen, bedeutet meist Exportskripte, CSV-Gefummel und manuelle Aufbereitung.

elluminate importiert Langfuse-Datensätze jetzt direkt.

Übersicht der elluminate-Langfuse-Integration

Observability trifft Evaluation

Die Stärken von Langfuse liegen in Observability, Tracing und Monitoring produktiver Systeme. elluminate will das nicht ersetzen, sondern ergänzt eine strukturierte Evaluationsebene.

Die Stärke von elluminate ist die systematische Evaluation: Experimente nachverfolgen, Batch-Tests fahren, Prompts wiederholbar vergleichen - und das alles einfach in der Handhabung.

Zusammen entsteht ein geschlossener Kreislauf von Produktionsproblemen zu messbaren Verbesserungen:

  1. Schwache Ausgaben in der Produktion erfassen
  2. In einen Langfuse-Datensatz übernehmen
  3. In elluminate importieren
  4. An Prompts, Kriterien und Modellen iterieren
  5. Klare Kennzahlen gewinnen, Verbesserungen messen und Änderungen zuverlässig ausrollen

Ihre Produktionsdaten treiben Ihre Evaluation, Ihre Evaluation verbessert die Produktion.

Feedback-Schleife zwischen Langfuse-Observability und elluminate-Evaluation

Beispiel: Von Produktionsproblemen zur systematischen Verbesserung

Autor: Dominik Römer, AI Engineer bei ellamind

Anwendungsfall: Ein Q&A-Bot einer Krankenversicherung, der Nutzerfragen anhand einer internen Wissensdatenbank beantwortet.

Ziel: Langfuse + elluminate kombinieren, um (a) das für die Aufgabe am besten geeignete Modell auszuwählen und (b) den realen Produktionsverkehr kontinuierlich zu überwachen und Probleme früh zu erkennen.

Den Anfang machen wir mit Langfuse: Alle LLM-Aufrufe werden dort protokolliert - samt Eingaben und Ausgaben der Anwendung. Mit der Zeit entsteht so ein umfangreicher Fundus echter Beispiele, einschließlich Edge Cases, Fehlerfällen und seltenem Nutzerverhalten.

Um die Daten für die Evaluation nutzbar zu machen, ordnen wir sie in zwei Datensätzen:

  • training_set - ein kuratierter Datensatz, mit dem wir Modelle vor dem Deployment vergleichen und bewerten.
  • daily_production_batch - ein täglich aktualisierter Datensatz, der den realen Durchsatz des Bots in der Produktion abbildet.

Ansicht des training_set-Datensatzes in Langfuse


Ansicht des daily_production_batch-Datensatzes in Langfuse

Über Collections → Import verbinden wir elluminate mit Langfuse und importieren beide Datensätze als Collections.

elluminate-Import-Dialog mit Langfuse-Integration

Wir starten mit dem training_set und vergleichen in Experimenten mehrere Kandidatenmodelle.

elluminate-Modellübersicht mit Experimentergebnissen

Die Ergebnisse liefern eine detaillierte Aufschlüsselung der Leistung und zeigen, wo sich die Modelle zwischen einzelnen Beispielen unterscheiden. Hier:

  • Beide Modelle schneiden insgesamt gut ab.
  • Gemini 3 Pro fällt aber bei einigen Kriterien durch.

Modellvergleich mit Unterschieden zwischen den Kandidaten


Detailansicht mit Fehlern von Gemini 3 Pro

Entscheidung: Die Anwendung wird mit GPT 5.2 ausgerollt, weil das Modell auf dem Trainings-Set konsistenter abschneidet.

Tipp: Mit elluminate lassen sich Modelle und Prompt-Versionen vergleichen, ohne am Produktionscode etwas zu ändern. Die Ergebnisse sind für das gesamte Team nachvollziehbar - nicht nur für Entwickler.

Laufendes Monitoring

Nach dem Rollout verlagert sich der Fokus von der Modellauswahl hin zum laufenden Monitoring.

Wir fahren tägliche Experimente auf dem daily_production_batch mit zwei Evaluationskriterien:

  • Produktion - Kriterien zur Antwortqualität - stellen sicher, dass der Bot weiterhin die Qualitätserwartungen an die Antworten erfüllt.
  • Produktion - Datenschutzkriterien - stellen sicher, dass der Bot keine personenbezogenen oder sensiblen Informationen preisgibt.

Evaluationskriterien zur Antwortqualität in der Produktion


Evaluationskriterien zum Datenschutz in der Produktion

elluminate verfolgt die Leistung über die Zeit. Zum Beispiel:

  • Die Antwortqualität bleibt stabil, das System arbeitet also konsistent.

Diagramm der Antwortqualität mit stabilem Verlauf

  • Der Datenschutz-Score fällt deutlich ab - ein Hinweis auf eine mögliche Regression in der Produktion.

Diagramm des Datenschutz-Scores mit deutlichem Einbruch

Wir schauen uns die fehlgeschlagenen Datenschutz-Beispiele an und finden die Ursache schnell: Ein Nutzer fragt nach der Telefonnummer einer bestimmten Person, und das System - gestützt auf die Wissensdatenbank - gibt diese personenbezogene Information tatsächlich heraus. Das Judge-Modell markiert den Vorfall korrekt als Datenschutzverletzung.

Detailansicht einer vom Evaluator markierten Datenschutzverletzung

Maßnahme: Wir schärfen den System-Prompt nach und untersagen die Weitergabe kundenbezogener personenbezogener Daten ausdrücklich.

Aktualisierter System-Prompt, der die Weitergabe personenbezogener Daten unterbindet

Anschließend führen wir das Experiment auf demselben Produktions-Datensatz mit dem aktualisierten Prompt erneut durch - und bestätigen, dass das Datenschutzproblem behoben ist.

Experimentergebnisse nach dem Prompt-Update: Datenschutzproblem behoben

Tipp: Tritt ein Problem in der Produktion auf, gehört es zur bewährten Vorgehensweise, die problematischen Beispiele in eine Trainings-Collection zu übernehmen. Künftige Prompt- oder Modell-Änderungen werden dann automatisch gegen bekannte Hochrisikofälle getestet. So werden aus einzelnen Incidents dauerhafte Regressionstests.

Das Durchsickern von Kundendaten gehört zu den kritischsten Fehlern im Produktivbetrieb. Genau deshalb sollte Datenschutz kontinuierlich überwacht werden. Mit elluminate planen Sie tägliche Experimente und benachrichtigen das Team automatisch, sobald ein Datenschutz-Score unter einen definierten Schwellenwert fällt.

Konfiguration zur Planung von Experimenten in elluminate

Fazit

Die Kombination aus Langfuse (Observability und Produktions-Tracing) und elluminate (strukturierte Evaluation und Experimente) schafft einen verlässlichen Verbesserungskreislauf:

  • Reales Produktionsverhalten erfassen
  • Systematisch evaluieren
  • Regressionen früh erkennen
  • Probleme schnell beheben
  • Wiederholungen durch Regressionstests verhindern

So werden aus Produktionsfehlern messbare Verbesserungen - und LLM-Anwendungen lassen sich mit mehr Qualität, Sicherheit und Verlässlichkeit ausrollen.

Was Sie jetzt tun können

elluminate nutzt Collections - wiederverwendbare Test-Datensätze - um Prompts gegen konfigurierbare LLMs laufen zu lassen. Ihre Langfuse-Datensätze importieren Sie mit wenigen Klicks direkt in Collections.

Der Import erledigt die Datentransformation automatisch: Konversationen werden in das OpenAI-kompatible Format überführt, Dictionary-Eingaben auf einzelne Tabellenspalten verteilt, Metadaten für Kontextinformationen erhalten. Mehr zum Mapping lesen Sie in Schritt für Schritt: Ihr erster Datensatz-Import.

Ihre API-Credentials bleiben sicher - verschlüsselt gespeichert und nach dem Speichern nie wieder sichtbar.

Importe sind derzeit auf 5.000 Einträge pro Datensatz begrenzt. An einer Erhöhung für größere Datensätze arbeiten wir bereits.

Schritt für Schritt: Ihr erster Datensatz-Import

1. Zu Collections → Import → New Integration wechseln

Nach dem Login finden Sie die Seite Collections in der Seitenleiste. Klicken Sie dort oben rechts auf Import und anschließend auf Configure Integration.

elluminate-Collections-Seite mit hervorgehobenem Import-Button

2. Neue Langfuse-Integration anlegen

Klicken Sie auf Add Integration. Für ein on-premise Langfuse passen Sie die URL an. Tragen Sie Public Key und Secret Key ein (zu finden unter Langfuse → Settings → API Keys). Zum Abschluss testen Sie die Verbindung und legen die Integration an.

Dialog zum Hinzufügen einer Langfuse-Integration mit API-Key-Feldern

3. Verfügbare Datensätze durchsuchen

Zurück auf der Collections-Seite → Import. Wählen Sie Ihre neue Integration aus.

Auswahl einer Langfuse-Integration für den Import


Stöbern Sie durch Ihre Datensätze. Ein Klick auf einen Datensatz öffnet die Vorschau und den Import-Dialog.

Durchsuchen verfügbarer Langfuse-Datensätze für den Import

4. Daten vorschauen und Import konfigurieren

elluminate zeigt Ihnen einen Ausschnitt mit 5 Einträgen aus dem Datensatz, damit Sie den richtigen ausgewählt haben. Vergeben Sie einen Namen für die Collection (standardmäßig der Name des Datensatzes), und entscheiden Sie, ob die Metadaten mit importiert werden sollen. Zum Abschluss klicken Sie auf Import.

Dialog mit Datensatz-Vorschau und Import-Konfiguration

5. Importieren und mit der Evaluation starten

Beim Import ordnet elluminate die Daten folgendermaßen zu:

Langfuse-Feldelluminate-Spalte
input (string)Textspalte
input (dict)Mehrere Spalten (eine pro Schlüssel)
input (messages)Konversationsspalte (UCE-Format)
expected_outputTextspalte
metadataJSON- oder Textspalten

Nach dem Import öffnen Sie Ihre neue Collection und starten die Evaluation. Legen Sie ein Prompt-Template mit Variablen an, die auf Textspalten verweisen - oder nutzen Sie Konversationsspalten direkt in Experimenten.

Bereit für einen Test?

Wer bereits mit elluminate arbeitet: Die Langfuse-Integration ist ab sofort verfügbar unter Collections → Import.

Neu bei elluminate? Wir zeigen Ihnen die Plattform gern. Buchen Sie eine Demo und sprechen Sie direkt mit unseren Gründern darüber, wie elluminate in Ihren Evaluations-Workflow passt.

Demo buchen

Dokumentation lesen

Weitere Artikel

Nutzen Sie das volle Potenzial von KI

Erfahren Sie, wie unsere Produkte Ihnen helfen können, KI-Agenten sicher zu evaluieren, deployen und zu überwachen.