Fortschritt durch
offene Zusammenarbeit

Open-Source-Forschung ist Teil unserer DNA. Hier teilen wir, woran wir im Bereich Sprachmodelle, Evaluation und KI-Agenten arbeiten.

Aktuelle Ergebnisse

Aus unserer Forschung

Modell | Datensatz | Paper arXiv:2602.12414

propella-1

Eine Familie kleiner multilingualer LLMs zur Annotation von Textdokumenten in sechs Kategorien: Kerninhalt, Klassifikation, Qualität und Wert, Zielgruppe und Zweck, Sicherheit und Compliance sowie geografische Relevanz. Die Annotationen helfen dabei, LLM-Trainingsdaten in großem Umfang zu filtern, auszuwählen und zu kuratieren. Die Modelle übertreffen deutlich größere General-Purpose-Baselines.

DATA-FM @ ICLR 2026 (Spotlight) 57 Sprachen Jeder Text, jedes Format 10 Mrd.+ Dokumente annotiert fp8 Apache-2.0 / CC-BY 4.0

Modelle auf Hugging Face Datensatz auf Hugging Face Paper auf arXiv

propella-1: Datenkuratierung weitergedacht

Modell | Paper arXiv:2601.08472

sui-1: Summarization with Unique Identifiers

Ein 24B-Parameter-LLM für abstrakte Zusammenfassungen mit Inline-Zitaten. Jede Aussage lässt sich auf den zugrunde liegenden Quellsatz zurückführen. Das Modell unterstützt Dokumente mit mehr als 2 Mio. Tokens und übertrifft alle getesteten Open-Weight-Baselines, einschließlich Modelle mit 3x mehr Parametern.

24B Parameter 5 Sprachen Inline-Zitate Sehr lange Dokumente fp8 Apache-2.0

Auf Hugging Face ansehen Paper auf arXiv

Benchmark Apache-2.0

base-eval

Kuratierte Konfigurationen für lm-evaluation-harness zur Evaluation englischer und deutscher Basismodelle. Jede Aufgabe wird gegen Referenzmodelle validiert und bildet die Grundlage für Benchmark-Suiten im frühen Pretraining und in der In-Loop-Evaluation.

Englisch Deutsch lm-eval 47 Benchmarks 730+ Task-Konfigurationen

Auf GitHub ansehen

Tool Apache-2.0

inference-hive

Verteilte LLM-Inferenz in großem Umfang für SLURM-Cluster. Konfigurieren Sie Cluster-, Server- und Dateneinstellungen und skalieren Sie anschließend mit nahezu linearem Durchsatz über Tausende GPUs.

SLURM-nativ OpenAI API vLLM / SGLang

Auf GitHub ansehen

Öffentlich geförderte Forschungsprojekte

OpenEuroLLM

Transparente KI für Europa

ellamind ist Teil eines Konsortiums aus 20 führenden europäischen Forschungseinrichtungen, Unternehmen und EuroHPC-Zentren, das eine Familie leistungsstarker multilingualer Foundation Models für kommerzielle, industrielle und öffentliche Anwendungen entwickelt. Diese transparenten und regelkonformen Open-Source-Modelle sollen den Zugang zu hochwertiger KI demokratisieren und Europas Wettbewerbsfähigkeit stärken.

Mehr erfahren OpenEuroLLM funding acknowledgement

LLMs4EU

Europas KI-Zukunft gestalten

Als Partner in LLMs4EU wirkt ellamind an der Entwicklung modernster Sprachmodelle mit, bei denen europäische Sprachen, Werte und Innovationen im Mittelpunkt stehen. Dieses EU-geförderte Konsortium bündelt Expertise aus ganz Europa, um KI-Technologien zu entwickeln, die europäischen Anforderungen wirklich gerecht werden. Unser Open-Source-Ansatz hilft Organisationen jeder Größe, von fortschrittlicher KI zu profitieren.

Mehr erfahren LLMs4EU funding acknowledgement

LLM4KMU

Open Source KI für KMU

LLM4KMU bringt führende Forschungseinrichtungen, Unternehmen und Innovationspartner in Nordrhein-Westfalen zusammen, um kleinen und mittleren Unternehmen den Zugang zu großen Sprachmodellen zu erleichtern. Mit einer gemeinsamen Experimentierplattform, geteiltem Know-how und prototypischen Anwendungsfällen hilft das Projekt KMU dabei, Open-Source-KI in reale Produkte und Dienstleistungen zu überführen.

Mehr erfahren LLM4KMU funding acknowledgement

SOOFI

Offene & rechtskonforme KI für Europa

ellamind ist Teil von SOOFI (Sovereign Open Source Foundation Models), einem deutschen Konsortium aus Forschungseinrichtungen und Start-ups, das offene und souveräne KI-Sprachmodelle als europäische Alternative zu bestehenden Systemen entwickelt. SOOFI verfolgt das Ziel, ein leistungsstarkes Open-Source-Foundation-Model zu entwickeln, das europäischen Werten entspricht und regulatorische Anforderungen von Anfang an mitdenkt.

Wir arbeiten aktiv mit Forschungsgemeinschaften und Partnern wie LAION, Open-Sci, ontocord.ai, OpenEuroLLM, Hessian.AI, Alignment Lab AI, DFKI und weiteren zusammen, um Ressourcen zu bündeln, Wissen zu teilen und das kollektive Verständnis von LLMs voranzubringen.

Woher wir kommen

Open-Source
KI-Forschung

ellamind ist aus der Open-Source-KI-Community hervorgegangen. Unser Team hat einige der ersten und meistgenutzten offenen deutschsprachigen großen Sprachmodelle trainiert und veröffentlicht, die auf Hugging Face mehr als 1.000.000 Mal heruntergeladen wurden. Diese praktische Erfahrung im Training, in der Evaluation und im Einsatz von LLMs über Sprachen, Domänen und Anwendungsfälle hinweg ist das Fundament, auf dem alles bei ellamind aufbaut.

Deutsche LLMs

Wir haben offene deutschsprachige Sprachmodelle zu einer Zeit entwickelt, als gute, nicht-englische LLMs noch Mangelware waren, und so ein lebendiges Ökosystem für deutsche KI mitbegründet.

Von der Forschung zum Produkt

Unsere tiefgehende Expertise in Modelltraining und Evaluation fließt direkt in die Entwicklung unserer Produkte ein. Wir verstehen LLMs von innen heraus und sind nicht nur API-Nutzer.

Pre-Training- & Fine-Tuning-Expertise

Wir verfügen über tiefgehende praktische Erfahrung im kontinuierlichen Pre-Training und Fine-Tuning von Sprachmodellen und können Modelle dadurch gezielt an Aufgaben und Sprachen anpassen.

Evaluation & offene Datensätze

Wir entwickeln fortgeschrittene Evaluierungstechniken und veröffentlichen Open-Source-Datensätze und Benchmarks, die die Community nutzt, um bestehende und neue Modelle zu verbessern.

Community-getrieben

Durch DiscoResearch und Kooperationen mit Hessian.AI, LAION und DFKI setzen wir seit jeher auf Offenheit und Zusammenarbeit als Treiber für die besten KI-Ergebnisse.

FAQs

Häufig gestellte Fragen

Hier finden Sie Antworten auf häufig gestellte Fragen zu unserer Forschung. Wenn Ihre Frage nicht beantwortet wird, kontaktieren Sie uns gerne.

Wie kann ich mit ellamind in der Forschung zusammenarbeiten? +

Wir sind jederzeit offen für neue Kooperationen mit Universitäten, Forschungseinrichtungen und Industriepartnern. Sie können uns über unser Kontaktformular erreichen oder sich direkt an unser Forschungsteam wenden. Besonders interessiert sind wir an gemeinsamer Arbeit zu multilingualen Modellen, Evaluierungsmethoden und agentischer KI.

Sind ellaminds Forschungsergebnisse öffentlich zugänglich? +

Ja. Wir veröffentlichen Modelle, Datensätze, Benchmarks und Paper als offene Ressourcen. Den Großteil davon finden Sie auf Hugging Face, GitHub und arXiv.

Welche Rolle spielt ellamind in den EU-geförderten Konsortien? +

Wir bringen praktische Expertise über den gesamten LLM-Lebenszyklus ein: Datenkuratierung, Modelltraining, Evaluation und agentische Anwendungen. In Projekten wie OpenEuroLLM, LLMs4EU, SOOFI und LLM4KMU tragen wir dazu bei, dass Europas nächste Generation von Foundation Models offen, hochqualitativ und konform mit europäischen Regulierungsstandards entsteht.

Kann ich ellaminds Open-Source-Modelle in eigenen Projekten nutzen? +

Ja. Viele unserer Forschungsergebnisse stehen unter permissiven Open-Source-Lizenzen und können in kommerziellen wie nicht-kommerziellen Projekten genutzt werden. Bitte prüfen Sie für jedes Modell, jeden Datensatz oder jedes Repository die jeweils konkrete Lizenz.

Kontakt aufnehmen