ERGEBNISSE DER ENTERPRISE RAG CHALLENGE 2025

Das IBM watsonx Leaderboard

Crowd-Sourced AI research

Der IBM watsonx Track der Enterprise RAG Challenge ist eingebettet in ein weltweites Innovationsprojekt, das neue Maßstäbe für Retrieval-Augmented Generation setzt: ein praxisnahes, crowdgesourctes KI-Forschungsformat auf Basis der IBM watsonx Plattform – mit maximaler Relevanz und Wirkung.

Unterschiedliche Teams nutzten IBM watsonx mit vielfältigen technischen Ansätzen, um das volle Potenzial der Plattform auszuschöpfen – jedes auf seine eigene Weise. So entstanden innovative Lösungen, die eindrucksvoll zeigen, wie flexibel und leistungsfähig watsonx im RAG-Kontext eingesetzt werden kann.

Das IBM watsonx Leaderboard

Das ist das Leaderboard aller Beiträge, die RAG-Systeme mithilfe der IBM watsonx AI API entwickelt haben.

Jedes Team hatte die Möglichkeit, eine ihrer Lösungen für den Wettbewerb um die Spitzenplätze auf diesem Leaderboard zu nominieren. Die hier aufgeführten Einreichungen sind jeweils die nominierten Lösungen.

Ein Klick auf eine Tabellenzeile führt zu weiteren Details zur jeweiligen Lösung sowie zum vollständigen Experiment-Log des Teams.

Was bedeuten die Spalten? Alle Werte im Überblick

"R&D" – kennzeichnet Teams, die an Forschungs- und Entwicklungsaktivitäten in unseren Communities teilnehmen. Treten Sie unserem Discord-Kanal bei, um über neue Initiativen auf dem Laufenden zu bleiben!
"Time" – wie viel Zeit seit dem Zeitpunkt vergangen ist, als wir die Fragen für die Challenge generiert haben.
"R Score" – die Qualität des Retrieval-Teils von RAG. Er wurde ermittelt, indem die angegebenen Referenzen mit den Ground-Truth-Seitennummern verglichen wurden.
"G Score" – die Qualität des Generation-Teils von RAG. Er wird berechnet, indem die generierten Antworten mit dem Ground-Truth-Datensatz verglichen werden.
"Score" – die endgültige Punktzahl: R/3 + G. Das theoretische Maximum lag bei 133,3.
"Local" – zeigt an, ob sich die Lösung vollständig offline ausführen lässt.

Zeige nur lokale Modelle 🏠
Schränke den Zeitraum der Einreichung ein auf Stunden |

#	Team	Experiment	Time	R&D	Local	R	G	Score
1	Ilia Ris	▶ Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b	33 hours	🤝		81.3	79.7	120.3
Ilia Ris Best experiment: Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b Signature: `25fabf` Summary: Dense retrieval combined with LLM reranking, Self-Consistency and Schema Repair. Article: How I Won the Enterprise RAG Challenge Source code: Github Models used: llama-3.3 70b Architecture Ilia Ris solved the problem by making it easy to run numerous experiments before the competition has even started. He created an evaluation pipeline that let him quickly evaluate different architectural solutions. The best solution was also among the fastest ones. This solution used IBM WatsonX AI API. It had the following configuration: PDF Analysis: Documents are processed using a highly modified Docling Library from IBM. Modifications were needed to preserve page references. Router Pattern: First step in question answering flow picks the most suitable agent. Dense Retrieval: The system searches for relevant information based on semantic similarity (FAISS library and OpenAI vector embeddings). Parent Document Retrieval: Instead of retrieving only the chunk, full page is loaded to preserve relevant context. LLM Reranking: Retrieved information is re-evaluated and reordered by the LLM. Reasoning Patterns: Improve LLM accuracy within a single prompt by controlling its thinking process with Custom Chain-of-Thought and Structured Outputs. Final Answer generation: The optimized result was generated using llama-3.3 70b via WatsonX AI API. Since Structured Outputs were not supported by this API, an additional Schema Repair step was needed. Self-Consistency with Majority Vote: Multiple answer variations are generated, compared, and the most consistent one is selected. R&D Experiments Total experiments submitted: 11 Other approaches: Dense Retrieval; LLM Reranking; Router; SO CoT; o3-mini Dense Retrieval; Router; SO CoT; llama3.3-70b Dense Retrieval; Tables serialization; Router; LLM reranking; o3-mini Dense Retrieval; llama-3.3 70b Dense Retrieval; llama-3.1 8b Full Context; gemini-2.0 thinking Dense Retrieval; Router; LLM reranking; Self-Consistency; o3-mini Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b What didn't work? Using llama-3.1 8b for reranking Incorporating Full Context with gemini-2.0 thinking Future experiments: Evaluating various local embedding models for fully offline solutions Experiment journal: 16 min → R: 83.9, G: 72.8, Score: 114.8 ▲ - Dense Retrieval; LLM Reranking; Router; SO CoT; o3-mini 23 min → R: 81.4, G: 74.7, Score: 115.4 ▲ - Dense Retrieval; llama-3.3 70b 49 min → R: 83.8, G: 81.8, Score: 123.7 ▲ - Dense Retrieval; Router; LLM reranking; o3-mini 50 min → R: 81.1, G: 68.7, Score: 109.3 - Dense Retrieval; llama-3.1 8b 51 min → R: 75.5, G: 75.0, Score: 112.8 - Full Context; gemini-2.0 thinking 66 min → R: 83.0, G: 78.8, Score: 120.3 - Dense Retrieval; Tables serialization; Router; LLM reranking; o3-mini 22 hours → R: 83.5, G: 81.8, Score: 123.6 - Dense Retrieval; Router; LLM reranking; o3-mini 22 hours → R: 80.8, G: 75.7, Score: 116.1 - Dense Retrieval; llama-3.3 70b 33 hours → R: 83.4, G: 79.8, Score: 121.6 - Dense Retrieval; Router; LLM reranking; Self-Consistency; o3-mini 33 hours → R: 81.3, G: 79.7, Score: 120.3 - Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b 👈
2	A.Rasskazov/V.Kalesnikau	▶ pjatk_team_002	7 days			82.5	64.0	105.2
A.Rasskazov/V.Kalesnikau Experiment: ibm/granite-embedding-107m-multilingual + deepseek/deepseek-r1-distill-llama-70b Signature: `28a3dc` Summary: A multi-agent system leveraging LLMs for question answering using similarity-based retrieval. Models used: ibm/granite-embedding-107m-multilingual deepseek/deepseek-r1-distill-llama-70b Architecture The system preprocesses questions to extract key metrics and synonyms, retrieves relevant PDF pages via a multi-embedding vector database, and then uses an LLM to verify and extract the answer with its corresponding page reference. R&D Experiments Total experiments submitted: 2 Other approaches: pjatk_team_002: A system that preprocesses questions, retrieves relevant PDF pages using a vector database, and extracts answers with page references using LLMs. What didn't work? Alternative embedding models for retrieval. Different strategies for key metric extraction. Experiment journal: 30 hours → R: 84.0, G: 67.2, Score: 109.3 ▲ - multi_agent_ibm_openai 7 days → R: 82.5, G: 64.0, Score: 105.2 - pjatk_team_002 👈
3	nightwalkers	▶ nightwalkers-baseline	6 hours		🔒	72.9	60.2	96.7
nightwalkers Best experiment: nightwalkers-baseline Signature: `356ef4` Summary: Utilized a vector database for efficient document retrieval and LLM for response generation. Models used: deepseek-r1-distill-llama-70b Architecture The team implemented vector database search using embeddings from all-MiniLM-L6-v2 and ibm/granite-embedding-107m-multilingual models. This facilitated the retrieval of the most relevant page and document based on the query. The retrieved information was then processed by the deepseek-r1-distill-llama-70b LLM to generate relevant answers.
4	Felix-TAT	▶ IBM-4o-based Multiagent RAG	7 days	🤝		81.7	47.3	88.2
Felix-TAT Best experiment: IBM-4o-based Multiagent RAG Signature: `2ff9d6` Summary: Multiagent, mixed-model approach with delegation and execution agents. Models used: ibm/granite-20b-code-instruct gpt-4o-2024-08-06 Architecture Multiagent approach using qdrant vector database. A delegation manager (openAI) splits the question into the touched companies and delegates company specific queries to expert agents (IBM), trying to retrieve parts of the answer from the chunks in the vector qdrant database. These responses are then combined and put together by an execution agent (openAI), coming up with the final answer. PDFs were parsed using docling, chunked in a custom way to keep tables as a whole including context. R&D Experiments Total experiments submitted: 4 Other approaches: Gemini Naive IBM-4o-based Multiagent RAG OpenAI Multiagent RAG What didn't work? Using a single model without multiagent delegation Relying solely on vector database retrieval without full PDF context Experiment journal: 6 days → R: 79.0, G: 60.3, Score: 99.8 ▲ - Gemini Naive 7 days → R: 81.7, G: 47.3, Score: 88.2 - IBM-4o-based Multiagent RAG 👈 7 days → R: 82.2, G: 66.0, Score: 107.1 ▲ - OpenAI Multiagent RAG 7 days → R: 80.2, G: 69.3, Score: 109.4 ▲ - Gemini-4o Multiagent RAG
5	AValiev	▶ IBM-mixtral-agentic-rag	3 hours		🔒	43.5	33.0	54.8
AValiev Best experiment: IBM-mixtral-agentic-rag Signature: `9881dd` Summary: Agentic RAG with type validation, Pydantic typing, Qdrant vector store querying. PDFs were extracted with PyPDF + Docling Models used: mistralai/mixtral-8x7b-instruct-v01 Architecture This RAG solution was based on an Agentic Retrieval-Augmented Generation (RAG) architecture. It utilized type validation and Pydantic typing for robust data handling, and Qdrant vector store querying for efficient information retrieval. PDF documents were processed using PyPDF and Docling for accurate text extraction. R&D Experiments Total experiments submitted: 5 Other approaches: openai-agentic-rag IBM-mixtral-agentic-rag granite-3-8b-instruct_rag_agentic deepseek/deepseek-r1-distill-llama-70b_sophisticated_chunking_rag_agentic What didn't work? Alternative LLM models such as OpenAI-gpt-4o-mini and mistralai/mixtral-8x7b-instruct-v01 were explored but did not achieve the same performance as the winning model. Experiment journal: 54 min → R: 43.5, G: 60.0, Score: 81.8 ▲ - openai-agentic-rag 3 hours → R: 43.5, G: 33.0, Score: 54.8 - IBM-mixtral-agentic-rag 👈 4 hours → R: 43.5, G: 60.0, Score: 81.8 - IBM-deepseek-agentic-rag 4 hours → R: 43.5, G: 48.5, Score: 70.2 - granite-3-8b-instruct_rag_agentic 34 hours → R: 35.8, G: 53.0, Score: 70.9 - deepseek/deepseek-r1-distill-llama-70b_sophisticated_chunking_rag_agentic
6	ragtastic	▶ ragtastic	7 days			4.8	3.0	5.4
ragtastic Best experiment: ragtastic Signature: `43d4fd` Summary: The architecture leverages the Mistral-large model for its implementation. Models used: mistral-large Architecture The solution used Mistral-large model to achieve its objectives. The architecture is designed to optimize performance and accuracy, ensuring robust results.

Fragen oder Interesse an einer Zusammenarbeit?

Die TIMETOACT GROUP Österreich zählt zu den führenden Experten im Bereich der angewandten Forschung zu generativer KI für Unternehmen. Unsere Forschungsergebnisse fließen unmittelbar in die Produktentwicklung ein – so setzen wir höchste Standards bei der Umsetzung KI-gestützter Anwendungen für Unternehmen.

Möchten auch Sie das volle Potenzial von KI für Ihre Geschäftsprozesse nutzen? Kontaktieren Sie uns gerne!

Niklas Thannäuser freut sich, von Ihnen zu hören!

Niklas Thannhäuser

Sales Consultant TIMETOACT GROUP Österreich GmbH +43 664 750 187 82

Kontakt

Vorname

Nachname *

Unternehmen *

E-Mail *

Telefonnummer

Ihre Nachricht *

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Insights

Team-Leaderboard der Enterprise RAG Challenge

Das Team-Leaderboard fasst alle eingereichten Beiträge zusammen – auch jene, die nach Bekanntgabe der Ground Truth eingereicht wurden. Daher betrachten wir diese Rangliste als inoffizielle Übersicht.

Insights

Das sind die Gewinner der Enterprise RAG Challenge

Entdecken Sie die Gewinner der Enterprise RAG Challenge! Sehen Sie sich das offizielle Announcement an und erfahren Sie, wie KI-Retrieval und LLMs die besten RAG-Lösungen geformt haben.

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.

Wissen 24.10.24

RAG-Systeme erklärt: Wettbewerbsvorteile mit IBM WatsonX

IBM WatsonX hilft mit RAG-Systemen, schnell und effizient datenbasierte Entscheidungen.

Insights 17.03.25

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Februar 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 18.11.24

IBM watsonx: 5 überzeugende Argumente

Erfahren Sie, wie IBM watsonx Effizienz steigert, Kosten senkt und Innovation vorantreibt.

Wissen 10.09.24

Ethische und transparente KI mit IBM WatsonX

IBM WatsonX bietet Tools für ethische KI: Erklärbarkeit, Datenschutz und Bias-Erkennung in einem Paket.

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 01.10.24

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Workshop

KI Workshops für Unternehmen

Ob Grundlagen der KI, Prompt-Engineering oder Potenzial-Scouting: Unser vielfältiges KI-Workshop Angebot bietet für jeden Wunsch die passenden Inhalte.

Insights

LLM Benchmarks März 2025

Was gibt’s Neues in der Welt der LLMs? Finden Sie es heraus – und lesen Sie, warum Google DeepMind uns im vergangenen Monat gleich mehrfach überrascht hat.

Technologie Übersicht

Beratung rund um IBM Produkte

Als IBM Platinum Business Partner sind wir für Sie da. Ob Beratung, Begleitung oder Umsetzung – mit dem gesamten Portfolio der IBM finden wir die optimale Lösung für Sie.

Referenz 28.05.24

Mit IBM FileNet zum modernen Dokumentenarchiv

Ein kompetenter Kundensupport ist einer der wichtigsten KPIs für Mobilanbieter. In dieser schnelllebigen Branche ist es eine Herausforderung, alle für einen Bestandsvertrag relevanten Dokumente schnell am Schirm zu haben, von AGBs über Zahlungsinformationen zu Vertragsanpassungen. TIMETOACT unterstützt einen frührenden Telekommunikationsanbieter bei der Archivmigration und Anbindung von modernen Applikationen an IBM FileNet P8 für das Handling von Millionen von Dokumenten.

Wissen 30.07.24

LLM-Benchmarks Juli 2024

Unser LLM Leaderboard aus Juli 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Blog 16.05.24

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz ist längst mehr als ein Schlagwort – sie schafft echten Business Value. Mit unserem achtstufigen Ansatz unterstützen wir Unternehmen auf dem Weg zur erfolgreichen AI-Nutzung.

Das IBM watsonx Leaderboard

Das IBM watsonx Leaderboard

Ilia Ris

Architecture

R&D Experiments

A.Rasskazov/V.Kalesnikau

Architecture

R&D Experiments

nightwalkers

Architecture

Felix-TAT

Architecture

R&D Experiments

AValiev

Architecture

R&D Experiments

ragtastic

Architecture

Fragen oder Interesse an einer Zusammenarbeit?

Erfahren Sie mehr

Team-Leaderboard der Enterprise RAG Challenge

Das sind die Gewinner der Enterprise RAG Challenge

Die Zukunft der KI: Enterprise RAG Challenge

RAG-Systeme erklärt: Wettbewerbsvorteile mit IBM WatsonX

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

IBM watsonx: 5 überzeugende Argumente

Ethische und transparente KI mit IBM WatsonX

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

ChatGPT & Co: November-Benchmarks für Sprachmodelle

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

ChatGPT & Co: September-Benchmarks für Sprachmodelle

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

KI Workshops für Unternehmen

LLM Benchmarks März 2025

Beratung rund um IBM Produkte

Mit IBM FileNet zum modernen Dokumentenarchiv

LLM-Benchmarks Juli 2024

LLM-Benchmarks Juni 2024

LLM-Benchmarks Mai 2024

In 8 Schritten zu AI-Innovationen im Unternehmen