Crowd-Sourced AI research
 
 
Der IBM watsonx Track der Enterprise RAG Challenge ist eingebettet in ein weltweites Innovationsprojekt, das neue Maßstäbe für Retrieval-Augmented Generation setzt: ein praxisnahes, crowdgesourctes KI-Forschungsformat auf Basis der IBM watsonx Plattform – mit maximaler Relevanz und Wirkung.
 

Unterschiedliche Teams nutzten IBM watsonx mit vielfältigen technischen Ansätzen, um das volle Potenzial der Plattform auszuschöpfen – jedes auf seine eigene Weise. So entstanden innovative Lösungen, die eindrucksvoll zeigen, wie flexibel und leistungsfähig watsonx im RAG-Kontext eingesetzt werden kann.

Das IBM watsonx Leaderboard

Das ist das Leaderboard aller Beiträge, die RAG-Systeme mithilfe der IBM watsonx AI API entwickelt haben.

Jedes Team hatte die Möglichkeit, eine ihrer Lösungen für den Wettbewerb um die Spitzenplätze auf diesem Leaderboard zu nominieren. Die hier aufgeführten Einreichungen sind jeweils die nominierten Lösungen.

Ein Klick auf eine Tabellenzeile führt zu weiteren Details zur jeweiligen Lösung sowie zum vollständigen Experiment-Log des Teams.

Was bedeuten die Spalten? Alle Werte im Überblick
  • "R&D" – kennzeichnet Teams, die an Forschungs- und Entwicklungsaktivitäten in unseren Communities teilnehmen. Treten Sie unserem Discord-Kanal bei, um über neue Initiativen auf dem Laufenden zu bleiben!
  • "Time" – wie viel Zeit seit dem Zeitpunkt vergangen ist, als wir die Fragen für die Challenge generiert haben.
  • "R Score" – die Qualität des Retrieval-Teils von RAG. Er wurde ermittelt, indem die angegebenen Referenzen mit den Ground-Truth-Seitennummern verglichen wurden.
  • "G Score" – die Qualität des Generation-Teils von RAG. Er wird berechnet, indem die generierten Antworten mit dem Ground-Truth-Datensatz verglichen werden.
  • "Score" – die endgültige Punktzahl: R/3 + G. Das theoretische Maximum lag bei 133,3.
  • "Local" – zeigt an, ob sich die Lösung vollständig offline ausführen lässt.

#TeamExperimentTimeR&DLocalRGScore
1Ilia Ris
Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b
33 hours🤝81.379.7120.3

Ilia Ris

  • Best experiment: Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b
  • Signature: 25fabf
  • Summary: Dense retrieval combined with LLM reranking, Self-Consistency and Schema Repair.
  • Article: How I Won the Enterprise RAG Challenge
  • Source code: Github

Models used:

  • llama-3.3 70b

Architecture

Ilia Ris solved the problem by making it easy to run numerous experiments before the competition has even started. He created an evaluation pipeline that let him quickly evaluate different architectural solutions. The best solution was also among the fastest ones.

This solution used IBM WatsonX AI API. It had the following configuration:

  • PDF Analysis: Documents are processed using a highly modified Docling Library from IBM. Modifications were needed to preserve page references.
  • Router Pattern: First step in question answering flow picks the most suitable agent.
  • Dense Retrieval: The system searches for relevant information based on semantic similarity (FAISS library and OpenAI vector embeddings).
  • Parent Document Retrieval: Instead of retrieving only the chunk, full page is loaded to preserve relevant context.
  • LLM Reranking: Retrieved information is re-evaluated and reordered by the LLM.
  • Reasoning Patterns: Improve LLM accuracy within a single prompt by controlling its thinking process with Custom Chain-of-Thought and Structured Outputs.
  • Final Answer generation: The optimized result was generated using llama-3.3 70b via WatsonX AI API. Since Structured Outputs were not supported by this API, an additional Schema Repair step was needed.
  • Self-Consistency with Majority Vote: Multiple answer variations are generated, compared, and the most consistent one is selected.

R&D Experiments

Total experiments submitted: 11

Other approaches:

  • Dense Retrieval; LLM Reranking; Router; SO CoT; o3-mini
  • Dense Retrieval; Router; SO CoT; llama3.3-70b
  • Dense Retrieval; Tables serialization; Router; LLM reranking; o3-mini
  • Dense Retrieval; llama-3.3 70b
  • Dense Retrieval; llama-3.1 8b
  • Full Context; gemini-2.0 thinking
  • Dense Retrieval; Router; LLM reranking; Self-Consistency; o3-mini
  • Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b

What didn't work?

  • Using llama-3.1 8b for reranking
  • Incorporating Full Context with gemini-2.0 thinking

Future experiments:

  • Evaluating various local embedding models for fully offline solutions

Experiment journal:

  • 16 min → R: 83.9, G: 72.8, Score: 114.8 ▲ - Dense Retrieval; LLM Reranking; Router; SO CoT; o3-mini
  • 23 min → R: 81.4, G: 74.7, Score: 115.4 ▲ - Dense Retrieval; llama-3.3 70b
  • 49 min → R: 83.8, G: 81.8, Score: 123.7 ▲ - Dense Retrieval; Router; LLM reranking; o3-mini
  • 50 min → R: 81.1, G: 68.7, Score: 109.3 - Dense Retrieval; llama-3.1 8b
  • 51 min → R: 75.5, G: 75.0, Score: 112.8 - Full Context; gemini-2.0 thinking
  • 66 min → R: 83.0, G: 78.8, Score: 120.3 - Dense Retrieval; Tables serialization; Router; LLM reranking; o3-mini
  • 22 hours → R: 83.5, G: 81.8, Score: 123.6 - Dense Retrieval; Router; LLM reranking; o3-mini
  • 22 hours → R: 80.8, G: 75.7, Score: 116.1 - Dense Retrieval; llama-3.3 70b
  • 33 hours → R: 83.4, G: 79.8, Score: 121.6 - Dense Retrieval; Router; LLM reranking; Self-Consistency; o3-mini
  • 33 hours → R: 81.3, G: 79.7, Score: 120.3 - Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b 👈
2A.Rasskazov/V.Kalesnikau
pjatk_team_002
7 days82.564.0105.2

A.Rasskazov/V.Kalesnikau

  • Experiment: ibm/granite-embedding-107m-multilingual + deepseek/deepseek-r1-distill-llama-70b
  • Signature: 28a3dc
  • Summary: A multi-agent system leveraging LLMs for question answering using similarity-based retrieval.

Models used:

  • ibm/granite-embedding-107m-multilingual
  • deepseek/deepseek-r1-distill-llama-70b

Architecture

The system preprocesses questions to extract key metrics and synonyms, retrieves relevant PDF pages via a multi-embedding vector database, and then uses an LLM to verify and extract the answer with its corresponding page reference.

R&D Experiments

Total experiments submitted: 2

Other approaches:

  • pjatk_team_002: A system that preprocesses questions, retrieves relevant PDF pages using a vector database, and extracts answers with page references using LLMs.

What didn't work?

  • Alternative embedding models for retrieval.
  • Different strategies for key metric extraction.

Experiment journal:

  • 30 hours → R: 84.0, G: 67.2, Score: 109.3 ▲ - multi_agent_ibm_openai
  • 7 days → R: 82.5, G: 64.0, Score: 105.2 - pjatk_team_002 👈
3nightwalkers
nightwalkers-baseline
6 hours🔒72.960.296.7

nightwalkers

  • Best experiment: nightwalkers-baseline
  • Signature: 356ef4
  • Summary: Utilized a vector database for efficient document retrieval and LLM for response generation.

Models used:

  • deepseek-r1-distill-llama-70b

Architecture

The team implemented vector database search using embeddings from all-MiniLM-L6-v2 and ibm/granite-embedding-107m-multilingual models. This facilitated the retrieval of the most relevant page and document based on the query. The retrieved information was then processed by the deepseek-r1-distill-llama-70b LLM to generate relevant answers.

4Felix-TAT
IBM-4o-based Multiagent RAG
7 days🤝81.747.388.2

Felix-TAT

  • Best experiment: IBM-4o-based Multiagent RAG
  • Signature: 2ff9d6
  • Summary: Multiagent, mixed-model approach with delegation and execution agents.

Models used:

  • ibm/granite-20b-code-instruct
  • gpt-4o-2024-08-06

Architecture

Multiagent approach using qdrant vector database. A delegation manager (openAI) splits the question into the touched companies and delegates company specific queries to expert agents (IBM), trying to retrieve parts of the answer from the chunks in the vector qdrant database. These responses are then combined and put together by an execution agent (openAI), coming up with the final answer. PDFs were parsed using docling, chunked in a custom way to keep tables as a whole including context.

R&D Experiments

Total experiments submitted: 4

Other approaches:

  • Gemini Naive
  • IBM-4o-based Multiagent RAG
  • OpenAI Multiagent RAG

What didn't work?

  • Using a single model without multiagent delegation
  • Relying solely on vector database retrieval without full PDF context

Experiment journal:

  • 6 days → R: 79.0, G: 60.3, Score: 99.8 ▲ - Gemini Naive
  • 7 days → R: 81.7, G: 47.3, Score: 88.2 - IBM-4o-based Multiagent RAG 👈
  • 7 days → R: 82.2, G: 66.0, Score: 107.1 ▲ - OpenAI Multiagent RAG
  • 7 days → R: 80.2, G: 69.3, Score: 109.4 ▲ - Gemini-4o Multiagent RAG
5AValiev
IBM-mixtral-agentic-rag
3 hours🔒43.533.054.8

AValiev

  • Best experiment: IBM-mixtral-agentic-rag
  • Signature: 9881dd
  • Summary: Agentic RAG with type validation, Pydantic typing, Qdrant vector store querying. PDFs were extracted with PyPDF + Docling

Models used:

  • mistralai/mixtral-8x7b-instruct-v01

Architecture

This RAG solution was based on an Agentic Retrieval-Augmented Generation (RAG) architecture.

It utilized type validation and Pydantic typing for robust data handling, and Qdrant vector store querying for efficient information retrieval. PDF documents were processed using PyPDF and Docling for accurate text extraction.

R&D Experiments

Total experiments submitted: 5

Other approaches:

  • openai-agentic-rag
  • IBM-mixtral-agentic-rag
  • granite-3-8b-instruct_rag_agentic
  • deepseek/deepseek-r1-distill-llama-70b_sophisticated_chunking_rag_agentic

What didn't work?

  • Alternative LLM models such as OpenAI-gpt-4o-mini and mistralai/mixtral-8x7b-instruct-v01 were explored but did not achieve the same performance as the winning model.

Experiment journal:

  • 54 min → R: 43.5, G: 60.0, Score: 81.8 ▲ - openai-agentic-rag
  • 3 hours → R: 43.5, G: 33.0, Score: 54.8 - IBM-mixtral-agentic-rag 👈
  • 4 hours → R: 43.5, G: 60.0, Score: 81.8 - IBM-deepseek-agentic-rag
  • 4 hours → R: 43.5, G: 48.5, Score: 70.2 - granite-3-8b-instruct_rag_agentic
  • 34 hours → R: 35.8, G: 53.0, Score: 70.9 - deepseek/deepseek-r1-distill-llama-70b_sophisticated_chunking_rag_agentic
6ragtastic
ragtastic
7 days4.83.05.4

ragtastic

  • Best experiment: ragtastic
  • Signature: 43d4fd
  • Summary: The architecture leverages the Mistral-large model for its implementation.

Models used:

  • mistral-large

Architecture

The solution used Mistral-large model to achieve its objectives. The architecture is designed to optimize performance and accuracy, ensuring robust results.

Video: Die Gewinnerverkündung mit Rinat Abdullin

Erleben Sie die spannendsten Minuten der Challenge noch einmal! Im diesem Video verkündet Rinat Abdullin (Head of AI und Innovation) die Siegerteams und gibt einen Einblick in die überzeugendsten Lösungen.

Fragen oder Interesse an einer Zusammenarbeit?

Die TIMETOACT GROUP Österreich zählt zu den führenden Experten im Bereich der angewandten Forschung zu generativer KI für Unternehmen. Unsere Forschungsergebnisse fließen unmittelbar in die Produktentwicklung ein – so setzen wir höchste Standards bei der Umsetzung KI-gestützter Anwendungen für Unternehmen.

Möchten auch Sie das volle Potenzial von KI für Ihre Geschäftsprozesse nutzen? Kontaktieren Sie uns gerne!

Niklas Thannäuser freut sich, von Ihnen zu hören!

Niklas Thannhäuser
TIMETOACT GROUP Österreich GmbH +43 664 750 187 82
* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Bitte Captcha lösen!

captcha image
Insights

Team-Leaderboard der Enterprise RAG Challenge

Das Team-Leaderboard fasst alle eingereichten Beiträge zusammen – auch jene, die nach Bekanntgabe der Ground Truth eingereicht wurden. Daher betrachten wir diese Rangliste als inoffizielle Übersicht.

Insights

Das sind die Gewinner der Enterprise RAG Challenge

Entdecken Sie die Gewinner der Enterprise RAG Challenge! Sehen Sie sich das offizielle Announcement an und erfahren Sie, wie KI-Retrieval und LLMs die besten RAG-Lösungen geformt haben.

Insights 17.03.25

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Februar 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 01.10.24

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 24.10.24

RAG-Systeme erklärt: Wettbewerbsvorteile mit IBM WatsonX

IBM WatsonX hilft mit RAG-Systemen, schnell und effizient datenbasierte Entscheidungen.

Wissen 30.07.24

LLM-Benchmarks Juli 2024

Unser LLM Leaderboard aus Juli 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.08.24

LLM-Benchmarks August 2024

Anstelle unserer allgemeinen LLM Benchmarks, präsentieren wir Ihnen im August den ersten Benchmark verschiedener KI-Architekturen.

Wissen 30.04.24

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Welche LLM-Modelle meistern Ihre Herausforderungen am besten? Werfen Sie einen Blick auf die Ergebnisse und finden Sie Ihr ideales Sprachmodell!

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 10.09.24

Ethische und transparente KI mit IBM WatsonX

IBM WatsonX bietet Tools für ethische KI: Erklärbarkeit, Datenschutz und Bias-Erkennung in einem Paket.

Wissen 18.11.24

IBM watsonx: 5 überzeugende Argumente

Erfahren Sie, wie IBM watsonx Effizienz steigert, Kosten senkt und Innovation vorantreibt.

Workshop

KI Workshops für Unternehmen

Ob Grundlagen der KI, Prompt-Engineering oder Potenzial-Scouting: Unser vielfältiges KI-Workshop Angebot bietet für jeden Wunsch die passenden Inhalte.

Event 12.04.21

IBM Think 2021

Wer auf Hybrid Cloud und KI setzt, legt damit den Grundstein für ein smartes Unternehmen. Die Think 2021 ist eine eintägige, globale Veranstaltung von IBM mit Showcases zum digitalen Austausch, Lernen und Vernetzen.