

Unterschiedliche Teams nutzten IBM watsonx mit vielfältigen technischen Ansätzen, um das volle Potenzial der Plattform auszuschöpfen – jedes auf seine eigene Weise. So entstanden innovative Lösungen, die eindrucksvoll zeigen, wie flexibel und leistungsfähig watsonx im RAG-Kontext eingesetzt werden kann.
Das IBM watsonx Leaderboard
Das ist das Leaderboard aller Beiträge, die RAG-Systeme mithilfe der IBM watsonx AI API entwickelt haben.
Jedes Team hatte die Möglichkeit, eine ihrer Lösungen für den Wettbewerb um die Spitzenplätze auf diesem Leaderboard zu nominieren. Die hier aufgeführten Einreichungen sind jeweils die nominierten Lösungen.
Ein Klick auf eine Tabellenzeile führt zu weiteren Details zur jeweiligen Lösung sowie zum vollständigen Experiment-Log des Teams.
- "R&D" – kennzeichnet Teams, die an Forschungs- und Entwicklungsaktivitäten in unseren Communities teilnehmen. Treten Sie unserem Discord-Kanal bei, um über neue Initiativen auf dem Laufenden zu bleiben!
- "Time" – wie viel Zeit seit dem Zeitpunkt vergangen ist, als wir die Fragen für die Challenge generiert haben.
- "R Score" – die Qualität des Retrieval-Teils von RAG. Er wurde ermittelt, indem die angegebenen Referenzen mit den Ground-Truth-Seitennummern verglichen wurden.
- "G Score" – die Qualität des Generation-Teils von RAG. Er wird berechnet, indem die generierten Antworten mit dem Ground-Truth-Datensatz verglichen werden.
- "Score" – die endgültige Punktzahl: R/3 + G. Das theoretische Maximum lag bei 133,3.
- "Local" – zeigt an, ob sich die Lösung vollständig offline ausführen lässt.
# | Team | Experiment | Time | R&D | Local | R | G | Score |
---|---|---|---|---|---|---|---|---|
1 | Ilia Ris | ▶ Dense Retrieval; Router; LLM reranking; Self-Consistency; llama-3.3 70b | 33 hours | 🤝 | 81.3 | 79.7 | 120.3 | |
Ilia Ris
Models used:
ArchitectureIlia Ris solved the problem by making it easy to run numerous experiments before the competition has even started. He created an evaluation pipeline that let him quickly evaluate different architectural solutions. The best solution was also among the fastest ones. This solution used IBM WatsonX AI API. It had the following configuration:
R&D ExperimentsTotal experiments submitted: 11 Other approaches:
What didn't work?
Future experiments:
Experiment journal:
|
||||||||
2 | A.Rasskazov/V.Kalesnikau | ▶ pjatk_team_002 | 7 days | 82.5 | 64.0 | 105.2 | ||
A.Rasskazov/V.Kalesnikau
Models used:
ArchitectureThe system preprocesses questions to extract key metrics and synonyms, retrieves relevant PDF pages via a multi-embedding vector database, and then uses an LLM to verify and extract the answer with its corresponding page reference. R&D ExperimentsTotal experiments submitted: 2 Other approaches:
What didn't work?
Experiment journal:
|
||||||||
3 | nightwalkers | ▶ nightwalkers-baseline | 6 hours | 🔒 | 72.9 | 60.2 | 96.7 | |
nightwalkers
Models used:
ArchitectureThe team implemented vector database search using embeddings from all-MiniLM-L6-v2 and ibm/granite-embedding-107m-multilingual models. This facilitated the retrieval of the most relevant page and document based on the query. The retrieved information was then processed by the deepseek-r1-distill-llama-70b LLM to generate relevant answers. |
||||||||
4 | Felix-TAT | ▶ IBM-4o-based Multiagent RAG | 7 days | 🤝 | 81.7 | 47.3 | 88.2 | |
Felix-TAT
Models used:
ArchitectureMultiagent approach using qdrant vector database. A delegation manager (openAI) splits the question into the touched companies and delegates company specific queries to expert agents (IBM), trying to retrieve parts of the answer from the chunks in the vector qdrant database. These responses are then combined and put together by an execution agent (openAI), coming up with the final answer. PDFs were parsed using docling, chunked in a custom way to keep tables as a whole including context. R&D ExperimentsTotal experiments submitted: 4 Other approaches:
What didn't work?
Experiment journal:
|
||||||||
5 | AValiev | ▶ IBM-mixtral-agentic-rag | 3 hours | 🔒 | 43.5 | 33.0 | 54.8 | |
AValiev
Models used:
ArchitectureThis RAG solution was based on an Agentic Retrieval-Augmented Generation (RAG) architecture. It utilized type validation and Pydantic typing for robust data handling, and Qdrant vector store querying for efficient information retrieval. PDF documents were processed using PyPDF and Docling for accurate text extraction. R&D ExperimentsTotal experiments submitted: 5 Other approaches:
What didn't work?
Experiment journal:
|
||||||||
6 | ragtastic | ▶ ragtastic | 7 days | 4.8 | 3.0 | 5.4 | ||
ragtastic
Models used:
ArchitectureThe solution used Mistral-large model to achieve its objectives. The architecture is designed to optimize performance and accuracy, ensuring robust results. |
Video: Die Gewinnerverkündung mit Rinat Abdullin
Erleben Sie die spannendsten Minuten der Challenge noch einmal! Im diesem Video verkündet Rinat Abdullin (Head of AI und Innovation) die Siegerteams und gibt einen Einblick in die überzeugendsten Lösungen.
Bitte passen Sie ihre Cookie Einstellungen an, um das Video abspielen zu können.
Fragen oder Interesse an einer Zusammenarbeit?
Die TIMETOACT GROUP Österreich zählt zu den führenden Experten im Bereich der angewandten Forschung zu generativer KI für Unternehmen. Unsere Forschungsergebnisse fließen unmittelbar in die Produktentwicklung ein – so setzen wir höchste Standards bei der Umsetzung KI-gestützter Anwendungen für Unternehmen.
Möchten auch Sie das volle Potenzial von KI für Ihre Geschäftsprozesse nutzen? Kontaktieren Sie uns gerne!
Niklas Thannäuser freut sich, von Ihnen zu hören!
Erfahren Sie mehr

Team-Leaderboard der Enterprise RAG Challenge

Das sind die Gewinner der Enterprise RAG Challenge

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Die Zukunft der KI: Enterprise RAG Challenge

ChatGPT & Co: November-Benchmarks für Sprachmodelle

ChatGPT & Co: September-Benchmarks für Sprachmodelle

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

LLM-Benchmarks April 2024

RAG-Systeme erklärt: Wettbewerbsvorteile mit IBM WatsonX

LLM-Benchmarks Juli 2024

LLM-Benchmarks August 2024

GPT & Co: Die besten Sprachmodelle für digitale Produkte

LLM-Benchmarks Mai 2024

LLM-Benchmarks Juni 2024

Ethische und transparente KI mit IBM WatsonX

IBM watsonx: 5 überzeugende Argumente

KI Workshops für Unternehmen

IBM Think 2021
Wir verwenden Cookies, um Inhalte und Anzeigen zu personalisieren, Funktionen für soziale Medien anbieten zu können und die Zugriffe auf unsere Website zu analysieren. Außerdem geben wir Informationen zu Ihrer Verwendung unserer Website an unsere Partner für soziale Medien, Werbung und Analyse weiter. Unsere Partner führen diese Informationen möglicherweise mit weiteren Daten zusammen, die Sie ihnen bereitgestellt haben oder die sie im Rahmen Ihrer Nutzung der Dienste gesammelt haben. Dies schließt gegebenenfalls die Verarbeitung Ihrer Daten in den USA ein.
Weitere Informationen zu Cookies erhalten Sie in unserem Datenschutzhinweis