KI-Architektur Benchmarks

August 2024

Diesen Monat haben wir etwas Besonderes für Sie vorbereitet. Anstatt, wie sonst, einzelne Sprachmodelle zu benchmarken, präsentieren wir Ihnen den ersten Benchmark verschiedener KI-Architekturen.

Dies wurde als erste Runde unserer Enterprise-RAG-Challenge durchgeführt. Im Rahmen dieser Challenge haben wir mit einzelnen Beratern und einigen Anbietern kommerzieller KI-Lösungen zusammengearbeitet.

Branchenübersicht

Zunächst haben wir alle uns bekannten bewährten Fälle erfolgreicher KI-Anwendungen auf einer einzigen Karte nach Branche und Wirkungsbereich abgebildet.

Anschließend haben wir das gesamte Portfolio überprüft und alle wiederkehrenden Themen identifiziert, die auch über Branchen- und Anwendungsgrenzen hinweg bestehen. Es gab einige wenige:

Viele erfolgreiche Anwendungsfälle von KI im Geschäftsbereich drehen sich darum, ChatGPT mit ein paar einfachen LLM-Mustern zu nutzen: Checklisten, Router und Wissenskarten. Es ist überraschend, wie viel Wert mit nur wenigen Prompts und Codezeilen erzielt werden kann.
Die meisten erfolgreichen Anwendungsfälle agieren nicht als eigenständige Systeme, sondern integrieren sich in bestehende Prozesse als Co-Piloten und Assistenten. Manchmal sind sie für die Endnutzer sogar unsichtbar.
Betrachtet man die Zahlen isoliert, ist der beliebteste KI-Anwendungsfall der Aufbau von "KI-Suchsystemen" oder "KI-Assistenten" für Unternehmen.

KI-Suche oder KI-Assistenten sind Beispiele für Anwendungsfälle, bei denen ein Unternehmen ein System möchte, das intelligente Antworten basierend auf Dateien und Dokumenten liefern kann. Dies ist der beliebteste Fall und manchmal ein Einstieg in die KI für Unternehmen.

Dies ist auch eine der umstrittensten Projektarten. Eine weit verbreitete Meinung ist, eine Lösung wie diese mit Vektordatenbanken und RAG-Systemen zu implementieren. Selbst wenn man dieser Meinung folgt (was wir nicht tun), gibt es so viele verschiedene Sprachmodelle, Frameworks und architektonische Feinheiten, aus denen man wählen kann.

Also, wie würde man einen KI-Assistenten, der mit eigenen Unternehmensdokumenten arbeiten kann, implementieren?

Enterprise RAG Challenge

Um diese Frage auf kollaborative Weise zu beantworten, haben wir die Enterprise RAG Challenge ins Leben gerufen. Dies ist ein freundlicher Wettbewerb, um die Genauigkeit verschiedener RAG-Systeme bei geschäftlichen Arbeitslasten zu testen. Der Ablauf sieht so aus:

Die Teilnehmer bauen ein System, das Fragen zu hochgeladenen PDF-Dokumenten (Jahresberichte) beantworten kann. Alternativ können sie ihr bereits bestehendes KI-Assistenzsystem testen.

Jeder kann teilnehmen. Auch eine anonyme Teilnahme ist möglich. Alles, worum wir bitten, ist, einige Details zu Ihrer RAG-Implementierung zu teilen, zum Nutzen der Community. Wir möchten lernen, was in der Praxis besser funktioniert, und dieses Wissen mit allen teilen.

Wenn der Wettbewerb beginnt:

Die Teilnehmer erhalten im Voraus eine Reihe von Jahresberichten als PDFs. Sie haben dann etwas Zeit, um diese zu verarbeiten.
Es wird eine Liste von Fragen zu diesen Dateien erstellt. Innerhalb weniger Minuten (um manuelle Bearbeitung zu vermeiden) müssen die Teilnehmer Antworten liefern und diese hochladen.
Anschließend werden die Antworten öffentlich überprüft und zu einem öffentlichen Datensatz zusammengestellt.

Alle Antworten und Daten werden in einen öffentlichen Datensatz aufgenommen. Sie werden die Leistung verschiedener Teams und Technologien (wenn ein Team einige Fragen beantwortet hat) in einer einzigen Tabelle vergleichen können. Am Ende des Wettbewerbs werden wir auch einen Bericht zusammenstellen und veröffentlichen.

Mehr über den Wettbewerb können Sie auf Github lesen. Die Beschreibung dort ist etwas technisch, da wir großen Wert darauf gelegt haben, sicherzustellen, dass der Wettbewerb für alle fair ist.

Die erste Runde

Am Ende des Sommers haben wir einen ersten Testlauf gestartet.

Alle Informationen zur ersten Runde sind öffentlich unter unserer Github-Seite unter der Apache-Lizenz verfügbar. Der Code des Fragegenerators, der Dateiauswahl, des Zufallszahlengenerators und der Rangliste – alles ist ebenfalls verfügbar. Auch die Einreichungen der Teams.

Die Teams erhielten 20 Jahresberichte in PDF-Form und sollten automatisch Antworten auf Fragen wie diese generieren:

Welche Firma hatte im Geschäftsjahr 2021 höhere Gesamtvermögenswerte: "MITSUI O.S.K. LINES", "ENRG ELEMENTS LIMITED" oder "First Mid Bancshares, Inc."?

oder:

Wie hoch war der Free Cash Flow der "Oesterreichischen Kontrollbank" im Geschäftsjahr 2023?

Die letzte Frage ist tatsächlich eine Fangfrage, um Halluzinationen zu testen. Der Bericht der Oesterreichischen Kontrollbank deckt nur das Jahr 2022 ab. Es wird erwartet, dass Modelle in solchen Fällen die Antwort verweigern und N/A zurückgeben.

Eine vollständige Liste der Fragen sowie die originalen Jahresberichte finden Sie im Github-Repository.

Insgesamt haben wir 17 Einreichungen erhalten, wobei einige Teams anonym teilnahmen. Die Teams teilten ihre Architekturen, LLM-Modelle und manchmal sogar noch mehr Details.

Lassen Sie uns die Tabelle etwas genauer betrachten:

Beste Lösung - Checkliste mit GPT-4o

Die höchstbewertete Lösung stammt von Daniel Weller. Sie erzielte 84 von maximal 100 Punkten. Daniel ist ein Kollege von TIMETOACT GROUP Österreich.

ℹ️ Wir haben großen Wert darauf gelegt, alle Teilnehmenden unter den gleichen Bedingungen antreten zu lassen (lesen Sie bitte die Beschreibung auf Github für weitere Details) und den Wettbewerb für alle fair zu gestalten. Zur Transparenz werden wir die Zugehörigkeit zu TIMETOACT ausdrücklich in der TTA-Spalte kennzeichnen.

Zusätzlich nehmen einige Wettbewerber auch am AI-Forschungsprogramm teil oder profitieren von dessen Erkenntnissen. Zur Transparenz sind diese Teilnehmer in der AIR-Spalte markiert.

Daniel hat zugestimmt, den Quellcode für seine Lösung zu veröffentlichen. Sobald dieser verfügbar ist, werden wir das Github-Repository mit den Links aktualisieren. Der Status der Quellcode-Freigabe ist in der Source-Spalte zu sehen.

Daniels Lösung verwendet das GPT-4o-Modell mit strukturierten Ausgaben. Während der Vorbefüllungsphase profitiert sie davon, dass die möglichen Fragetypen in Form von öffentlich freigegebenem Code des Fragegenerators allen Teilnehmern zur Verfügung standen. So haben wir eine Checkliste mit möglichen Informationstypen erstellt, die extrahiert werden sollen, die Datentypen mit strukturierten Ausgaben erzwungen und dann alle Dokumente durchlaufen, um die notwendigen Informationen zu extrahieren. Große Dokumente wurden basierend auf der Größe aufgeteilt.

In der Phase der Beantwortung von Fragen gehen wir jede Frage durch und übergeben sie zusammen mit den vorab ausgefüllten Checklisten-Daten an GPT-4o. Die resultierende Antwort wird erneut mithilfe strukturierter Ausgaben in das richtige Schema geformt.

Die Lösung war etwas kostspielig. Die Vorbefüllung der 20 PDFs verbrauchte fast 6 Dollar, während das Beantworten von 40 Fragen 2,44 Dollar kostete.

In dieser Challenge setzen wir keine Kostenlimits für die Lösungen, ermutigen die Teilnehmer jedoch, die Kosten zu erfassen und zu teilen. Die Leser können dann die resultierenden Lösungen nach ihren eigenen Kriterien priorisieren.

Zweitbeste Lösung - Klassisches RAG mit GPT-4o

Die zweitbeste Lösung stammt von Ilya Rice. Sie erzielte 76 Punkte und erreichte dies mit GPT-4o und einem klassischen, auf Langchain basierenden RAG. Es wurde eines der besten Embedding-Modelle verwendet – text-embedding-3-large von OpenAI und benutzerdefinierte Chain of Thought-Prompts. Die Lösung nutzte fitz für das Textparsing und chunkte die Texte nach Zeichenanzahl.

Drittbeste Lösung - Checklisten mit Gemini Flash

Die drittbeste Lösung wurde von Artem Nurmukhametov bereitgestellt. Seine Lösung war architektonisch ähnlich der von Daniel, verwendete jedoch eine mehrstufige Verarbeitung für die Checklisten. Es wurde das Gemini Flash-Modell von Google verwendet, um das System zu steuern.

Die Lösung war ebenfalls kostspielig und verbrauchte 4 Dollar für den vollständigen Testlauf.

Wie Sie bemerkt haben, nutzten 2 der 3 besten Lösungen das Checklistenmuster und die Wissenszuordnung, um vom im Voraus bekannten Domain-Wissen zu profitieren. Während dies im Geschäftsbereich üblich ist (man kann Domänengetriebene Gestaltung und iterative Produktentwicklung verwenden, um ein ähnliches Detailniveau zu erfassen), stellt dies klassische RAG-Systeme vor Herausforderungen.

Um dies auszugleichen, werden wir in der nächsten Runde der Enterprise RAG Challenge den Fragegenerator überarbeiten, um mehr Variabilität zu bieten und es dadurch prohibitiver zu machen, "zu schummeln", indem man einfach Wissenszuordnung verwendet.

Beste On-Premise-Lösung

Wie Sie bemerkt haben, haben die meisten Lösungen das GPT-4o-LLM von OpenAI verwendet. Laut unseren Benchmarks ist dies eines der besten und kosteneffektivsten LLMs, die derzeit verfügbar sind.

In der realen Welt sind Unternehmen jedoch manchmal an Lösungen interessiert, die vollständig vor Ort ausgeführt werden können. Dies kann aus verschiedenen Gründen gewünscht sein: Kosten, IP-Schutz oder Compliance.

Lokale Lösungen bringen jedoch einige Nachteile mit sich – lokale Modelle wie Llama sind weniger leistungsfähig als Cloud-basierte Modelle wie OpenAI GPT-4 oder Claude Sonnet 3.5. Um dies auszugleichen, beginnen lokale KI-Systeme, fortschrittliche Techniken zu nutzen, die manchmal nur bei lokalen Modellen möglich sind – präzise Steuerung, Feinabstimmung (vollständige Feinabstimmung, nicht die Adapter, die OpenAI verwendet), die Verwendung von Expertenmischungen und Ensembles oder eine breite Strahlensuche.

Es kann schwierig sein, die effektive Genauigkeit von stark unterschiedlichen Ansätzen zu vergleichen. Diese Enterprise RAG Challenge ermöglicht es, sie auf derselben Basis zu vergleichen.

Der 6. Platz ging an ein vollständig lokales System mit einer Punktzahl von 69. Der Abstand zu dem Gewinner ist viel geringer, als wir erwartet haben!

Unter der Haube verwendet dieses System das Qwen-72B-LLM, das in einigen Teilen Europas und Asiens recht beliebt ist. Die Gesamtarchitektur basiert auf ReAct-Agent-Loops von LangChain mit einem RAG-gesteuerten Abfrage-Engine. Tabellendaten aus PDFs wurden in XML umgewandelt, und für das Text-Chunken wurde der RecursiveCharacterTextSplitter verwendet.

In der Tabelle gibt es zwei weitere Lösungen, die vollständig vor Ort ausgeführt werden können. Diese sind in der Spalte „Local“ mit einem ⭐ gekennzeichnet.

Runde 2: Diesen Herbst!

Die erste Runde wurde in einem kleinen Kreis von Fachleuten durchgeführt, um das Erlebnis zu testen und zu optimieren. Die Resonanz war viel besser, als wir erwartet hatten.

Wir planen, die nächste Runde der Enterprise RAG Challenge später im Herbst auszurichten. Diese Runde wird öffentlich angekündigt und beinhaltet ein paar kleine Balance-Änderungen:

Der Fragegenerator wird neu ausbalanciert, um weniger Fragen zu erzeugen, die zu einer N/A-Antwort führen. Einige solcher Fragen werden jedoch beibehalten, um Halluzinationsfälle zu erkennen.
Wir werden mehr Fragen generieren und eine größere Vielfalt an möglichen Fragen sicherstellen. Dies wird den Wettbewerb für Ansätze, die auf Wissenszuordnung und dem Checklist-LLM-Muster basieren, anspruchsvoller machen.

Alle Änderungen werden vor Beginn des Wettbewerbs öffentlich gemacht und als Open Source geteilt. Jeder Teilnehmer wird dieses Wissen nutzen können, um sich auf den Wettbewerb vorzubereiten.

Zusätzlich wird der Quellcode der Lösungen von TIMETOACT GROUP Österreich für alle zugänglich gemacht, um davon zu profitieren.

Wir werden auch versuchen, mehr Daten von den Teilnehmern zu sammeln und diese konsistenter zu gestalten.

All dies sollte die Ergebnisse der nächsten Runde wertvoller machen und dazu beitragen, unser gemeinsames Verständnis darüber zu verbessern, was es in der Praxis braucht, um hochwertige KI-Lösungen für Unternehmen zu entwickeln.

Strategischer Ausblick

Wir nähern uns dem Ende der Sommerferien und einer neuen Periode für Unternehmen. Was können wir in den kommenden Monaten in der Welt der „LLMs für Unternehmen“ erwarten?

Zunächst einmal werden sich die architektonischen Ansätze zur Lösung von Kundenproblemen weiterentwickeln. Wie wir in der RAG Challenge gesehen haben, gibt es keine einzelne beste Option, die alle anderen deutlich übertrifft. Radikal unterschiedliche Architekturen konkurrieren derzeit: Lösungen basierend auf Wissenszuordnung, klassischen vektorbasierenden RAGs, Systemen mit speziellen Agenten und Wissensgraphen.

Allein durch den Blick auf die Architektur ist es nicht möglich, im Voraus zu sagen, ob es die beste Lösung sein wird. Auch die Anzahl der Codezeilen ist kein klarer Indikator.

Basierend allein auf der Architektur gibt es weiterhin Raum für Qualitätsverbesserungen bei LLM-gesteuerten Lösungen.

LLM-Muster und -Praktiken werden jedoch nicht der einzige Faktor sein, der zukünftige Qualitätsverbesserungen vorantreibt. Wir dürfen nicht vergessen, dass große Sprachmodelle kontinuierlich besser und günstiger werden.

ℹ️ Wenn man sich die Forenantworten und die Online-Präsenz ansieht, scheinen ChatGPT und Anthropic Claude Chat immer schlechter zu werden, insbesondere in den kostenlosen Stufen. Was viele jedoch oft vergessen: Dies sind nutzerorientierte Produkte, die zum Feldtest neuer Versionen von großen Sprachmodellen verwendet werden.

Unternehmen sind motiviert, die darunter laufenden LLMs so günstig wie möglich zu machen. Und genau das hat OpenAI in den letzten Jahren getan.

Unternehmen nutzen größtenteils feste, stabile Modelle über die API. Diese Modelle haben eine vorhersehbare Qualität und werden nicht plötzlich schlechter.

Schauen wir uns die Entwicklung der „LLM-Leistung, die man für sein Geld bekommt“ im Laufe der Zeit an. Wir werden ein Diagramm zeigen, das dies basierend auf den Bewertungen von unserem LLM-Leaderboard veranschaulicht.

In diesem Diagramm gruppieren wir die Modelle nicht nach ihren Marketingnamen, sondern nach ihrem Anbieter und Kostensegment.

Hier sehen wir ein interessantes Muster. Für das gleiche Geld konnten wir zu verschiedenen Zeitpunkten unterschiedliche Genauigkeiten erzielen.

In der ersten Hälfte des Jahres 2023 begannen Unternehmen damit, gute Modelle zu veröffentlichen. Alle begannen, diese zu nutzen und darüber zu sprechen. Nachdem sie einen Teil des Marktes erobert hatten, schalteten die Unternehmen in den Kostensparmodus um und veröffentlichten neue, weniger leistungsfähige Versionen innerhalb desselben Tiers. Wir haben darüber in mehreren Berichten des LLM-Leaderboards geschrieben.

Ab 2024, als sogar Google in das KI-Rennen eingestiegen ist, begannen die Unternehmen wieder an der Modellqualität zu arbeiten. Sie bringen neue Modelle heraus, die für das gleiche Geld besser funktionieren.

Der Fortschritt sieht bisher ziemlich konstant aus und wiederholt sich bei mehreren LLM-Anbietern. Das lässt uns glauben, dass LLMs in den nächsten 6 Monaten weiterhin ihr „Preis-Leistungs-Verhältnis“ verbessern werden.

Was bedeutet das? Es ist eine gute Zeit, um LLM-gesteuerte Systeme zu entwickeln, die Unternehmen helfen, mehr Wert zu schaffen. Sie funktionieren bereits gut, aber sie werden noch besser – sowohl durch architektonische Verbesserungen als auch durch die Veröffentlichung leistungsfähigerer LLMs.

Wir werden beide Perspektiven weiterhin in unserem monatlichen LLM-Leaderboard verfolgen.

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

Vorname

Nachname *

Unternehmen *

E-Mail *

Telefonnummer

Ihre Nachricht *

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Martin Warnung

Sales Consultant TIMETOACT GROUP Österreich GmbH +43 664 881 788 80

Kontakt

Wissen 30.07.24

LLM-Benchmarks Juli 2024

Unser LLM Leaderboard aus Juli 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 01.10.24

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Insights 17.03.25

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Februar 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.04.24

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Welche LLM-Modelle meistern Ihre Herausforderungen am besten? Werfen Sie einen Blick auf die Ergebnisse und finden Sie Ihr ideales Sprachmodell!

Insights

LLM Benchmarks März 2025

Was gibt’s Neues in der Welt der LLMs? Finden Sie es heraus – und lesen Sie, warum Google DeepMind uns im vergangenen Monat gleich mehrfach überrascht hat.

Blog 19.02.25

Knowledge Graphs: vernetzte Daten als Innovationsmotor

Erfahren Sie, wie Knowledge Graphs Datensilos auflösen, Echtzeit-Analysen ermöglichen und AI-basierte Entscheidungen optimieren können.

Blog 16.05.24

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz ist längst mehr als ein Schlagwort – sie schafft echten Business Value. Mit unserem achtstufigen Ansatz unterstützen wir Unternehmen auf dem Weg zur erfolgreichen AI-Nutzung.

Blog 16.05.24

Fehler in der Entwicklung von AI-Assistenten

Erfolgreiche AI-Assistenten starten mit den richtigen Learnings: Erfahren Sie, warum viele Unternehmen scheitern und wie Sie typische Fehler vermeiden – für eine optimale Umsetzung Ihrer AI-Projekte!

Blog 17.05.24

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten sind ein Hype, und viele Teams arbeiten mit Begeisterung an ihrer Umsetzung. Doch in Europa und den USA scheitern viele an dieser Herausforderung. Damit Ihnen das nicht passiert, haben

Event Archive 22.10.24

AI Meetup 2024

Führende AI-Experten der TIMETOACT GROUP und aus unserem Partnernetzwerk laden Sie zu einem spannenden Abend im schönen Hauptquartier des AI Village ein, an dem wir das Thema Künstliche Intelligenz (AI) aus pragmatischer Sicht auf den Prüfstand stellen und konkrete Anwendungsbereiche aus der Praxis näher beleuchten.

Wissen 02.05.24

Das Potenzial der Datenkultur im Unternehmen ausschöpfen

Haben Sie schon einmal darüber nachgedacht, ob Ihr Unternehmen wirklich das volle Potenzial der Datenkultur ausschöpft? Stellen Sie sich einen Arbeitsplatz vor, an dem jeder Schritt, jede Entscheidung und jede Strategie auf fundierten und datengetriebenen Erkenntnissen basiert. Wo jeder Mitarbeiter das Vertrauen hat, sicher durch die digitale Landschaft zu navigieren. Unser neuer Deep Dive von Dr. Jan Hachenberger (engl. Sprache) beleuchtet die Welt der Datenkultur. Erfahren Sie, wie Sie gängige Mythen rund um datengetriebene Kulturen entlarven, die Grundpfeiler für eine erfolgreiche Datenkultur errichten und wertvolle Einblicke von Experten gewinnen können.

Event Archive

BE.INSIDE 2024

Erleben Sie am Vorabend der DMEXCO und Digital-X exklusiv die Tech-Trends des Jahres live und hautnah: Treffen Sie auf der be.inside das Who’s who der IT-Welt!

Sep 17

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.