CHATGPT UND CO IM VERGLEICH

LLM Benchmark V2: Vorschau auf die neue Benchmark-Generation

Dieser Benchmark-Bericht wird spannend! Wir starten mit Leistungs-Benchmarks und schließen mit einer Prognose des Nvidia-Aktienkurses ab (dies stellt keine Finanzberatung dar).

  • Zweite Generation Benchmark - Frühe Vorschau

  • DeepSeek r1

  • Kosten- und Preisentwicklung von DeepSeek r1

LLM Benchmark Gen2 - Vorschau

In den letzten Monaten haben wir intensiv daran gearbeitet, unsere erste Generation des LLM-Benchmarks zu überarbeiten. Gen1 konzentrierte sich auf die Automatisierung von Geschäftsprozessen, basierte jedoch auf Erkenntnissen aus abgeschlossenen KI-Anwendungsfällen des Jahres 2023.

In den letzten Monaten der Benchmark-Ergebnisse zeigte sich dies durch eine Sättigung in den oberen Reihen (zu viele Modelle mit hohen Bewertungen). Zudem waren die Testfälle inzwischen etwas veraltet. Sie spiegelten die neuesten Erkenntnisse aus einem Jahr unserer KI-Forschung und der Zusammenarbeit mit Unternehmen in der EU und den USA nicht mehr angemessen wider.

 

Wir haben eine neue Generation des Benchmarks entwickelt, um sowohl neue LLM-Funktionen als auch aktuelle Erkenntnisse zu integrieren. Das Timing hätte nicht besser sein können: o1 pro wurde veröffentlicht und stellte die Komplexität des Benchmarks auf die Probe, während DeepSeek r1 kurz darauf das Konzept des "accessible reasoning" einführte.

Hier ist die frühe Vorschau auf unseren v2-Benchmark. Auf den ersten Blick mag er unscheinbar wirken, aber er vergleicht bereits deterministisch die Modelle anhand komplexer Geschäftsanwendungen und ermöglicht jedem Modell, vor der Antwortfindung deduktiv zu überlegen.

Wir werden die Analyse von DeepSeek r1 gleich besprechen, aber zunächst konzentrieren wir uns auf den Benchmark selbst.
Hier ist der aktuelle Fortschritt sowie eine Übersicht der geplanten Erweiterungen:

  • Aktueller Fortschritt:

    • ~10 % der relevanten KI-Anwendungsfälle sind derzeit in v2 abgebildet.
    • Mit zunehmender Abdeckung werden die Ergebnisse repräsentativer für moderne KI-/LLM-Anwendungen in Unternehmen.
       
  • Strukturierte Outputs:

    • Die Verwendung strukturierter Outputs (präzises Befolgen eines vordefinierten Schemas) ist ein gängiger Branchenstandard.
    • Diese Methode wird von OpenAI, Google und lokalen Inferenzlösungen unterstützt.
    • Lokal einsetzbare Modelle mit eingeschränktem Decoding werden berücksichtigt, wo immer möglich.
       
  • Fokus auf geschäftliche Aufgaben:

    • Der aktuelle Schwerpunkt liegt auf Aufgaben, bei denen mehrere logische Schritte in einem einzigen Prompt ausgeführt werden müssen.
    • Nicht jedes komplexe KI-Projekt benötigt kreative Autonomie – bei Regulierungen und Compliance kann dies sogar kontraproduktiv sein.
    • Kleinere, lokal einsetzbare Modelle, die einen prüfbaren Argumentationspfad verfolgen, sind oft effektiver.
       
  • Zukünftige Erweiterungen:

    • Einfachere logische Aufgaben werden schrittweise wieder integriert.
    • Eine neue Kategorie „Planerstellung“ wird hinzugefügt, um workflow-orientierte LLM-Nutzung genauer zu analysieren.
    • Das Ziel: Prüfen, ob leistungsstarke, cloudbasierte Modelle durch einfachere lokale Modelle ersetzt werden können, die einem strukturierten Workflow folgen.
       
  • Einblicke für Kund:innen und Partner:innen:

    • Viele Kund:innen und Partner:innen haben um Zugang zu Benchmark-Inhalten gebeten, um Inspiration und Leitlinien für ihre Projekte zu erhalten.
    • Im Gegensatz zu v1 wird v2 eine Reihe von nicht eingeschränkten Testfällen enthalten, die auf Anfrage geteilt werden können.
       
  • Derzeitige Kategorien:

    • Nur wenige Kategorien von Testfällen sind bisher integriert.
    • Weitere Kategorien werden mit der Weiterentwicklung des Benchmarks hinzugefügt.

       

Die vollständige Umsetzung wird noch ein paar Monate in Anspruch nehmen, aber der schwierigste Teil – die Zusammenführung vieler beweglicher Elemente in ein einziges, kohärentes Framework – ist geschafft!
Ab diesem Punkt wird sich der LLM Benchmark v2 stetig weiter verbessern.

DeepSeek r1

Sprechen wir über das Offensichtliche: DeepSeek r1, das neue chinesische Modell, ist deutlich schneller und günstiger als OpenAIs erfolgreiches o1-Modell. Neben der Möglichkeit, lokal betrieben zu werden (kann von jeder Person heruntergeladen werden), soll es auch intelligenter sein.

Kein Wunder, dass die Aktienkurse nach diesen Entwicklungen eingebrochen sind.

Beginnen wir mit den Schlussfolgerungsfähigkeiten. Laut unseren Benchmarks zeigt DeepSeek r1 beeindruckende Leistungen:

  • Es übertrifft fast alle Varianten der 4o-Modelle von OpenAI.
  • Es ist besser als jedes getestete Open-Source-Modell.
  • Dennoch bleibt es hinter OpenAI’s o1 und GPT-4o (Ausgabe August 2024) zurück.

Denken Sie daran, dass das Basis-Modell von DeepSeek r1 ein Mixture of Experts-Modell mit insgesamt 685 Milliarden Parametern ist (die alle auf einer GPU untergebracht werden müssen). Vergleicht man die Fortschritte in den Benchmarks mit anderen großen Open-Source-Modellen, scheint der Fortschritt in etwa proportional zur Modellgröße zu sein.

Sehen Sie den kleineren Elefanten im Raum, der dieses Muster durchbricht? Es ist die Destillation der Fähigkeiten von DeepSeek r1 auf Llama 70B! Dieses lokal einsetzbare Modell steht zwar nicht im Mittelpunkt der öffentlichen Diskussion, könnte jedoch tatsächlich der größte Durchbruch sein.

Wenn es möglich ist, jedes solide Basis-Modell durch die Destillation von r1 zu verbessern und ihm vor der Antwortfindung Raum für Überlegungen zu geben, eröffnet dies eine alternative Option: gängige Modelle schneller und effizienter zu machen.

Zusammenfassung

Das DeepSeek r1-Modell ist sehr leistungsfähig, jedoch noch nicht gut genug, um direkt mit OpenAIs o1-Modell zu konkurrieren. Die erste Herausforderung besteht darin, OpenAIs 4o-Modelle konsequent zu übertreffen, bevor es sich größeren Konkurrenten stellen kann.

Die Technologie hinter DeepSeek r1 ist vielversprechend und wird wahrscheinlich eine neue Generation effizienter Schlussfolgerungsmodelle hervorbringen, die auf Destillationsansätzen basieren. Dies stimmt mit einer Prognose überein, die wir im Dezember gemacht haben: KI-Anbieter werden zunehmend Schlussfolgerungsfähigkeiten ähnlich den OpenAI o1-Modellen integrieren, um die Modellleistung schnell zu verbessern. Die Methode ist einfach – mehr Rechenleistung bereitstellen, dem Modell mehr Zeit für Überlegungen vor der Antwort geben und höhere Gebühren für die API verlangen. Dieser Ansatz ermöglicht Leistungssteigerungen, ohne dass große Investitionen in die Entwicklung neuer Basismodelle erforderlich sind.

Wir gehen jedoch davon aus, dass der aktuelle Hype um teure, intelligente Schlussfolgerungsmodelle allmählich nachlassen wird. Ihre Praktikabilität ist begrenzt, weshalb kostengünstigere Alternativen auf den Plan treten werden.


Kosten- und Preisentwicklung von DeepSeek r1

DeepSeek r1 bietet ein kosteneffizientes Preismodell. Die Kosten betragen nur 0,55 $ pro 1 Million Eingabe-Tokens, während 1 Million Ausgabe-Tokens 2,19 $ kosten. Diese erschwinglichen Preise machen es zu einer wettbewerbsfähigen Option, insbesondere für diejenigen, die lokal einsetzbare KI-Modelle suchen.

Das ist deutlich günstiger als die Preise von OpenAI o1 oder 4o. Lassen Sie uns die Unterschiede übersichtlich in einer Tabelle darstellen.

Wir berechnen zudem die Gesamtkosten für ein typisches Geschäftsprojekt mit einem 10:1-Verhältnis—10 Millionen Eingabe-Tokens und 1 Million Ausgabe-Tokens. Dieses Verhältnis ist typisch für Systeme zur Datenextraktion und RAG-basierte Anwendungen (Retrieval-Augmented Generation), die bei unseren KI-Anwendungsfällen dominieren.

Model

 

1M Input Tokens

 

1M Output Tokens

 

Cost of 10M:1M

 

DeepSeek r1

$0.55

$2.19

$7.69

OpenAI gpt-4o

$2.5

$10

$35

OpenAI o1

$15.0

$60

$210

An diesem Punkt können wir mit Sicherheit sagen, dass die Preise von DeepSeek r1 die Konkurrenz weit hinter sich lassen. Es ist nicht nur „25-mal günstiger als OpenAI o1“ bei typischen Geschäftsaufgaben – es ist sogar 27-mal günstiger.

Doch der Teufel steckt im Detail. Der aktuell angebotene Preis spiegelt aus verschiedenen Gründen möglicherweise nicht den tatsächlichen Marktpreis oder die realen Betriebskosten wider.

Die zentrale Frage ist: Kann DeepSeek die gesamte Nachfrage überhaupt bewältigen? Laut ihrer Statusseite befindet sich die API seit dem 27. Januar im „Major Outage“-Modus. Das bedeutet, dass sie aktuell nicht alle LLM-Anfragen zum beworbenen Preis bedienen können.

Wenn man sich die finanziellen Anreize von DeepSeek als Unternehmen genauer ansieht, könnte man feststellen, dass die Gewinnerzielung möglicherweise nicht ihr Hauptziel ist. DeepSeek gehört einem chinesischen High-Flyer-Hedgefonds (siehe Wikipedia), und theoretisch könnten sie mehr Geld verdienen, indem sie auf fallende Nvidia-Aktien setzen. Aber lassen wir diese Theorie beiseite.

Es ist jedoch schon eine interessante Zufälligkeit, dass der 27. Januar, an dem ihre API in den „Major Outage“-Modus überging, genau der Tag ist, an dem auch die Nvidia-Aktie abgestürzt ist.

Um die Preisentwicklung von LLMs genauer zu betrachten, können wir einen Blick auf einen beliebten LLM-Marktplatz namens OpenRouter werfen.

OpenRouter bündelt bequem mehrere Anbieter hinter einer einzigen API und schafft damit eine Art offenen Markt für LLM-as-a-Service-Dienste. Da DeepSeek r1 ein Open-Source-Modell ist, können mehrere Anbieter das gleiche Modell zu ihren eigenen Preisen anbieten, wodurch sich Angebot und Nachfrage natürlich ausbalancieren.

Hier sind die aktuellen Preise der am besten bewerteten Anbieter von DeepSeek r1 zum Zeitpunkt der Erstellung dieses Artikels („nitro“ bezieht sich auf Anbieter, die bestimmte Arbeitslasten bewältigen können):

Wie Sie sehen, versucht DeepSeek, seine API zu den beworbenen Preisen anzubieten, jedoch mit einigen Nuancen:

Als Kostenreduktionsmaßnahme beschränkt DeepSeek die Eingabe- und Ausgabegrößen auf einen Bruchteil dessen, was andere Anbieter ermöglichen. Vergleichen Sie die Werte für „Kontext“ und „Maximale Ausgabegröße“, wobei zu beachten ist, dass DeepSeek in seinen ursprünglichen Preisen ein 32K Reasoning-Token-Limit sowie ein 8K Ausgabe-Limit beinhaltet.

Normalerweise leitet OpenRouter Anfragen zum günstigsten Anbieter weiter, wobei sich die Marktmechanismen durchsetzen. Die DeepSeek r1 API konnte jedoch die aktuelle Nachfrage nicht bewältigen und wurde mit folgender Meldung explizit herabgestuft: „Benutzer:innen haben eine verschlechterte Qualität gemeldet. Vorübergehend herabgestuft.“

Alternativanbieter, die stärker auf Gewinn ausgerichtet sind, verlangen spürbar höhere Preise pro Eingabe- und Ausgabe-Token. Trotz der höheren Kosten können sie die Nachfrage bedienen und auch bei steigendem Durchsatz eine hohe Stabilität gewährleisten.

Der aktuelle Marktpreis für stabilen Zugriff auf DeepSeek r1 liegt effektiv bei 7 bis 8 $ pro 1 Mio. Eingabe-/Ausgabe-Tokens. Für eine durchschnittliche 10:1-Arbeitslast (10 Mio. Eingabe-Tokens und 1 Mio. Ausgabe-Tokens) ergibt dies Gesamtkosten von 77 $.

Das ist doppelt so teuer wie die Nutzung eines ähnlich leistungsfähigen GPT-4o, dessen Kosten für dieselbe Arbeitslast bei 35 $ liegen.

Diese Schätzungen basieren auf den aktuellen Marktpreisen und spiegeln nicht unbedingt die tatsächlichen Kosten wider, wenn man DeepSeek r1 selbst betreiben würde. Ein Blick auf den neuesten Nvidia-Bericht zeigt jedoch, dass DeepSeek r1 auf der neuesten NVIDIA HGX H200 mit einer Geschwindigkeit von 3.872 Tokens pro Sekunde betrieben werden kann, wobei native FP8-Inferenz zur Leistungssteigerung genutzt wird.

Wenn wir eine 2-jährige Mietkostenrate von 16 $ pro Stunde für eine HGX H200 in der Region Silicon Valley annehmen und die optimierte Softwareumgebung unter idealen Bedingungen betreiben, ergibt sich ein Preis von 1,15 $ pro 1 Mio. Eingabe-/Ausgabe-Tokens. Für eine typische 10:1-Arbeitslast bedeutet das 12,65 $ pro Workload, was höher ist als die derzeit beworbenen 7,69 $ von DeepSeek r1.

DeepSeek scheint jedoch keinen Zugang zur neuesten Nvidia-Hardware wie der HGX H200 zu haben. Stattdessen sind sie auf H800 GPUs beschränkt, eine Exportversion der H100 mit reduzierter Speicherbandbreite, was die tatsächlichen Betriebskosten weiter erhöhen könnte.

Egal, wie wir die Zahlen betrachten, das Ergebnis bleibt gleich:

Wir sehen keinen Weg, wie DeepSeek r1 25-mal günstiger als OpenAI’s o1 sein könnte, es sei denn, der Preis wird stark subventioniert. Subventionierte Preise passen jedoch langfristig nicht gut zur hohen Marktnachfrage.

In unserem frühen v2 LLM-Benchmark zeigt DeepSeek r1 eine Schlussfolgerungsfähigkeit, die mit einem älteren OpenAI GPT-4o vom August 2024 vergleichbar ist. Es erreicht derzeit noch nicht das Niveau von OpenAIs o1.

Außerdem sind sowohl OpenAIs o1 als auch 4o multi-modale Modelle, die nativ mit Bildern und komplexen Dokumenten arbeiten können, während DeepSeek r1 nur Text-Eingaben akzeptiert. Das trennt die Modelle noch deutlicher, insbesondere bei dokumentbasierten Geschäftsprozessen.

In diesem Zusammenhang scheint die kürzliche Reaktion des Aktienmarktes auf ein vielversprechendes, aber begrenztes chinesisches Textmodell, das mit einer älteren OpenAI-Version vergleichbar und zu subventionierten Preisen angeboten wird, etwas übertrieben. Die Zukunft liegt in multi-modalen Basismodellen, die über bloße Textfähigkeiten hinausgehen und Nvidia sowie seinen Partnern beträchtliche Wertschöpfungspotenziale bieten.

Aktienmarktprognose (keine Finanzberatung): Nvidia wird sich erholen und dank realer Workloads und nachhaltiger Kostendynamiken schnell wieder wachsen.

Gleichzeitig bleibt das Modell DeepSeek r1 interessant und könnte OpenAIs Konkurrenten helfen, aufzuholen (zumal es kürzlich keine bedeutenden Innovationen von Anthropic oder Sonnet gab). Allerdings könnte DeepSeek r1 selbst bald an Bedeutung verlieren, da seine Destillationsversionen bereits stärker in unserem neuen Benchmark v2 abschneiden.

Die Enterprise RAG Challenge ist ein freundlicher Wettbewerb, bei dem wir vergleichen, wie unterschiedliche RAG-Architekturen Fragen zu Geschäftsdokumenten beantworten.

Die erste Runde dieses Wettbewerbs fand letzten Sommer statt – mit beeindruckenden Ergebnissen. Bereits mit nur 16 teilnehmenden Teams konnten wir verschiedene RAG-Architekturen vergleichen und das Potenzial strukturierter Outputs für geschäftliche Aufgaben entdecken.

Die zweite Runde ist für den 27. Februar geplant. Merken Sie sich den Termin vor!

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Bitte Captcha lösen!

captcha image
Martin Warnung
Sales Consultant TIMETOACT GROUP Österreich GmbH +43 664 881 788 80
Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 01.10.24

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.04.24

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Welche LLM-Modelle meistern Ihre Herausforderungen am besten? Werfen Sie einen Blick auf die Ergebnisse und finden Sie Ihr ideales Sprachmodell!

Wissen 30.07.24

LLM-Benchmarks Juli 2024

Unser LLM Leaderboard aus Juli 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.08.24

LLM-Benchmarks August 2024

Anstelle unserer allgemeinen LLM Benchmarks, präsentieren wir Ihnen im August den ersten Benchmark verschiedener KI-Architekturen.

Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Insights

Das sind die Gewinner der Enterprise RAG Challenge

Entdecken Sie die Gewinner der Enterprise RAG Challenge! Sehen Sie sich das offizielle Announcement an und erfahren Sie, wie KI-Retrieval und LLMs die besten RAG-Lösungen geformt haben.

Blog 19.02.25

Knowledge Graphs: vernetzte Daten als Innovationsmotor

Erfahren Sie, wie Knowledge Graphs Datensilos auflösen, Echtzeit-Analysen ermöglichen und AI-basierte Entscheidungen optimieren können.

Blog 17.05.24

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten sind ein Hype, und viele Teams arbeiten mit Begeisterung an ihrer Umsetzung. Doch in Europa und den USA scheitern viele an dieser Herausforderung. Damit Ihnen das nicht passiert, haben

Blog 16.05.24

Fehler in der Entwicklung von AI-Assistenten

Erfolgreiche AI-Assistenten starten mit den richtigen Learnings: Erfahren Sie, warum viele Unternehmen scheitern und wie Sie typische Fehler vermeiden – für eine optimale Umsetzung Ihrer AI-Projekte!

Blog 16.05.24

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz ist längst mehr als ein Schlagwort – sie schafft echten Business Value. Mit unserem achtstufigen Ansatz unterstützen wir Unternehmen auf dem Weg zur erfolgreichen AI-Nutzung.

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.

Blog 16.09.24

Business Innovation und Digitale Transformation mit AI

Die Implementierung von AI bietet enormes Potenzial für Unternehmen – von Effizienzsteigerungen bis hin zu völlig neuen Geschäftsmodellen. Doch wie jede technologische Revolution birgt sie auch Risiken und Fallstricke. In diesem Blogbeitrag werfen wir einen Blick auf die Potenziale von AI für Unternehmen und auf die häufigsten Fehler, die Sie bei der Einführung vermeiden sollten.

Blog 20.02.24

Artificial Intelligence – No more experiments?!

Artificial Intelligence (AI) ist in aller Munde. Nach unserer Einschätzung – und damit deckungsgleich mit Prognosen von TechTarget, IDG und anderen Analysten – wird sich das auch im Jahr 2024 nicht ändern.

Wissen 02.05.24

Das Potenzial der Datenkultur im Unternehmen ausschöpfen

Haben Sie schon einmal darüber nachgedacht, ob Ihr Unternehmen wirklich das volle Potenzial der Datenkultur ausschöpft? Stellen Sie sich einen Arbeitsplatz vor, an dem jeder Schritt, jede Entscheidung und jede Strategie auf fundierten und datengetriebenen Erkenntnissen basiert. Wo jeder Mitarbeiter das Vertrauen hat, sicher durch die digitale Landschaft zu navigieren. Unser neuer Deep Dive von Dr. Jan Hachenberger (engl. Sprache) beleuchtet die Welt der Datenkultur. Erfahren Sie, wie Sie gängige Mythen rund um datengetriebene Kulturen entlarven, die Grundpfeiler für eine erfolgreiche Datenkultur errichten und wertvolle Einblicke von Experten gewinnen können.

Event Archive 22.10.24

AI Meetup 2024

Führende AI-Experten der TIMETOACT GROUP und aus unserem Partnernetzwerk laden Sie zu einem spannenden Abend im schönen Hauptquartier des AI Village ein, an dem wir das Thema Künstliche Intelligenz (AI) aus pragmatischer Sicht auf den Prüfstand stellen und konkrete Anwendungsbereiche aus der Praxis näher beleuchten.