CHATGPT UND CO IM VERGLEICH

Die besten Sprachmodelle im November 2024

Die LLM-Benchmarks der TIMETOACT GROUP präsentieren die leistungsstärksten KI-Sprachmodelle für die digitale Produktentwicklung. Entdecken Sie, welche Sprachmodelle im November die besten Ergebnisse erzielt haben.

Der November brachte viele Veränderungen in den TOP-10 unseres LLM-Benchmarks mit sich. Außerdem gab es einige Neuerungen in der Art und Weise, wie wir LLM-gestützte Produkte entwickeln.

  • Update: Claude Sonnet 3.5 v2 – Kleine Verbesserungen der Fähigkeiten und hervorragende PDF-Verarbeitung.
  • GPT-4o ab 20. November – Direkt in den TOP 3!
  • Qwen 2.5 Coder 32B Instruct – Mittelmäßig, aber treibt den Stand der Technik voran!
  • Qwen QwQ 32B Preview – Fast zu schlau für sein eigenes Wohl.
  • Gemini Experimental 1121 – Solide, aber schwer zugänglich.
  • Pläne für LLM-Benchmarks v2 – Fokus auf konkrete Anwendungsfälle und Fähigkeiten.
  • Text-to-SQL-Benchmark

LLM Benchmarks | November 2024

Die Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz

Kann das Modell Code generieren und bei der Programmierung helfen?

Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.

Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.

ModellCodeCrmDocsIntegrateMarketingReasonErgebnisKostenSpeed
1. GPT o1-preview v1/2024-09-12 ☁️9592949588879252.32 €0.08 rps
2. GPT o1-mini v1/2024-09-12 ☁️939694838287898.15 €0.16 rps
3. GPT-4o v3/2024-11-20 ☁️869794958872890.63 €1.14 rps
4. GPT-4o v1/2024-05-13 ☁️9096100927874881.21 €1.44 rps
5. Google Gemini 1.5 Pro v2 ☁️869794997874881.00 €1.18 rps
6. GPT-4 Turbo v5/2024-04-09 ☁️869998968843852.45 €0.84 rps
7. Google Gemini Exp 1121 ☁️709797957272840.89 €0.49 rps
8. GPT-4o v2/2024-08-06 ☁️908497868259830.63 €1.49 rps
9. Google Gemini 1.5 Pro 0801 ☁️8492791007074830.90 €0.83 rps
10. Qwen 2.5 72B Instruct ⚠️799294977159820.10 €0.66 rps
11. Llama 3.1 405B Hermes 3🦙689389988853810.54 €0.49 rps
12. Claude 3.5 Sonnet v2 ☁️829793847157810.95 €0.09 rps
13. GPT-4 v1/0314 ☁️908898738845807.04 €1.31 rps
14. X-AI Grok 2 ⚠️639387908858801.03 €0.31 rps
15. GPT-4 v2/0613 ☁️908395738845797.04 €2.16 rps
16. GPT-4o Mini ☁️6387807310065780.04 €1.46 rps
17. Claude 3.5 Sonnet v1 ☁️728389878058780.94 €0.09 rps
18. Claude 3 Opus ☁️6988100747658774.69 €0.41 rps
19. Meta Llama3.1 405B Instruct🦙819392757548772.39 €1.16 rps
20. GPT-4 Turbo v4/0125-preview ☁️6697100837543772.45 €0.84 rps
21. Google LearnLM 1.5 Pro Experimental ⚠️489785966472770.31 €0.83 rps
22. GPT-4 Turbo v3/1106-preview ☁️667598738860762.46 €0.68 rps
23. Qwen 2.5 32B Coder Instruct ⚠️439498987646760.05 €0.82 rps
24. DeepSeek v2.5 236B ⚠️578091808857750.03 €0.42 rps
25. Meta Llama 3.1 70B Instruct f16🦙748990757548751.79 €0.90 rps
26. Google Gemini 1.5 Flash v2 ☁️649689768144750.06 €2.01 rps
27. Google Gemini 1.5 Pro 0409 ☁️689796807526740.95 €0.59 rps
28. Meta Llama 3 70B Instruct🦙818384678145730.06 €0.85 rps
29. GPT-3.5 v2/0613 ☁️688173878150730.34 €1.46 rps
30. Mistral Large 123B v2/2407 ☁️687968757570720.57 €1.02 rps
31. Google Gemini Flash 1.5 8B ☁️709378677648720.01 €1.19 rps
32. Google Gemini 1.5 Pro 0514 ☁️7396791002560721.07 €0.92 rps
33. Google Gemini 1.5 Flash 0514 ☁️3297100767252720.06 €1.77 rps
34. Google Gemini 1.0 Pro ☁️668683798828710.37 €1.36 rps
35. Meta Llama 3.2 90B Vision🦙748487777132710.23 €1.10 rps
36. GPT-3.5 v3/1106 ☁️687071817858710.24 €2.33 rps
37. Claude 3.5 Haiku ☁️528072757568700.32 €1.24 rps
38. GPT-3.5 v4/0125 ☁️638771777843700.12 €1.43 rps
39. Cohere Command R+ ☁️638076727058700.83 €1.90 rps
40. Mistral Large 123B v3/2411 ☁️687564768251700.56 €0.66 rps
41. Qwen1.5 32B Chat f16 ⚠️709082767820690.97 €1.66 rps
42. Gemma 2 27B IT ⚠️617287748932690.07 €0.90 rps
43. Mistral 7B OpenChat-3.5 v3 0106 f16 ✅688767748825680.32 €3.39 rps
44. Meta Llama 3 8B Instruct f16🦙796268708041670.32 €3.33 rps
45. Gemma 7B OpenChat-3.5 v3 0106 f16 ✅636784588146670.21 €5.09 rps
46. GPT-3.5-instruct 0914 ☁️479269698833660.35 €2.15 rps
47. GPT-3.5 v1/0301 ☁️558269818226660.35 €4.12 rps
48. Llama 3 8B OpenChat-3.6 20240522 f16 ✅765176658838660.28 €3.79 rps
49. Mistral 7B OpenChat-3.5 v1 f16 ✅587272718833660.49 €2.20 rps
50. Mistral 7B OpenChat-3.5 v2 1210 f16 ✅637372668830650.32 €3.40 rps
51. Qwen 2.5 7B Instruct ⚠️487780686947650.07 €1.25 rps
52. Starling 7B-alpha f16 ⚠️586667738834640.58 €1.85 rps
53. Mistral Nemo 12B v1/2407 ☁️545851997549640.03 €1.22 rps
54. Meta Llama 3.2 11B Vision🦙707165707136640.04 €1.49 rps
55. Llama 3 8B Hermes 2 Theta🦙617374748516640.05 €0.55 rps
56. Claude 3 Haiku ☁️646964757535640.08 €0.52 rps
57. Yi 1.5 34B Chat f16 ⚠️477870748626641.18 €1.37 rps
58. Liquid: LFM 40B MoE ⚠️726965638224630.00 €1.45 rps
59. Meta Llama 3.1 8B Instruct f16🦙577462747432620.45 €2.41 rps
60. Qwen2 7B Instruct f32 ⚠️508181616631620.46 €2.36 rps
61. Claude 3 Sonnet ☁️724174747828610.95 €0.85 rps
62. Mistral Small v3/2409 ☁️437571747526610.06 €0.81 rps
63. Mistral Pixtral 12B ✅536973636440600.03 €0.83 rps
64. Mixtral 8x22B API (Instruct) ☁️53626297757590.17 €3.12 rps
65. Anthropic Claude Instant v1.2 ☁️587565776516592.10 €1.49 rps
66. Codestral Mamba 7B v1 ✅536651977117590.30 €2.82 rps
67. Inflection 3 Productivity ⚠️465939707961590.92 €0.17 rps
68. Anthropic Claude v2.0 ☁️635255678434592.19 €0.40 rps
69. Cohere Command R ☁️456657748427590.13 €2.50 rps
70. Qwen1.5 7B Chat f16 ⚠️568160566036580.29 €3.76 rps
71. Mistral Large v1/2402 ☁️374970838425580.58 €2.11 rps
72. Microsoft WizardLM 2 8x22B ⚠️487679596222580.13 €0.70 rps
73. Qwen1.5 14B Chat f16 ⚠️505851728422560.36 €3.03 rps
74. MistralAI Ministral 8B ✅565541826830550.02 €1.02 rps
75. Anthropic Claude v2.1 ☁️295859787532552.25 €0.35 rps
76. Mistral 7B OpenOrca f16 ☁️545776367827550.41 €2.65 rps
77. MistralAI Ministral 3B ✅504839896041540.01 €1.02 rps
78. Llama2 13B Vicuna-1.5 f16🦙503755628237540.99 €1.09 rps
79. Mistral 7B Instruct v0.1 f16 ☁️347169636223540.75 €1.43 rps
80. Meta Llama 3.2 3B🦙527166714414530.01 €1.25 rps
81. Google Recurrent Gemma 9B IT f16 ⚠️582771645623500.89 €1.21 rps
82. Codestral 22B v1 ✅384744846613490.06 €4.03 rps
83. Qwen: QwQ 32B Preview ⚠️433274524840480.05 €0.63 rps
84. Llama2 13B Hermes f16🦙502437756042481.00 €1.07 rps
85. IBM Granite 34B Code Instruct f16 ☁️63493467577461.07 €1.51 rps
86. Meta Llama 3.2 1B🦙324033536851460.02 €1.69 rps
87. Mistral Small v2/2402 ☁️33424588568460.06 €3.21 rps
88. Mistral Small v1/2312 (Mixtral) ☁️10676365568450.06 €2.21 rps
89. DBRX 132B Instruct ⚠️433943745910450.26 €1.31 rps
90. NVIDIA Llama 3.1 Nemotron 70B Instruct🦙685425722821450.09 €0.53 rps
91. Mistral Medium v1/2312 ☁️414344596212440.81 €0.35 rps
92. Microsoft WizardLM 2 7B ⚠️533442665313430.02 €0.89 rps
93. Llama2 13B Puffin f16🦙371544675639434.70 €0.23 rps
94. Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️22475953628420.05 €2.39 rps
95. Gemma 2 9B IT ⚠️452547366813390.02 €0.88 rps
96. Meta Llama2 13B chat f16🦙22381765756370.75 €1.44 rps
97. Mistral 7B Zephyr-β f16 ✅37344662294350.46 €2.34 rps
98. Meta Llama2 7B chat f16🦙223320625018340.56 €1.93 rps
99. Mistral 7B Notus-v1 f16 ⚠️10542560484330.75 €1.43 rps
100. Orca 2 13B f16 ⚠️182232296720310.95 €1.14 rps
101. Mistral 7B Instruct v0.2 f16 ☁️11305425588310.96 €1.12 rps
102. Mistral 7B v0.1 f16 ☁️0948635212310.87 €1.23 rps
103. Google Gemma 2B IT f16 ⚠️332816471520270.30 €3.54 rps
104. Microsoft Phi 3 Medium 4K Instruct 14B f16 ⚠️5343032478260.82 €1.32 rps
105. Orca 2 7B f16 ⚠️2202626524220.78 €1.38 rps
106. Google Gemma 7B IT f16 ⚠️0006620110.99 €1.08 rps
107. Meta Llama2 7B f16🦙05223282100.95 €1.13 rps
108. Yi 1.5 9B Chat f16 ⚠️04291708101.41 €0.76 rps

Claude 3.5 v2 Update

Im Oktober LLM-Benchmark haben wir berichtet, dass Anthropic eine kleine Verbesserung der Fähigkeiten von Claude 3.5 v2 erreicht hat. Diese Verbesserung ist zwar vorhanden, aber nicht ausreichend, um das Modell in die TOP-10 zu bringen.

Warum Anthropic Claude 3.5 Sonnet v2 die erste Wahl für Datenextraktionsprojekte ist

Trotz seiner Platzierung außerhalb der TOP-10 ist Anthropic Claude 3.5 Sonnet v2 aktuell unsere bevorzugte Wahl für Datenextraktionsprojekte, beispielsweise im Rahmen von Geschäftsautomatisierung in der Fertigungsindustrie. Warum?

Stellen Sie sich vor, Sie müssen präzise Produktspezifikationen für 20.000 elektrische Komponenten aus 1.000 Datenblättern extrahieren. Diese PDFs enthalten oft komplexe Tabellen oder sogar Diagramme. Die extrahierten Daten könnten dann für Produktvergleiche, die Bereitstellung von äquivalenten Komponenten in Inline-Anzeigen oder Entscheidungen in der Lieferkette genutzt werden.

Anthropic Claude 3.5 Sonnet v2 überzeugt durch zwei gut kombinierte Features:

  1. Native PDF-Verarbeitung
  2. Prompt-Caching

Native PDF-Verarbeitung

Die API von Anthropic ermöglicht es, PDF-Dateien direkt zusammen mit den Extraktionsanweisungen hochzuladen. Im Hintergrund zerlegt die API das PDF in Seiten und lädt jede Seite doppelt hoch – als Bild und als Text. Diese Lösung funktioniert so zuverlässig, dass sie aufwändige Setups mit lokalen Visual Language Models (VLMs) ersetzt.

Prompt-Caching

PDFs benötigen viele Tokens, besonders wenn ein umfangreicher System-Prompt hinzugefügt wird. Um die Verarbeitung zu beschleunigen, die Genauigkeit zu erhöhen und Kosten zu senken, setzen wir auf das zweistufige Prompt-Caching von Anthropic. Dadurch müssen die Kosten für die Tokenisierung eines PDFs nur einmal bezahlt werden.

Beispiel für einen Extraktions-Prompt

  1. System-Prompt:
    "Ihre Aufgabe ist es, Produktdaten aus dem PDF zu extrahieren. Hier ist das Schema (großes Schema) und der Unternehmenskontext."

  2. Dokumenten-Prompt:
    "Hier ist das PDF zur Datenextraktion. Es enthält mehrere Produkte."

  3. Task:
    "Extrahieren Sie Produkt X aus dem PDF."

Dieser Ansatz ermöglicht die Extraktion mehrerer Produkte aus einem einzigen PDF, indem ein Checklisten-Muster verwendet wird. Der System-Prompt (1) und der Dokumenten-Prompt (2) werden für alle Extraktionsanfragen zu demselben PDF zwischengespeichert. Der System-Prompt (1) wird sogar für alle Anfragen dieses PDF-Typs allgemein gecached.

Vorteile des Prompt-Cachings

Wann immer ein Teil des Prompts auf dem Server zwischengespeichert wird, senkt das die Kosten und beschleunigt die Verarbeitung. Zum Beispiel um 30–70 % schneller und 50–90 % günstiger, wie in der Dokumentation von Anthropic beschrieben. Bei Datenextraktionsfällen liegen die Kosteneinsparungen typischerweise eher am oberen Ende dieses Bereichs.

So sieht es in der Praxis aus

  • 'Cache creation' zeigt, wann ein Teil des Prompts gespeichert wird.
  • 'Cache read' zeigt, wann ein gespeicherter Prompt wiederverwendet wird – was Zeit und Geld spart.

Dank dieser optimierten Funktionen ist Claude 3.5 Sonnet v2 ein leistungsstarkes Tool für datenintensive Extraktionsprojekte in der Fertigungsindustrie.

Es gibt einen kleinen Haken: Die Modelle von Anthropic verfügen nicht über die Structured Output-Fähigkeit von OpenAI. Man könnte daher denken, dass zwei wichtige Funktionen verloren gehen:

  • Exakte Einhaltung eines Schemas
  • Die Möglichkeit, einen benutzerdefinierten Chain-of-Thought-Prozess festzulegen, der das LLM durch den Datenextraktionsprozess führt

Doch das ist nicht der Fall! Structured Output ist lediglich eine Inferenzfunktion, die eine eingeschränkte Decodierung (Token-Auswahl) ermöglicht, um ein Schema exakt zu befolgen. Ein leistungsfähiges LLM kann auch ohne diese Funktion komplexe Strukturen extrahieren. Dabei folgt es dem in der Schema-Definition kodierten Chain-of-Thought-Prozess.

Anthropic Claude 3.5 Sonnet v2 ist durchaus in der Lage, dies zu leisten. In 5–7 % der Fälle, in denen das Ergebnis ein leicht ungültiges Schema liefert, können wir die Ergebnisse an GPT-4o übergeben, um das Schema zu korrigieren.

Zum Vergleich: Hier ist ein Beispiel für eine Structured Output-Definition aus einem unserer Projekte (die Bildqualität wurde absichtlich reduziert).

GPT-4o seit dem 20. November – TOP 3

OpenAI hat sich nicht die Mühe gemacht, eine offizielle Ankündigung für dieses Modell (gpt-4o-2024-11-20 in der API) zu veröffentlichen. Stattdessen haben sie das Update einfach nur getwittert:

Das Modell verdient eine besondere Erwähnung in unseren Benchmarks. Im Vergleich zur vorherigen Version GPT-4o v2/2024-08-06 zeigt das Modell spürbare Verbesserungen, insbesondere in der Kategorie Reasoning.

Man kann auch das übliche Muster von OpenAI bei den Modellen beobachten:

  1. Zuerst veröffentlichen sie ein neues, leistungsstarkes Modell (in diesem Fall GPT-4o v1).
  2. Dann bringen sie das nächste Modell derselben Familie heraus, das wesentlich kostengünstiger ist.
  3. Schließlich verbessern sie das Modell weiter, sodass es leistungsfähiger wird, aber weiterhin zu niedrigeren Kosten betrieben werden kann.

Mehrere Qwen-Modelle von Alibaba

Qwen 2.5 Coder 32B Instruct ist ein neues Modell aus der Qwen-Familie. Es wird Sie zunächst enttäuschen, aber anschließend positiv überraschen.

Das Modell selbst kann über HuggingFace heruntergeladen und lokal auf Ihrer Hardware ausgeführt werden.

Der enttäuschende Teil: Dieses Coding-Modell hat in unserer Kategorie Code+Eng schlecht abgeschnitten. Es war zwar in der Lage, grundlegende Coding-Aufgaben zu bewältigen, scheiterte jedoch an komplexeren Herausforderungen wie Code-Review und Analyse. Zudem ist das allgemeine Reasoning-Niveau recht niedrig – nur 46.

Was würden Sie von einem Modell erwarten, das „Coder“ heißt? Tatsächlich ist dieses Modell im Bereich Coding ziemlich gut. Es hat im Coding-Benchmark für komplexe Text-to-SQL-Aufgaben genauso gut abgeschnitten wie Sonnet 3.5 (mehr dazu später).

Was macht dieses Modell also so besonders? Dieses coding-orientierte Modell stellt eine neue Qualitätsverbesserung für lokale Modelle dar, insbesondere in der Kategorie: „Es läuft auf A100/H100 GPUs!“

Übrigens ist es interessant zu bemerken, dass einige andere bedeutende Qualitätsverbesserungen, die den Stand der Technik für lokale Modelle vorangetrieben haben, ebenfalls von Qwen initiiert wurden.

Es ist auch interessant, dass der „o1-Killer“ von Qwen in unserem Benchmark nicht so gut abgeschnitten hat. Qwen: QwQ 32B Preview wurde entwickelt, um den Stand der Technik in den Reasoning-Fähigkeiten voranzutreiben. Laut einigen Benchmarks ist dies gelungen. Allerdings scheint es nicht für produktive Aufgaben und Geschäftsautomatisierung geeignet zu sein. Warum? Es redet zu viel und hält sich nicht an die Anweisungen.

Ein Beispiel:
Bei folgendem Prompt, der durch einige Beispiele verstärkt wurde:

„Extrahiere Produkteigenschaften aus dem bereitgestellten Text. Antworte im Format: ‚Zahl Einheit‘ oder ‚N/A‘, wenn dies nicht bestimmbar ist. Entferne Anführungszeichen, Tausendertrennzeichen und Kommentare.“

tendiert das Modell dazu, so zu beginnen:

„Okay, ich habe diesen Text über einen elektrischen Schraubendreher,...“

Selbst das kleine mistral-7b-instruct-f16 würde hingegen präzise etwas wie 1300 rpm antworten.

Das mag wie ein unfairer Vergleich zwischen QwQ und einem Top-Modell wie o1-preview erscheinen. o1 hat die Möglichkeit, vor seiner Antwort im Hintergrund zu „überlegen“ (es verwendet dafür Reasoning-Tokens).

Um die neuen Generationen von Reasoning-Modellen gerechter zu bewerten, werden wir in der nächsten großen Aktualisierung unseres Benchmarks einige Dinge ändern: Modelle dürfen vor ihrer Antwort „überlegen“. Modelle, die zu viel nachdenken, werden jedoch nativ durch ihre Kosten und die hohe Latenzzeit bestraft.

LLM Benchmark v2

Wir führen die aktuelle Version unseres Benchmarks nun seit fast anderthalb Jahren ohne größere Änderungen durch. Anpassungen wurden bewusst vermieden, um die Ergebnisse zwischen verschiedenen Modellen und Testläufen vergleichbar zu halten.

Seit Juli 2023 hat sich jedoch vieles in der Landschaft verändert:

  • Structured Outputs – ermöglichen es, präzise Antwortformate zu definieren und sogar benutzerdefinierte Chain-of-Thought-Prozesse für komplexe Aufgaben zu steuern.
  • Multimodale Sprachmodelle – können neben Texteingaben auch Bilder und Audio verarbeiten. Bildinputs werden beispielsweise intensiv bei der Dokumentenextraktion eingesetzt.
  • Prompt Caching – verändert die Perspektive beim Aufbau von RAG-Systemen, beim Abarbeiten komplexer Checklisten oder bei der Datenextraktion aus zahlreichen Dokumenten.
  • Neue Reasoning-Modelle – erlauben es, die Leistung von Modellen durch das Aufteilen komplexer Aufgaben in kleine Schritte voranzutreiben und dabei (kostenpflichtig) Zeit in ein durchdachtes Vorgehen zu investieren.

Zusätzlich haben wir tiefere Einblicke in den Aufbau von LLM-gestützten Systemen gewonnen und weitere Anwendungsfälle zu unserem KI-Portfolio hinzugefügt.

Es ist Zeit für einen umfassenden Neustart. Die Arbeit am TIMETOACT GROUP LLM Benchmark v2 hat bereits begonnen, und wir erwarten, den ersten Entwurf des Berichts Anfang nächsten Jahres zu veröffentlichen.

Der V2-Benchmark wird auf den Grundlagen von V1 aufbauen, sich aber stärker auf konkrete KI-Anwendungsfälle und neue Modellfähigkeiten konzentrieren. Auch können Sie sich auf mehr Diagramme freuen.

Gemini Experimental 1121 – Gut, aber schwer zugänglich

Gemini Experimental 1121 ist ein neues Prototyp-Modell von Google, das derzeit in Testumgebungen wie AI Studio oder OpenRouter verfügbar ist. Dieses Modell setzt zwar nicht den neuesten Stand der Technik für Gemini, bestätigt jedoch, dass Googles Präsenz in den TOP-10 kein Zufall ist. Es ist das dritte Gemini-Modell, das es in die TOP-10 geschafft hat.

Allerdings ist dieses Modell derzeit praktisch nicht nutzbar. Es wird zwar kostenlos angeboten, ist jedoch stark durch Rate Limits eingeschränkt. Es hat drei Tage und mehrere API-Schlüssel benötigt, um nur ein paar hundert Evaluierungen aus unserem Benchmark durchzuführen.

Text-to-SQL-Benchmark

Neo4j hat auf seiner NODES24-Konferenz ein Video veröffentlicht, in dem verschiedene LLMs hinsichtlich ihrer Leistung bei Text-to-SQL- und Text-to-Cypher-Aufgaben bewertet werden.

Ein Beispiel für eine Text-to-SQL-Aufgabe ist die Übersetzung einer menschlichen Anfrage in eine komplexe Abfrage gegen die SQL-Datenbank eines Unternehmens durch ein LLM. Dies wird häufig für Self-Service-Reporting eingesetzt. Text-to-Cypher funktioniert ähnlich, richtet sich jedoch an Graph-Datenbanken wie Neo4j.

Die Forschung und Präsentation wurde in Zusammenarbeit mit zwei Unternehmen der TIMETOACT GROUP durchgeführt: X-Integrate und TIMETOACT GROUP Österreich.

Die wichtigste Folie der Präsentation ist die unten gezeigte. Sie zeigt die Genauigkeit, mit der verschiedene LLMs Abfragen für eine komplexe Datenbank erstellt haben. Diese Datenbank enthielt Informationen über technische und organisatorische Abhängigkeiten im Unternehmen, die für das Risikomanagement genutzt wurden.

Die „Basic“-Scores zeigen die Ergebnisse ohne jegliche Performance-Optimierungen, während die „Full“-Scores eine Reihe von Optimierungen nutzen, um die Genauigkeit der Abfragegenerierung zu verbessern.

Mehr über diese Optimierungen (und den Benchmark) erfahren Sie in der Präsentation, die online auf YouTube verfügbar ist.

Einige dieser Text-to-Query-Aufgaben werden sogar in unseren kommenden LLM v2 Benchmark aufgenommen.

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Blog
Blog

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog
Blog

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Martin WarnungMartin WarnungBlog
Blog

Fehler in der Entwicklung von AI-Assistenten

Wie gut, dass es Fehler gibt: Denn aus ihnen können wir lernen und besser werden. Wir haben genau hingesehen, wie Unternehmen in den letzten Monaten weltweit AI-Assistenten implementiert haben, und haben sie, leider, vielfach beim Scheitern beobachtet. Wie es zum Scheitern kam und was man daraus für künftige Projekte lernen kann, das möchten wir mit Ihnen teilen: Damit AI-Assistenten in Zukunft erfolgreicher umgesetzt werden können!

Jörg EgretzbergerJörg EgretzbergerBlog
Blog

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten für Unternehmen sind ein Hype, und viele Teams arbeiteten bereits eifrig und voller Tatendrang an ihrer Implementierung. Leider konnten wir allerdings sehen, dass viele Teams, welche wir in Europa und den USA beobachten konnten, an der Aufgabe gescheitert sind. Wir bieten Ihnen 8 Tipps, damit Ihnen nicht dasselbe passiert.

Blog
Blog

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz hat sich von einem bloßen Schlagwort zu einem entscheidenden Werkzeug entwickelt, Business Value in Unternehmen zu generieren. Wir verfolgen einen achtstufigen Ansatz, um Unternehmen den Weg zur effektiven Nutzung von AI zu ermöglichen.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Microsoft Azure-Ressourcen automatisch skalieren

Im Blog stellen wir Ihnen Autoscale in Azure vor und zeigen, warum es sich lohnt, diese mit der automatischen Skalierung mit IBM Turbonomics zu kombinieren.

TIMETOACT
Marc BastienMarc BastienBlog
Header Blogbeitrag Artificial Intelligence
Blog

Artificial Intelligence (AI) mit Spurhalteassistent im Griff

Die Transparenz und Nachvollziehbarkeit von AI ist die größte Herausforderung für die Nutzung von AI. Im Zusammenhang mit fairer Beurteilung von Menschen oder menschlichem Verhalten sowieso. Im Zusammenhang mit anderen Daten würden wir konsequenterweise in absehbarer Zeit komplett den Durchblick über Zusammenhänge in den Daten verlieren, wenn wir der AI allein das Feld überließen.

Workshop
Workshop

KI Workshops für Unternehmen

Ob Grundlagen der KI, Prompt-Engineering oder Potenzial-Scouting: Unser vielfältiges KI-Workshop Angebot bietet für jeden Wunsch die passenden Inhalte.

TIMETOACT
Martin LangeMartin LangeBlog
Checkliste als Symbol für die verschiedenen To Dos im Bereich Lizenzmanagement
Blog

Lizenzmanagement fest im Griff - Das sollten Sie wissen!

Lizenzmanagement hat nicht nur Relevanz für das Thema Compliance, sondern kann auch Kosten und Risiken minimieren. Mehr dazu im Beitrag.

TIMETOACT
Blog
Blog

In 6 Schritten zur passenden Data Analytics-Lösung

Um Innovation im Unternehmen voranzutreiben, braucht es eine state-of-the-art Data Analytics-Lösung. Oftmals ist hier eine Modernisierung von Nöten. Erfahren Sie in sechs Schritten, wie Sie die für Sie passende Lösung finden!

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Amazon EC2: Performance richtig messen und optimieren!

Im Blog zeigen wir Ansätze zum Messen und Verwalten der Leistung von EC2-Instanzen. Zudem erfahren Sie, wie Sie mit IBM Turbonomic die Performance der darauf betriebenen Anwendungen optimieren.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

AWS Cloud: So optimieren Sie Ihre Kosten mit IBM Turbonomic!

Wir geben Ihnen einen Überblick über die verschiedenen Methoden des AWS-Cloud-Kostenmanagements.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Elastic Block Storage: Performance und Kosten optimieren

Wir geben Ihnen einen Überblick zu EBS. Und: zeigen Ihnen, wie IBM Turbonomic Sie bei Performance und Kosten unterstützt.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Azure Cloud: Kosten mit IBM Turbonomic optimieren!

Im Blog erfahren Sie, wie Sie Ihre Microsoft Azure Kosten senken und dabei die bestmögliche Performance sichern. Und: wie IBM Turbonomic dabei unterstützen kann.

TIMETOACT
Service
Service

Eventreihe: KI Governance

Die EU hat sich auf schärfere Regeln zur Nutzung von Künstlicher Intelligenz geeinigt. Ihre Auswirkungen und weitere wichtige Aspekte von "KI Governance" beleuchten wir in unserer Eventserie.

Blog
Blog

8 Tipps für ein erfolgreiches Automatisierungsprojekt

Was sind die Regeln, die man bei der Planung und Umsetzung eines Automatisierungsprojektes in Betracht ziehen soll? Und woran scheitert es?

TIMETOACT
Service
Service

KI Governance

Die EU hat sich auf schärfere Regeln zur Nutzung von Künstlicher Intelligenz geeinigt. Ihre Auswirkungen und weitere wichtige Aspekte von "KI Governance" erfahren Sie hier.

Branche
Branche

Künstliche Intelligenz im Treasury Management

Optimieren Sie Treasury-Prozesse durch KI: Automatisierte Berichte, Vorhersagen und Risikomanagement.

TIMETOACT
Referenz
Referenz

Interaktives Onlineportal identifiziert passende Mitarbeiter

TIMETOACT digitalisiert für KI.TEST mehrere Testverfahren zur Bestimmung der beruflichen Intelligenz und Persönlichkeit.

TIMETOACT
Referenz
Referenz

Managed Service Support für optimales Lizenzmanagement

Zur Sicherstellung der Software Compliance unterstützt TIMETOACT die FUNKE Mediengruppe im Rahmen eines SAM Managed Services für Microsoft, Adobe, Oracle und IBM.

TIMETOACT
Referenz
Referenz

TIMETOACT unterstützt KC Risk bei Benchmarking & Reporting

TIMETOACT unterstützte die KC Risk AG bei der Integration, Aufbereitung und Visualisierung ihrer Kundendaten. Alle Informationen stehen nun zentral zur Verfügung, sind per Knopfdruck abrufbar und Berechnungen erfolgen automatisiert.

TIMETOACT
Referenz
Referenz

IAV erreicht ISO/IEC 5230 Zertifizierung

IAV hat ihr Open Source Compliance Programm nach ISO/IEC 5230 zertifizieren lassen und damit die Transparenz im Umgang mit Open Source Software, insbesondere im Software-Entwicklungsprozess erhöht. Durch die Zertifizierung nach ISO/IEC 5230 kann IAV in Zukunft potenzielle Risiken im Umgang mit Open-Source-Software verringern. Darüber hinaus wird durch die Zertifizierung das Vertrauen von Kunden und Partnern in die Lieferkette erheblich gestärkt. Begleitet wurde das Zertifizierungsverfahren von der TIMETOACT GROUP. Die Softwareberatung unterstützte bei der Reifegradanalyse, der Nachverfolgung von Befunden und bei der finalen Auditierung und Zertifizierung durch ARS – einem Unternehmen der TIMETOACT GROUP.

TIMETOACT
Referenz
Referenz

Standardisiertes Datenmanagement bei TRUMPF

Die effiziente Verwaltung und zentrale, nachvollziehbare und qualitätsgesicherte Bereitstellung von Unternehmensdaten ist wichtiger denn je, um Entscheidungen zu treffen und die Datenverwendung zu optimieren – ganz besonders, wenn täglich bis zu 2 Terabyte an Daten bewegt werden. TIMETOACT implementiert für TRUMPF Photonic Components ein übergeordnetes Datenmodell in einem Data Warehouse und sorgt mit Talend für die notwendige Datenintegrationsanbindung und Katalogisierung. Mit diesem standardisierten Datenmanagement erhält TRUMPF künftig Reportings auf Basis verlässlicher Daten - mit der Option, Vorgehen und Modell zukünftig auch auf andere Fachabteilungen übertragen.

TIMETOACT
Marc BastienMarc BastienBlog
Blog

ESG-Tagebuch | Wissenstransfer & Kommunikation | Teil 2

In diesem Teil unseres ESG-Tagebuchs berichten wir wieder über die Implementierung der IBM Envizi ESG Suite bei einem Industriekunden. Lesen Sie diesmal, vor welchen aktuellen Herausforderungen, Frage- und Problemstellungen wir bei der Bestimmung und Dokumentation fachlicher Aspekte stehen.

TIMETOACT
Referenz
Referenz

Automatisierter Rechnungseingang bei Kapsch

TIMETOACT unterstützt Kapsch BusinessCom bei der Durchführung des automatisierten Rechnungseingangs durch den Einsatz einer umfassenden Dokumenten-Management- und Workflow-Lösung.

Referenz
Referenz

MAIN adaptiert automatisierte Rechnungseingangslösung

Um Zeit und Kosten bei der Rechnungsverarbeitung zu ersparen, setzt main auf eine umfassende Rechnungseingangslösung von TIMETOACT.

Referenz
Referenz

Automatisierte Eingangrechnungsverarbeitung mit JobRouter®

Schnelle Durchlaufzeiten und Ersparnisse im fünfstelligen Bereich durch automatisierten Rechnungsfreigabeprozess in der Buchhaltung bei der ISS.

Referenz
Referenz

Automatisierte Planung von Transportwegen

Effiziente Transportroutenplanung durch Automatisierung und einfache Integration.

Referenz
Referenz

Mit IBM FileNet zum modernen Dokumentenarchiv

Ein kompetenter Kundensupport ist einer der wichtigsten KPIs für Mobilanbieter. In dieser schnelllebigen Branche ist es eine Herausforderung, alle für einen Bestandsvertrag relevanten Dokumente schnell am Schirm zu haben, von AGBs über Zahlungsinformationen zu Vertragsanpassungen. TIMETOACT unterstützt einen frührenden Telekommunikationsanbieter bei der Archivmigration und Anbindung von modernen Applikationen an IBM FileNet P8 für das Handling von Millionen von Dokumenten.

Whitepaper
Whitepaper

Whitepaper: Eine Einführung ins API Management

Was genau sind APIs, welche Use Cases gibt es und wie können sie unterschiedliche Geschäftsziele unterstützen? Erfahren Sie in unserem kostenlosem Whitepaper.

TIMETOACT
Referenz
Referenz

Flexibilität bei der Datenauswertung eines Freizeitparks

Mit Unterstützung der TIMETOACT setzt ein Freizeitpark in Deutschland TM1 bereits seit vielen Jahren in unterschiedlichen Unternehmensbereichen ein, um einfach und flexibel Reportings-, Analyse- und Planungsprozesse durchzuführen.

TIMETOACT
Referenz
Referenz

Standardisiertes Datenmanagement schafft Basis für Reporting

TIMETOACT implementiert für TRUMPF Photonic Components ein übergeordnetes Datenmodell in einem Data Warehouse und sorgt mit Talend für die notwendige Datenintegrationsanbindung. Mit diesem standardisierten Datenmanagement erhält TRUMPF künftig Reportings auf Basis verlässlicher Daten und kann das Modell auch auf andere Fachabteilungen übertragen.

Blog
Blog

Stay productive, stay safe - unsere Homeoffice Tipps für Sie

die aktuelle Situation aufgrund der COVID-19 Pandemie stellt uns alle sowohl beruflich, als auch privat vor ungewöhnliche Herausforderungen.

Blog
Blog

The Future-Proof Business: API-Management

Die Aufzeichnung des zweiten Teiles unserer gemeinsam mit CROZ und Red Hat gehosteten Webinarreihe, "The Future-Proof Business" ist jetzt zum Nachsehen verfügbar!

Blog
Blog

The Future-Proof Business: Breaking The Monolith

Die Aufzeichnung unseres gemeinsam mit CROZ und Red Hat gehosteten Webinars ist jetzt zum Nachsehen verfügbar!

Blog
Blog

5+1 Technologien für Versicherer, um kompetitiv zu bleiben

Das Jahr 2020 hat viele Änderungen mit sich gebracht: fast jeder musste von Zuhause aus arbeiten und aufgrund der Coronavirus Pandemie mussten viele Unternehmen neue, in der Praxis bisher unbekannte Technologien einsetzen, um wettbewerbsfähig bleiben zu können. Viele haben in dieser neuen Realität mithalten können - aber noch mehr leider nicht. In Zeiten wie diesen sieht und versteht man den enormen Vorteil, den technologische Entwicklungen einem Unternehmen liefern können.

Blog
Blog

Was ist die Cloud? 3 Use Cases zur Cloud-Transformation

Cloud heißt heutzutage viel mehr, als der klassische Ansatz, in dem Daten und Applikationen in der Infrastruktur eines Public Cloud Anbieters bereitgestellt werden - aber was alles hinter dem Begriff steht, erfahren Sie in unserem Blogbeitrag.

Blog
Blog

Cloud-Native Architektur

Cloud Technologien haben auch in der Welt der Anwendungsentwicklung Änderungen mit sich gebracht - aber was steckt hinter dem Begriff "Cloud-Native"?

Blog
Blog

Was ist eine Hybrid-Multicloud Strategie?

Eine Hybrid-Cloud Strategie kann dabei helfen, Sicherheit für Ihre geschäftlichen Dokumente zu gewährleisten und dabei auch Kosten zu sparen. Aber wie, erfahren Sie hier.

Blog
Blog

Die Wahrheit über die Cloud - die häufigsten Fragen geklärt

In unserer neuesten Reihe, "Cloud-Myths Uncovered" beantworten wir Ihnen Woche für Woche die wichtigsten Fragen rund um diese Technologie und klären die häufigsten Missverständnisse, die die Cloud umgeben.