CHATGPT UND CO IM VERGLEICH

Die besten Sprachmodelle im Dezember 2024

Die LLM-Benchmarks der TIMETOACT GROUP präsentieren die leistungsstärksten KI-Sprachmodelle für die digitale Produktentwicklung. Entdecken Sie, welche Sprachmodelle im Dezember 2024 die besten Ergebnisse erzielt haben.

Wir benchmarken LLMs in Aufgaben zur Unternehmensintegration bereits seit anderthalb Jahren. Es erscheint nur passend, dass Ende 2024, genau zu dem Zeitpunkt, an dem wir Benchmark v2 planen, unsere alten Benchmarks übertroffen werden. Sie können vermutlich schon erraten, welches Modell den Sieg davontragen wird. Aber lassen wir uns nicht zu voreiligen Schlussfolgerungen hinreißen.

Benchmarking Llama 3.3, Amazon Nova – nichts Herausragendes
Google Gemini 1206, Gemini 2.0 Flash Experimental – TOP 10
DeepSeek v3
Manueller Benchmark von OpenAI o1 Pro – Goldstandard
Base o1 (mittlerer Aufwand für logisches Denken) – 3. Platz
Unsere Einschätzungen zu dem kürzlich angekündigten o3
Unsere Prognosen für die Landschaft der LLMs im Bereich Unternehmensintegration im Jahr 2025
Enterprise RAG Challenge r2 – findet am 27. Februar statt

LLM Benchmarks | Dezember 2024

Die Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz

Code

Kann das Modell Code generieren und bei der Programmierung helfen?

Cost

Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.

CRM

Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

Docs

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

Integrate

Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

Marketing

Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

Reason

Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

Speed

Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.

Preise nicht anzeigen

Modell	Code	Crm	Docs	Integrate	Marketing	Reason	Ergebnis	Kosten	Speed
1. GPT o1 pro (manual) ☁️	100	100	97	100	95	87	97	200.00 €	1.00 rps
2. GPT o1-preview v1/2024-09-12 ☁️	95	92	94	95	88	87	92	52.32 €	0.08 rps
3. GPT o1 v1/2024-12-17 ☁️	100	95	94	91	82	83	91	30.63 €	0.17 rps
4. GPT o1-mini v1/2024-09-12 ☁️	93	96	94	83	82	87	89	8.15 €	0.16 rps
5. GPT-4o v3/2024-11-20 ☁️	86	97	94	95	88	72	89	0.63 €	1.14 rps
6. GPT-4o v1/2024-05-13 ☁️	90	96	100	92	78	74	88	1.21 €	1.44 rps
7. Google Gemini 1.5 Pro v2 ☁️	86	97	94	99	78	74	88	1.00 €	1.18 rps
8. X-AI Grok 2 v2/1212 ⚠️	66	95	97	97	88	78	87	0.58 €	0.99 rps
9. GPT-4 Turbo v5/2024-04-09 ☁️	86	99	98	96	88	43	85	2.45 €	0.84 rps
10. Google Gemini 2.0 Flash Exp ☁️	63	96	100	100	82	62	84	0.03 €	0.85 rps
11. Google Gemini Exp 1121 ☁️	70	97	97	95	72	72	84	0.89 €	0.49 rps
12. GPT-4o v2/2024-08-06 ☁️	90	84	97	86	82	59	83	0.63 €	1.49 rps
13. Google Gemini 1.5 Pro 0801 ☁️	84	92	79	100	70	74	83	0.90 €	0.83 rps
14. Qwen 2.5 72B Instruct ⚠️	79	92	94	97	71	59	82	0.10 €	0.66 rps
15. Llama 3.1 405B Hermes 3🦙	68	93	89	98	88	53	81	0.54 €	0.49 rps
16. Claude 3.5 Sonnet v2 ☁️	82	97	93	84	71	57	81	0.95 €	0.09 rps
17. GPT-4 v1/0314 ☁️	90	88	98	73	88	45	80	7.04 €	1.31 rps
18. X-AI Grok 2 v1/1012 ⚠️	63	93	87	90	88	58	80	1.03 €	0.31 rps
19. GPT-4 v2/0613 ☁️	90	83	95	73	88	45	79	7.04 €	2.16 rps
20. DeepSeek v3 671B ⚠️	62	95	97	85	75	55	78	0.03 €	0.49 rps
21. GPT-4o Mini ☁️	63	87	80	73	100	65	78	0.04 €	1.46 rps
22. Claude 3.5 Sonnet v1 ☁️	72	83	89	87	80	58	78	0.94 €	0.09 rps
23. Claude 3 Opus ☁️	69	88	100	74	76	58	77	4.69 €	0.41 rps
24. Meta Llama3.1 405B Instruct🦙	81	93	92	75	75	48	77	2.39 €	1.16 rps
25. GPT-4 Turbo v4/0125-preview ☁️	66	97	100	83	75	43	77	2.45 €	0.84 rps
26. Google LearnLM 1.5 Pro Experimental ⚠️	48	97	85	96	64	72	77	0.31 €	0.83 rps
27. GPT-4 Turbo v3/1106-preview ☁️	66	75	98	73	88	60	76	2.46 €	0.68 rps
28. Google Gemini Exp 1206 ☁️	52	100	85	77	75	69	76	0.88 €	0.16 rps
29. Qwen 2.5 32B Coder Instruct ⚠️	43	94	98	98	76	46	76	0.05 €	0.82 rps
30. DeepSeek v2.5 236B ⚠️	57	80	91	80	88	57	75	0.03 €	0.42 rps
31. Meta Llama 3.1 70B Instruct f16🦙	74	89	90	75	75	48	75	1.79 €	0.90 rps
32. Google Gemini 1.5 Flash v2 ☁️	64	96	89	76	81	44	75	0.06 €	2.01 rps
33. Google Gemini 1.5 Pro 0409 ☁️	68	97	96	80	75	26	74	0.95 €	0.59 rps
34. Meta Llama 3 70B Instruct🦙	81	83	84	67	81	45	73	0.06 €	0.85 rps
35. GPT-3.5 v2/0613 ☁️	68	81	73	87	81	50	73	0.34 €	1.46 rps
36. Amazon Nova Lite ⚠️	67	78	74	94	62	62	73	0.02 €	2.19 rps
37. Mistral Large 123B v2/2407 ☁️	68	79	68	75	75	70	72	0.57 €	1.02 rps
38. Google Gemini Flash 1.5 8B ☁️	70	93	78	67	76	48	72	0.01 €	1.19 rps
39. Google Gemini 1.5 Pro 0514 ☁️	73	96	79	100	25	60	72	1.07 €	0.92 rps
40. Google Gemini 1.5 Flash 0514 ☁️	32	97	100	76	72	52	72	0.06 €	1.77 rps
41. Google Gemini 1.0 Pro ☁️	66	86	83	79	88	28	71	0.37 €	1.36 rps
42. Meta Llama 3.2 90B Vision🦙	74	84	87	77	71	32	71	0.23 €	1.10 rps
43. GPT-3.5 v3/1106 ☁️	68	70	71	81	78	58	71	0.24 €	2.33 rps
44. Claude 3.5 Haiku ☁️	52	80	72	75	75	68	70	0.32 €	1.24 rps
45. Meta Llama 3.3 70B Instruct🦙	74	78	74	77	71	46	70	0.10 €	0.71 rps
46. GPT-3.5 v4/0125 ☁️	63	87	71	77	78	43	70	0.12 €	1.43 rps
47. Cohere Command R+ ☁️	63	80	76	72	70	58	70	0.83 €	1.90 rps
48. Mistral Large 123B v3/2411 ☁️	68	75	64	76	82	51	70	0.56 €	0.66 rps
49. Qwen1.5 32B Chat f16 ⚠️	70	90	82	76	78	20	69	0.97 €	1.66 rps
50. Gemma 2 27B IT ⚠️	61	72	87	74	89	32	69	0.07 €	0.90 rps
51. Mistral 7B OpenChat-3.5 v3 0106 f16 ✅	68	87	67	74	88	25	68	0.32 €	3.39 rps
52. Meta Llama 3 8B Instruct f16🦙	79	62	68	70	80	41	67	0.32 €	3.33 rps
53. Gemma 7B OpenChat-3.5 v3 0106 f16 ✅	63	67	84	58	81	46	67	0.21 €	5.09 rps
54. GPT-3.5-instruct 0914 ☁️	47	92	69	69	88	33	66	0.35 €	2.15 rps
55. Amazon Nova Pro ⚠️	64	78	82	79	52	41	66	0.22 €	1.34 rps
56. GPT-3.5 v1/0301 ☁️	55	82	69	81	82	26	66	0.35 €	4.12 rps
57. Llama 3 8B OpenChat-3.6 20240522 f16 ✅	76	51	76	65	88	38	66	0.28 €	3.79 rps
58. Mistral 7B OpenChat-3.5 v1 f16 ✅	58	72	72	71	88	33	66	0.49 €	2.20 rps
59. Mistral 7B OpenChat-3.5 v2 1210 f16 ✅	63	73	72	66	88	30	65	0.32 €	3.40 rps
60. Qwen 2.5 7B Instruct ⚠️	48	77	80	68	69	47	65	0.07 €	1.25 rps
61. Starling 7B-alpha f16 ⚠️	58	66	67	73	88	34	64	0.58 €	1.85 rps
62. Mistral Nemo 12B v1/2407 ☁️	54	58	51	99	75	49	64	0.03 €	1.22 rps
63. Meta Llama 3.2 11B Vision🦙	70	71	65	70	71	36	64	0.04 €	1.49 rps
64. Llama 3 8B Hermes 2 Theta🦙	61	73	74	74	85	16	64	0.05 €	0.55 rps
65. Claude 3 Haiku ☁️	64	69	64	75	75	35	64	0.08 €	0.52 rps
66. Yi 1.5 34B Chat f16 ⚠️	47	78	70	74	86	26	64	1.18 €	1.37 rps
67. Liquid: LFM 40B MoE ⚠️	72	69	65	63	82	24	63	0.00 €	1.45 rps
68. Meta Llama 3.1 8B Instruct f16🦙	57	74	62	74	74	32	62	0.45 €	2.41 rps
69. Qwen2 7B Instruct f32 ⚠️	50	81	81	61	66	31	62	0.46 €	2.36 rps
70. Claude 3 Sonnet ☁️	72	41	74	74	78	28	61	0.95 €	0.85 rps
71. Mistral Small v3/2409 ☁️	43	75	71	74	75	26	61	0.06 €	0.81 rps
72. Mistral Pixtral 12B ✅	53	69	73	63	64	40	60	0.03 €	0.83 rps
73. Mixtral 8x22B API (Instruct) ☁️	53	62	62	97	75	7	59	0.17 €	3.12 rps
74. Anthropic Claude Instant v1.2 ☁️	58	75	65	77	65	16	59	2.10 €	1.49 rps
75. Codestral Mamba 7B v1 ✅	53	66	51	97	71	17	59	0.30 €	2.82 rps
76. Inflection 3 Productivity ⚠️	46	59	39	70	79	61	59	0.92 €	0.17 rps
77. Anthropic Claude v2.0 ☁️	63	52	55	67	84	34	59	2.19 €	0.40 rps
78. Cohere Command R ☁️	45	66	57	74	84	27	59	0.13 €	2.50 rps
79. Amazon Nova Micro ⚠️	58	68	64	71	59	31	59	0.01 €	2.41 rps
80. Qwen1.5 7B Chat f16 ⚠️	56	81	60	56	60	36	58	0.29 €	3.76 rps
81. Mistral Large v1/2402 ☁️	37	49	70	83	84	25	58	0.58 €	2.11 rps
82. Microsoft WizardLM 2 8x22B ⚠️	48	76	79	59	62	22	58	0.13 €	0.70 rps
83. Qwen1.5 14B Chat f16 ⚠️	50	58	51	72	84	22	56	0.36 €	3.03 rps
84. MistralAI Ministral 8B ✅	56	55	41	82	68	30	55	0.02 €	1.02 rps
85. Anthropic Claude v2.1 ☁️	29	58	59	78	75	32	55	2.25 €	0.35 rps
86. Mistral 7B OpenOrca f16 ☁️	54	57	76	36	78	27	55	0.41 €	2.65 rps
87. MistralAI Ministral 3B ✅	50	48	39	89	60	41	54	0.01 €	1.02 rps
88. Llama2 13B Vicuna-1.5 f16🦙	50	37	55	62	82	37	54	0.99 €	1.09 rps
89. Mistral 7B Instruct v0.1 f16 ☁️	34	71	69	63	62	23	54	0.75 €	1.43 rps
90. Meta Llama 3.2 3B🦙	52	71	66	71	44	14	53	0.01 €	1.25 rps
91. Google Recurrent Gemma 9B IT f16 ⚠️	58	27	71	64	56	23	50	0.89 €	1.21 rps
92. Codestral 22B v1 ✅	38	47	44	84	66	13	49	0.06 €	4.03 rps
93. Qwen: QwQ 32B Preview ⚠️	43	32	74	52	48	40	48	0.05 €	0.63 rps
94. Llama2 13B Hermes f16🦙	50	24	37	75	60	42	48	1.00 €	1.07 rps
95. IBM Granite 34B Code Instruct f16 ☁️	63	49	34	67	57	7	46	1.07 €	1.51 rps
96. Meta Llama 3.2 1B🦙	32	40	33	53	68	51	46	0.02 €	1.69 rps
97. Mistral Small v2/2402 ☁️	33	42	45	88	56	8	46	0.06 €	3.21 rps
98. Mistral Small v1/2312 (Mixtral) ☁️	10	67	63	65	56	8	45	0.06 €	2.21 rps
99. DBRX 132B Instruct ⚠️	43	39	43	74	59	10	45	0.26 €	1.31 rps
100. NVIDIA Llama 3.1 Nemotron 70B Instruct🦙	68	54	25	72	28	21	45	0.09 €	0.53 rps
101. Mistral Medium v1/2312 ☁️	41	43	44	59	62	12	44	0.81 €	0.35 rps
102. Microsoft WizardLM 2 7B ⚠️	53	34	42	66	53	13	43	0.02 €	0.89 rps
103. Llama2 13B Puffin f16🦙	37	15	44	67	56	39	43	4.70 €	0.23 rps
104. Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️	22	47	59	53	62	8	42	0.05 €	2.39 rps
105. Gemma 2 9B IT ⚠️	45	25	47	36	68	13	39	0.02 €	0.88 rps
106. Meta Llama2 13B chat f16🦙	22	38	17	65	75	6	37	0.75 €	1.44 rps
107. Mistral 7B Zephyr-β f16 ✅	37	34	46	62	29	4	35	0.46 €	2.34 rps
108. Meta Llama2 7B chat f16🦙	22	33	20	62	50	18	34	0.56 €	1.93 rps
109. Mistral 7B Notus-v1 f16 ⚠️	10	54	25	60	48	4	33	0.75 €	1.43 rps
110. Orca 2 13B f16 ⚠️	18	22	32	29	67	20	31	0.95 €	1.14 rps
111. Mistral 7B Instruct v0.2 f16 ☁️	11	30	54	25	58	8	31	0.96 €	1.12 rps
112. Mistral 7B v0.1 f16 ☁️	0	9	48	63	52	12	31	0.87 €	1.23 rps
113. Google Gemma 2B IT f16 ⚠️	33	28	16	47	15	20	27	0.30 €	3.54 rps
114. Microsoft Phi 3 Medium 4K Instruct 14B f16 ⚠️	5	34	30	32	47	8	26	0.82 €	1.32 rps
115. Orca 2 7B f16 ⚠️	22	0	26	26	52	4	22	0.78 €	1.38 rps
116. Google Gemma 7B IT f16 ⚠️	0	0	0	6	62	0	11	0.99 €	1.08 rps
117. Meta Llama2 7B f16🦙	0	5	22	3	28	2	10	0.95 €	1.13 rps
118. Yi 1.5 9B Chat f16 ⚠️	0	4	29	17	0	8	10	1.41 €	0.76 rps

Benchmarking Llama 3.3, Amazon Nova, Gemini 1206

Wir behandeln diese Modelle zusammen.

Meta Llama 3.3 70B Instruct – Platz 45.

Das Modell Llama 3.3 70B Instruct belegte zum Zeitpunkt seiner Veröffentlichung den 40. Platz. Seitdem wurden jedoch einige bessere Modelle vorgestellt, wodurch es weiter nach unten gerutscht ist. Dies ist ein typisches Muster: Wenn ein Unternehmen keine verbesserten Modelle veröffentlicht, wird es von der Konkurrenz schnell überholt.

Llama 3.3 70B verfügt über eine ordentliche Fähigkeit zur logischen Schlussfolgerung, knapp unterhalb von Llama 405B und dem älteren Llama 3.1 70B. Allerdings folgt es Anweisungen bei geschäftlichen Aufgaben nicht besonders gut – ein typisches Problem für Llama-Modelle. Normalerweise könnte dies durch gute Fine-Tunings behoben werden, doch der Markt beginnt zunehmend zu erkennen, dass der ROI von Fine-Tunings in der Praxis geringer ausfällt, als ursprünglich angenommen. Daher erwarten wir in absehbarer Zeit keine Veränderung seiner Platzierung.

Amazon Nova – enttäuschend
Amazon hat eigene Versionen von LLMs veröffentlicht: Amazon Nova Micro, Lite und Pro. Diese Modelle sind äußerst kostengünstig im Betrieb, aber leider auch weitgehend unbrauchbar, mit Platzierungen auf den Rängen 36, 55 und 79.

Gibt es dennoch einen Silberstreif am Horizont? Ja: Diese schwachen Modelle erreichen die Qualität von GPT-3.5, das seinerzeit als bahnbrechend galt. Die Modelle sind also nicht per se schlecht – der Fortschritt ist schlicht so rasant, dass wir die Maßstäbe immer schneller verschieben, ohne es wirklich zu bemerken.

Google Gemini Experimental 1206 und 2.0 Flash Experimental

Google Gemini Experimental 1206 – nicht so überzeugend

Das Modell Google Gemini Experimental belegte den 28. Platz, was deutlich schlechter ist als das leistungsstarke Google Gemini 1.5 Pro v2. Letzteres liefert hervorragende Ergebnisse, wenn man sich mit den typischen Google-Eigenheiten arrangieren kann.

Das ist jedoch akzeptabel, da 1206 nur ein experimentelles Modell und keine offizielle Veröffentlichung ist.

Bemerkenswert ist jedoch, dass es die Qualitätsstufe einiger Versionen von GPT-4 Turbo erreicht!

Google Gemini 2.0 Flash Experimental – ein spannenderes Modell

Das Modell Google Gemini 2.0 Flash Experimental ist zwar ebenfalls experimentell, hat es aber in die TOP 10 unseres Benchmarks geschafft!

Im Vergleich zur vorherigen Version Flash (Gemini 1.5 Flash) hat dieses experimentelle Modell seine Fähigkeiten im logischen Denken von 44 auf 62 verbessert und den Gesamtscore von 75 auf 84 gesteigert.

Besonders beeindruckend ist, dass Google Gemini 2.0 Flash großen Wert auf Anweisungen legt – ein entscheidender Faktor für Structured Output- und Custom Chain of Thought-Muster. Es hat als erstes Modell überhaupt eine perfekte 100-Punkte-Wertung in den Kategorien Docs und Integrate erreicht.

Google DeepMind über Google Gemini 2.0 Flash Experimental

Google DeepMind schreibt, dass das Modell für Automatisierung und agentische Erfahrungen entwickelt wurde – was auch immer das genau bedeuten mag. Es verfügt über einen beeindruckenden Input-Kontext von 1 Million Token.

Ein weiteres Highlight: Dieses Modell hat potenziell die niedrigsten Nutzungskosten unter den Top-19-Modellen. Das 20. Modell, DeepSeek v3 671B, ist ein weiterer Anwärter auf Kosteneffizienz.

„Potenziell“, da der Preis für Google Gemini 2.0 Flash aktuell noch nicht bekannt ist. Wir nehmen daher an, dass er ähnlich wie bei Flash 1.5 liegt.

Google überrascht uns weiterhin positiv, indem regelmäßig neue Modelle veröffentlicht werden, die es in die TOP 10 schaffen. Das hat jedoch den Nebeneffekt, dass ältere Favoriten wie Mistral und Anthropic etwas aus dem Rampenlicht gedrängt werden. Das bedeutet jedoch keineswegs, dass diese Modelle schlechter geworden sind – im Gegenteil: Die Vielfalt wächst, und wir haben mehr Auswahlmöglichkeiten als je zuvor!

DeepSeek v3

DeepSeek v3 ist ein kürzlich veröffentlichtes Mixture-of-Experts (MoE)-Sprachmodell mit insgesamt 671 Milliarden Parametern. Es wurde entwickelt, um besonders effizient in der Inferenz zu sein – für jeden Token werden lediglich 37 Milliarden Parameter aktiviert. Dies spiegelt sich in den niedrigen Betriebskosten des Modells wider.

Ein weiterer Vorteil: Das Modell ist lokal einsetzbar. Es kann heruntergeladen und auf eigenen Servern betrieben werden, vorausgesetzt, es stehen genügend GPUs zur Verfügung, um die Gewichte zu hosten.

DeepSeek v3 – Fortschritte und Herausforderungen

Verbesserte Leistungen:
DeepSeek v3 hat die Punktzahlen seines Vorgängers DeepSeek v2.5 (derzeit in den TOP 30) deutlich verbessert. Im Bereich Geschäftsautomatisierung (CRM-Kategorie) stieg die Punktzahl von 80 auf 97. Auch die Fähigkeit, Softwareentwicklungsaufgaben zu lösen, verbesserte sich von 57 auf 62. Dennoch bleibt das Modell hinter dem bewährten Sonnet 3.5 Claude v2 zurück, das hier eine Punktzahl von 82 erreicht.

Lokale Nutzung – nicht ohne Hürden:
Obwohl DeepSeek v3 nur 37 Milliarden Parameter pro Token aktiviert, macht dies den lokalen Einsatz nicht einfacher. Das Mixture-of-Experts (MoE)-Design sorgt zwar für eine schnellere Inferenz, senkt jedoch nicht die VRAM-Anforderungen. Um die Inferenz lokal auszuführen, wären etwa 8x H200 GPUs erforderlich, was das Modell für den lokalen Einsatz weniger geeignet macht.

Innovatives Training:
Eine bemerkenswerte Besonderheit von DeepSeek v3 ist die Einführung des FP8-Mixed-Precision-Training-Frameworks. Diese Methode ermöglicht es, neue LLM-Modelle schneller, kostengünstiger und mit geringeren VRAM-Anforderungen zu trainieren. Zudem könnte diese Technik eine bessere Out-of-the-Box-Quantisierung bei der Inferenz ermöglichen.

Es bleibt abzuwarten, ob dieser Ansatz dazu beitragen wird, kleinere und leistungsstarke lokale Modelle effizienter zu entwickeln.

Manueller Benchmark von OpenAI o1 Pro – Der Goldstandard

Lassen Sie uns zum Helden dieses LLM-Benchmarks kommen: o1 pro von OpenAI. Vorab jedoch ein wichtiger Hinweis: Es gibt 6 verschiedene Varianten des OpenAI o1-Modells, die leicht verwechselt werden können:

o1-mini: Das kleinste und günstigste Modell für logisches Denken. Verfügbar sowohl in der ChatGPT-Benutzeroberfläche als auch über die API.
o1-preview: Eine sehr leistungsfähige Version, die früher in der ChatGPT-Benutzeroberfläche verfügbar war. Diese wurde durch o1 base ersetzt, ist aber weiterhin direkt über die API verfügbar.
o1: Dieses Modell ersetzt o1-preview in der ChatGPT-Benutzeroberfläche. Es hat standardmäßig eine eingeschränktere logische Denkfähigkeit in der UI, ist aber mit höheren Konfigurationen leistungsfähiger. Über die API ist o1 nur für Tier-5-Konten verfügbar und bietet drei Konfigurationen für logisches Denken: hoch, mittel und niedrig.
o1-pro: Das leistungsstärkste Modell. Es ist in der ChatGPT-Benutzeroberfläche für 200 $ pro Monat verfügbar, jedoch noch nicht über die API zugänglich.

Zusätzlich gibt es also 4 Hauptversionen des o1-Modells sowie 2 zusätzliche Konfigurationen (hoch und niedrig) für das Modell o1.

Fokus auf o1 pro

Dieser Abschnitt konzentriert sich ausschließlich auf o1 pro, das als Ausnahme nicht über die API getestet wurde, da es dort noch nicht verfügbar ist. Stattdessen wurden die Tests manuell über die ChatGPT-Benutzeroberfläche durchgeführt.

Vorgehen beim Benchmark

Auswahl der Aufgaben:
Die Ergebnisse des Benchmarks von o1-mini wurden als Basis verwendet. Nur die Aufgaben, bei denen o1-mini Fehler gemacht hatte, wurden erneut getestet. Da o1 pro deutlich leistungsfähiger ist, wurde angenommen, dass es Aufgaben, die o1-mini korrekt gelöst hat, ebenfalls richtig beantworten würde. So musste nur ein Bruchteil des Benchmarks manuell durchgeführt werden.
Einstellungen:
- Benutzerdefinierte Anweisungen wurden in der ChatGPT-Benutzeroberfläche deaktiviert.
- Lokaler Speicher war ebenfalls deaktiviert.
- Benchmark-Anfragen im API-Format wurden in ein Textformat umgewandelt und manuell durch Copy-Paste ausgeführt.

Erste Herausforderungen

Während des Tests traten einige unerwartete Probleme auf:

Formatierungsprobleme:
o1 pro ist tief in die ChatGPT-Benutzeroberfläche integriert, die auf Benutzerfreundlichkeit ausgelegt ist. Wenn beispielsweise eine Aufgabe eine YAML-Antwort erfordert, wird diese als Markdown formatiert, wodurch die Antwort unbrauchbar wird. Solche Antworten mussten manuell korrigiert werden.
Few-Shot-Beispiele:
Historisch wurden Few-Shot-Beispiele in folgendem Format strukturiert:
(Das Format der Few-Shot-Beispiele wird im nächsten Schritt beschrieben.)

System: Task explanation
User: sample request 1
Assistant: sample response 1
User: sample request 2
Assistant: sample response 2 
User: real request

Wir können in der ChatGPT-Benutzeroberfläche kein rollenbasiertes Prompting durchführen. Außerdem ist der System-Prompt in den o1-Modellen nicht zugänglich, um zu verhindern, dass Reasoning-Tokens zu den Endnutzern gelangen (diese werden von den Modellen ohne Alignment und Sicherheitsmechanismen generiert). Das Modell ist nicht nur darauf ausgelegt, seinen System-Prompt zu schützen (in der neuesten Dokumentation auch als Platform-Prompt bezeichnet), sondern versucht auch, über den Dialog mit dem Nutzer zu arbeiten.

Dies führte zu einem interessanten Ergebnis: Das Modell gab den Systemanweisungen eine geringere Priorität und versuchte, Muster aus früheren Gesprächen mit dem Nutzer zu finden. Gelegentlich gelang ihm das, es kam jedoch zu falschen Schlussfolgerungen, was zu niedrigen Integrate-Scores führte.

Daher mussten wir beginnen, die Aufgaben für o1 pro wie folgt zu formatieren:

# Task
Task explanation
## Example
User: sample request 1
Assistant: sample response 1
## Example
User: sample request 2
Assistant: sample response 2
# Request
real request

Damit gesagt, wie fielen die Ergebnisse aus?

o1 pro erreichte die absolute Spitze unseres Benchmarks mit einem nahezu perfekten Score von 97 (die verbleibenden 3 Punkte sind auf mehrdeutige Aufgaben in unserem Benchmark zurückzuführen).

In unserem Benchmark, der die Fähigkeiten von LLM-Modellen in Aufgaben der Geschäftsautomatisierung misst, ist o1 pro wie ein Goldbarren: perfekt und teuer. Es ist überdimensioniert für viele Anforderungen.

Wie immer sind dies gute Nachrichten aus zwei Gründen:

Wir haben einen Punkt erreicht, an dem LLMs alle Aufgaben in unseren Geschäftsautomatisierungs-Herausforderungen (von vor 18 Monaten) problemlos lösen können. Jetzt müssen wir nur auf vergleichbare Modelle warten, die kostengünstiger im Betrieb sind.
Während wir die zweite Version des LLM-Benchmarks entwickeln, können wir die aktuellen Fähigkeiten von o1 pro im Blick behalten und neue Aufgaben formulieren, die selbst dieses Modell herausfordern. Dadurch wird die Komplexitätskurve der Bewertung glatter, und der gesamte Benchmark wird repräsentativer für die Anforderungen der Geschäftsautomatisierung.

Benchmark von o1 (base) – 🥉TOP-3

Erinnern Sie sich an den Hinweis zu den verschiedenen Varianten der o1-Modelle oben?

Dieser Benchmark konzentriert sich auf das o1 (base)-Modell, das über die API mit einem reasoning_effort von medium getestet wurde. Es handelt sich dabei nicht zwangsläufig um die gleiche Modellkonfiguration wie die, die über die ChatGPT-Benutzeroberfläche verfügbar ist.

Unterschiede in der Konfiguration

Die Abweichungen liegen nicht nur in den unterschiedlichen Rechenbeschränkungen, sondern auch in einer neuen Befehlskette (den sogenannten rules of robotics, implementiert von OpenAI für die Reasoning-Modelle):
Platform > Developer > User > Tool.

Testergebnisse

Das o1 base-Modell wurde automatisch über die API getestet, wie die meisten anderen Modelle (mit Ausnahme von o1 pro). Es erreichte den 3. Platz im Benchmark – leicht besser als o1-mini, aber etwas schlechter als o1-preview.

reasoning_effort: medium (Standardwert)
max_tokens: 25.000 (gemäß der Empfehlung von OpenAI)

Interessanterweise belegt o1 base sowohl bei den Fähigkeiten als auch bei den Kosten den 3. Platz. Das ergibt eine faszinierende Kurve: An der Spitze ist die Fähigkeit zu logischem Denken eine Funktion der Kosten.

o1-preview schneidet besser ab als o1 base, da es mehr Tokens generiert – und das Ergebnis dadurch insgesamt besser ist.
o1 pro denkt generell tiefer und gründlicher, was seine Spitzenleistung erklärt.

Dieser Verlauf unterstützt auch jüngste Forschungsergebnisse von Hugging Face zum Thema Scaling Test-time Compute. Dabei geht es darum, die Qualität eines 3B-Modells durch erhöhten Aufwand beim logischen Denken (und bei der Generierung möglicher Antworten) auf das Niveau eines 70B-Modells zu heben.

Wir können wahrscheinlich damit rechnen, dass immer mehr LLM-Anbieter "intelligentere" Modelle gegen einen Aufpreis anbieten werden (man bezahlt für die Reasoning-Tokens). Gleichzeitig könnten sich neue Wege entwickeln, intensive logische Schlussfolgerungen auch lokal durchzuführen – ähnlich wie bei der lokalen Generierung strukturierter Outputs.

Was ist mit dem kürzlich angekündigten o3?

OpenAI hat kürzlich sein neues Modell o3 vorgestellt, das Aufgaben aus dem ARC-AGI-Datensatz außergewöhnlich gut löst.

Warum gibt es o1 und o3, aber kein o2?

Ein Namenskonflikt mit dem Telekommunikationsunternehmen O2 könnte der Grund sein.

Was ist ARC-AGI?

Der ARC-AGI-Datensatz enthält Herausforderungen, die darauf abzielen, menschliche Intelligenz mit maschineller Intelligenz zu vergleichen. Die offizielle Website behauptet, dass das Lösen des ARC-AGI-Datensatzes sogar eine größere Errungenschaft wäre als die Erfindung der Transformer-Architektur.

Um eine Aufgabe aus dem ARC-AGI-Datensatz zu lösen, muss eine Maschine die Regeln erkennen und eine pixelgenaue Antwort erstellen.

Die Leistung von o3 – ein neuer Maßstab?

Laut Berichten konnte o3 nahezu alle Aufgaben aus dem ARC-AGI-Datensatz lösen – etwas, das bisher als unmöglich galt.

Damit ist o3 theoretisch das beste LLM-Modell. Dennoch gehen wir davon aus, dass es in absehbarer Zeit keinen spürbaren Einfluss auf Geschäftsautomatisierungsaufgaben in Unternehmen haben wird. Der Knackpunkt: die Kosten.

Ein Blick auf das Diagramm aus der ARC-AGI-Ankündigung zeigt die Leistung verschiedener Modelle im Verhältnis zu den Kosten, die für das Lösen einer einzelnen Aufgabe anfallen. Dieses Verhältnis verdeutlicht, warum Modelle wie o3 aktuell für Unternehmen nur schwer umsetzbar sind: Die Kosten sind signifikant höher als bei bestehenden, bereits leistungsstarken Modellen.

Kostenfrage und Nutzen von o3

Die Kostenskala ist logarithmisch, und die Kosten für die Lösung einer einzigen Aufgabe mit o3 HIGH (Tuned) belaufen sich auf etwa 3200 USD pro pixelgenaue Antwort.

Wir haben bereits erwähnt, dass o1 der Goldstandard für Geschäftsautomatisierung ist – perfekt, aber oft zu teuer für den praktischen Einsatz. o3 geht noch einen Schritt weiter und setzt neue Maßstäbe, ist jedoch weit außerhalb der Reichweite für viele Anwendungsfälle.

Die Einführung von LLM-Modellen gelingt vor allem dort, wo der Automatisierungsgewinn groß ist. Der geschäftliche Mehrwert wird aktuell in alltäglichen, leicht überprüfbaren Aufgaben erzielt, bei denen LLMs kostengünstiger, geduldiger und präziser sind als Menschen. Beispiele dafür sind:

Datenextraktion aus Dokumenten
Kategorisierung von Anfragen
Code-Generierung
Überprüfung von Standardverträgen

Das Problem bei o3 liegt in seiner Kosten-Effizienz. Es ist bei weitem nicht billig, daher wird es keinen großen Einfluss auf alltägliche Geschäftsautomatisierung haben.

Trotz seiner begrenzten unmittelbaren Nutzbarkeit könnte o3 einen wichtigen Beitrag leisten:

Verbesserung der Modellqualität anderer LLMs, etwa durch die Generierung hochwertiger synthetischer Daten, die für das Training verwendet werden könnten.

Dieser Fortschritt könnte langfristig die Kosten senken und die Effizienz der nächsten Generation von Modellen steigern.

Unsere Prognosen für 2025

Das sind unsere Vorhersagen, basierend auf den Mustern, die wir in unseren KI-Projekten beobachtet haben.

Der Hype um das Fine-Tuning von LLMs wird abflauen

Das Fine-Tuning von LLMs wurde häufig als Methode erwähnt, um „ein LLM mit Ihren Unternehmensdaten zu trainieren“ oder „LLM neue Fähigkeiten beizubringen“. Selbst OpenAI bietet Fine-Tuning als Dienstleistung an.

In der Theorie klingt alles ganz einfach: Man gibt dem LLM viele Dokumente, und es „lernt“ daraus. In der Praxis zeigt sich jedoch oft das Gegenteil: Statt einer besseren Genauigkeit enden viele Teams mit Modellen, die deutlich mehr Halluzinationen erzeugen. Meist wird die Komplexität der Datenaufbereitung und des Trainingsprozesses unterschätzt.

Unter unseren KI-Projekten gab es nur ein einziges erfolgreiches Fine-Tuning eines LLMs (Embedding-Modelle sind hier nicht mitgezählt). Dieses Projekt verfügte über eine große Menge sorgfältig vorbereiteter Daten und benötigte dennoch zahlreiche Iterationen.

Wir gehen davon aus, dass Unternehmen und Softwaredienstleister/-anbieter im Jahr 2025 die tatsächliche Komplexität und die Kosten des Fine-Tunings von LLMs zunehmend erkennen werden. Gleichzeitig werden sie den Mehrwert eines guten, vortrainierten LLMs „out of the box“ schätzen lernen – insbesondere, wenn leistungsstarke Inferenzmethoden wie strukturierte Outputs und benutzerdefinierte Chain-of-Thought-Ansätze genutzt werden.

Der Hype um autonome Agenten wird nachlassen

Wir behaupten nicht, dass autonome Agenten unmöglich sind. Mit ausreichend Aufwand ist es durchaus möglich, ein solches System zu realisieren.

Allerdings ist das Konzept eines autonomen Agenten wenig praktikabel. Es ist extrem komplex, ein solches Produkt zu entwerfen, zu entwickeln und zu integrieren, während gleichzeitig eine vorhersehbare Qualität sichergestellt wird.

Hier möchten wir einen Punkt betonen: Agenten sind technisch gesehen nicht besonders komplex. Im Kern handelt es sich nur um eine Reihe von Prompts, die Kontrolle und Kontext aneinander weitergeben und dabei externe Tools nutzen. Dennoch ist es aufgrund der Struktur des Produkts schwierig, einen kosteneffizienten Prozess für die Erstellung vertrauenswürdiger agentenbasierter Lösungen zu etablieren. In der Praxis scheitern viele Projekte daran, dass Budgets ausgeschöpft sind, bevor die Systeme fehlerfrei funktionieren.

Im Jahr 2025 werden Anbieter weiterhin über Agenten sprechen und „unternehmensfertige Agenten-Frameworks“ verkaufen (sie müssen ihre Investitionen amortisieren). Dennoch glauben wir, dass der Hype langsam abnehmen wird.

Wird es 2025 eine AGI geben? Und was ist mit LLM-Trends?

Es wird 2025 keine AGI (Artificial General Intelligence) geben. AGI ist eine noch schwierigere Herausforderung, insbesondere da wir immer besser darin werden, die Anforderungen an „was eine AGI ist“ zu verschieben. Wie die Schöpfer von ARC-AGI schreiben: „Man wird wissen, dass AGI erreicht ist, wenn es unmöglich wird, Aufgaben zu erstellen, die für Menschen leicht, aber für KI schwierig sind.“ Und selbst sie arbeiten erst an Version 2 ihres Benchmarks.

Dennoch werden viele Unternehmen weiterhin versuchen, mit OpenAI um den Titel des intelligentesten Modells zu konkurrieren. Es besteht sogar die Möglichkeit, dass Google OpenAI schließlich vom Thron stoßen wird.

Betrachten Sie nur die Qualitätstrends der Modelle im Jahr 2024 (von verschiedenen Anbietern und in unterschiedlichen Preiskategorien):

Ein neuer Ansatz zur Verbesserung des Modell-Denkvermögens

Wir gehen davon aus, dass mehr KI-Anbieter in Zukunft ähnliche Denkfähigkeiten wie o1-Modelle bereitstellen werden. Dies wird ein temporärer Workaround sein, um die Modellgenauigkeit schnell und ohne große Investitionen zu steigern: einfach mehr Rechenleistung einsetzen, das Modell vor der Antwort länger „nachdenken“ lassen und höhere API-Gebühren verlangen.

Wir glauben jedoch auch, dass der kommende Hype um „intelligente Denkmodelle“, die extrem teuer sind, ebenfalls nachlassen wird. Es ist schlicht nicht besonders praktikabel.

Mehr erweiterte Funktionen in LLMs erwartet

Wir erwarten, dass KI-Anbieter beginnen werden, fortschrittlichere Funktionen in ihre LLMs zu integrieren. Während große Kontexte und Prompt Caching mittlerweile Standard sind (was dedizierte RAG-Lösungen in vielen Fällen überflüssig macht), gibt es immer noch mächtige Funktionen, die bislang nicht weit verbreitet sind:

Strukturierte Outputs (Constrained Decoding):
Ein effektiver Ansatz zur Verbesserung der Qualität von LLM-Antworten in komplexen Szenarien, insbesondere in Kombination mit benutzerdefinierten Chain-of-Thoughts. Derzeit bietet nur OpenAI eine brauchbare Implementierung an. Google hinkt noch hinterher mit seiner begrenzt nutzbaren kontrollierten Generierung, die auf dem VertexAI API-Format basiert.
Dokumentenverständnis mit VLMs:
Moderne LLMs sind nicht mehr ausschließlich textbasiert; sie können auch Bilder oder Audio verarbeiten. Dadurch wird die Bearbeitung komplexer Dokumente mit Tabellen und Diagrammen möglich. Anthropic bietet bereits eine Variante dieser Fähigkeit an, indem Dokumente sowohl als Text als auch als Bild an das Modell Sonnet 3.5 gesendet werden, das als Vision-Language-Modell (VLM) agiert.
Native Integration von LLMs mit anderen Tools:
Ähnlich wie OpenAI mit seinen Assistant APIs, die es LLMs ermöglichen, lokale RAGs und eine Code-Ausführungs-Sandbox zu nutzen. Auch Anthropic arbeitet an der Einführung eines Modells namens Model Context Protocol, einem Standard zur Verbindung von LLMs mit Datenquellen und externen Tools, inspiriert vom Language Server Protocol.

Ein Konkurrenzkampf ähnlich den „Browser-Kriegen“

Wir erwarten, dass KI-Anbieter versuchen werden, ihre LLM-APIs durch einzigartige Funktionen attraktiver zu machen. Es wird dabei sowohl zu Standardisierungen kommen (z. B. testet Google derzeit den Zugriff auf VertexAI über OpenAI-Bibliotheken) als auch zu Inkompatibilitäten (z. B. unterschiedliche Implementierungen von Prompt Caching bei Google, OpenAI und Anthropic).

Die gesamte Situation wird an die „Browser-Kriege“ erinnern. Schließlich werden sich Standards herausbilden, doch bis dahin ist mit vielen Eigenheiten, häufigen Migrationsproblemen und sich weiterentwickelnden Funktionen zu rechnen.

Blick auf größere Muster zur Risikominderung

Glücklicherweise lassen sich über einzelne Anbieter hinaus größere Muster im Markt erkennen. Indem wir uns auf generische Trends des KI-Marktes konzentrieren, können wir das Risiko kostspieliger Fehlentscheidungen minimieren und vermeiden, in Sackgassen zu geraten.

Die Enterprise RAG Challenge ist ein freundlicher Wettbewerb, bei dem wir vergleichen, wie unterschiedliche RAG-Architekturen Fragen zu Geschäftsdokumenten beantworten.

Die erste Runde dieses Wettbewerbs fand letzten Sommer statt – mit beeindruckenden Ergebnissen. Bereits mit nur 16 teilnehmenden Teams konnten wir verschiedene RAG-Architekturen vergleichen und das Potenzial strukturierter Outputs für geschäftliche Aufgaben entdecken.

Die zweite Runde ist für den 27. Februar geplant. Merken Sie sich den Termin vor!

Zur Enterprise RAG Challenge

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

Vorname

Nachname *

Unternehmen *

E-Mail *

Telefonnummer

Ihre Nachricht *

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Martin Warnung

Sales Consultant TIMETOACT GROUP Österreich GmbH +43 664 881 788 80

Kontakt

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 01.10.24

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Insights 17.03.25

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Februar 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.04.24

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Welche LLM-Modelle meistern Ihre Herausforderungen am besten? Werfen Sie einen Blick auf die Ergebnisse und finden Sie Ihr ideales Sprachmodell!

Wissen 30.07.24

LLM-Benchmarks Juli 2024

Unser LLM Leaderboard aus Juli 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.08.24

LLM-Benchmarks August 2024

Anstelle unserer allgemeinen LLM Benchmarks, präsentieren wir Ihnen im August den ersten Benchmark verschiedener KI-Architekturen.

Blog 16.05.24

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz ist längst mehr als ein Schlagwort – sie schafft echten Business Value. Mit unserem achtstufigen Ansatz unterstützen wir Unternehmen auf dem Weg zur erfolgreichen AI-Nutzung.

Blog 16.05.24

Fehler in der Entwicklung von AI-Assistenten

Erfolgreiche AI-Assistenten starten mit den richtigen Learnings: Erfahren Sie, warum viele Unternehmen scheitern und wie Sie typische Fehler vermeiden – für eine optimale Umsetzung Ihrer AI-Projekte!

Blog 17.05.24

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten sind ein Hype, und viele Teams arbeiten mit Begeisterung an ihrer Umsetzung. Doch in Europa und den USA scheitern viele an dieser Herausforderung. Damit Ihnen das nicht passiert, haben

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.

Blog 19.02.25

Knowledge Graphs: vernetzte Daten als Innovationsmotor

Erfahren Sie, wie Knowledge Graphs Datensilos auflösen, Echtzeit-Analysen ermöglichen und AI-basierte Entscheidungen optimieren können.

Workshop

KI Workshops für Unternehmen

Ob Grundlagen der KI, Prompt-Engineering oder Potenzial-Scouting: Unser vielfältiges KI-Workshop Angebot bietet für jeden Wunsch die passenden Inhalte.

Insights

Team-Leaderboard der Enterprise RAG Challenge

Das Team-Leaderboard fasst alle eingereichten Beiträge zusammen – auch jene, die nach Bekanntgabe der Ground Truth eingereicht wurden. Daher betrachten wir diese Rangliste als inoffizielle Übersicht.

Insights

IBM watsonx Leaderboard der Enterprise RAG Challenge

Insights

LLM Benchmarks März 2025

Was gibt’s Neues in der Welt der LLMs? Finden Sie es heraus – und lesen Sie, warum Google DeepMind uns im vergangenen Monat gleich mehrfach überrascht hat.

Die besten Sprachmodelle im Dezember 2024

LLM Benchmarks | Dezember 2024

Benchmarking Llama 3.3, Amazon Nova, Gemini 1206

Meta Llama 3.3 70B Instruct – Platz 45.

Google Gemini Experimental 1206 und 2.0 Flash Experimental

Google DeepMind über Google Gemini 2.0 Flash Experimental

DeepSeek v3

DeepSeek v3 – Fortschritte und Herausforderungen

Fokus auf o1 pro

Vorgehen beim Benchmark

Erste Herausforderungen

Unterschiede in der Konfiguration

Testergebnisse

Warum gibt es o1 und o3, aber kein o2?

Was ist ARC-AGI?

Kostenfrage und Nutzen von o3

Unsere Prognosen für 2025

Der Hype um das Fine-Tuning von LLMs wird abflauen

Der Hype um autonome Agenten wird nachlassen

Wird es 2025 eine AGI geben? Und was ist mit LLM-Trends?

Ein neuer Ansatz zur Verbesserung des Modell-Denkvermögens

Mehr erweiterte Funktionen in LLMs erwartet

Ein Konkurrenzkampf ähnlich den „Browser-Kriegen“

Blick auf größere Muster zur Risikominderung

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Erfahren Sie mehr

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

ChatGPT & Co: November-Benchmarks für Sprachmodelle

ChatGPT & Co: September-Benchmarks für Sprachmodelle

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

GPT & Co: Die besten Sprachmodelle für digitale Produkte

LLM-Benchmarks Juli 2024

LLM-Benchmarks Juni 2024

LLM-Benchmarks Mai 2024

LLM-Benchmarks April 2024

LLM-Benchmarks August 2024

In 8 Schritten zu AI-Innovationen im Unternehmen

Fehler in der Entwicklung von AI-Assistenten

8 Tipps zur Entwicklung von AI-Assistenten

Die Zukunft der KI: Enterprise RAG Challenge

Knowledge Graphs: vernetzte Daten als Innovationsmotor

KI Workshops für Unternehmen

Team-Leaderboard der Enterprise RAG Challenge

IBM watsonx Leaderboard der Enterprise RAG Challenge

LLM Benchmarks März 2025