CHATGPT UND CO IM VERGLEICH

Die besten Sprachmodelle im Dezember 2024

Die LLM-Benchmarks der TIMETOACT GROUP präsentieren die leistungsstärksten KI-Sprachmodelle für die digitale Produktentwicklung. Entdecken Sie, welche Sprachmodelle im Dezember 2024 die besten Ergebnisse erzielt haben.

Wir benchmarken LLMs in Aufgaben zur Unternehmensintegration bereits seit anderthalb Jahren. Es erscheint nur passend, dass Ende 2024, genau zu dem Zeitpunkt, an dem wir Benchmark v2 planen, unsere alten Benchmarks übertroffen werden. Sie können vermutlich schon erraten, welches Modell den Sieg davontragen wird. Aber lassen wir uns nicht zu voreiligen Schlussfolgerungen hinreißen.

  • Benchmarking Llama 3.3, Amazon Nova – nichts Herausragendes
  • Google Gemini 1206, Gemini 2.0 Flash Experimental – TOP 10
  • DeepSeek v3
  • Manueller Benchmark von OpenAI o1 Pro – Goldstandard
  • Base o1 (mittlerer Aufwand für logisches Denken) – 3. Platz
  • Unsere Einschätzungen zu dem kürzlich angekündigten o3
  • Unsere Prognosen für die Landschaft der LLMs im Bereich Unternehmensintegration im Jahr 2025
  • Enterprise RAG Challenge r2 – findet am 27. Februar statt

LLM Benchmarks | Dezember 2024

Die Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz

Kann das Modell Code generieren und bei der Programmierung helfen?

Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.

Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.

ModellCodeCrmDocsIntegrateMarketingReasonErgebnisKostenSpeed
1. GPT o1 pro (manual) ☁️10010097100958797200.00 €1.00 rps
2. GPT o1-preview v1/2024-09-12 ☁️9592949588879252.32 €0.08 rps
3. GPT o1 v1/2024-12-17 ☁️10095949182839130.63 €0.17 rps
4. GPT o1-mini v1/2024-09-12 ☁️939694838287898.15 €0.16 rps
5. GPT-4o v3/2024-11-20 ☁️869794958872890.63 €1.14 rps
6. GPT-4o v1/2024-05-13 ☁️9096100927874881.21 €1.44 rps
7. Google Gemini 1.5 Pro v2 ☁️869794997874881.00 €1.18 rps
8. X-AI Grok 2 v2/1212 ⚠️669597978878870.58 €0.99 rps
9. GPT-4 Turbo v5/2024-04-09 ☁️869998968843852.45 €0.84 rps
10. Google Gemini 2.0 Flash Exp ☁️63961001008262840.03 €0.85 rps
11. Google Gemini Exp 1121 ☁️709797957272840.89 €0.49 rps
12. GPT-4o v2/2024-08-06 ☁️908497868259830.63 €1.49 rps
13. Google Gemini 1.5 Pro 0801 ☁️8492791007074830.90 €0.83 rps
14. Qwen 2.5 72B Instruct ⚠️799294977159820.10 €0.66 rps
15. Llama 3.1 405B Hermes 3🦙689389988853810.54 €0.49 rps
16. Claude 3.5 Sonnet v2 ☁️829793847157810.95 €0.09 rps
17. GPT-4 v1/0314 ☁️908898738845807.04 €1.31 rps
18. X-AI Grok 2 v1/1012 ⚠️639387908858801.03 €0.31 rps
19. GPT-4 v2/0613 ☁️908395738845797.04 €2.16 rps
20. DeepSeek v3 671B ⚠️629597857555780.03 €0.49 rps
21. GPT-4o Mini ☁️6387807310065780.04 €1.46 rps
22. Claude 3.5 Sonnet v1 ☁️728389878058780.94 €0.09 rps
23. Claude 3 Opus ☁️6988100747658774.69 €0.41 rps
24. Meta Llama3.1 405B Instruct🦙819392757548772.39 €1.16 rps
25. GPT-4 Turbo v4/0125-preview ☁️6697100837543772.45 €0.84 rps
26. Google LearnLM 1.5 Pro Experimental ⚠️489785966472770.31 €0.83 rps
27. GPT-4 Turbo v3/1106-preview ☁️667598738860762.46 €0.68 rps
28. Google Gemini Exp 1206 ☁️5210085777569760.88 €0.16 rps
29. Qwen 2.5 32B Coder Instruct ⚠️439498987646760.05 €0.82 rps
30. DeepSeek v2.5 236B ⚠️578091808857750.03 €0.42 rps
31. Meta Llama 3.1 70B Instruct f16🦙748990757548751.79 €0.90 rps
32. Google Gemini 1.5 Flash v2 ☁️649689768144750.06 €2.01 rps
33. Google Gemini 1.5 Pro 0409 ☁️689796807526740.95 €0.59 rps
34. Meta Llama 3 70B Instruct🦙818384678145730.06 €0.85 rps
35. GPT-3.5 v2/0613 ☁️688173878150730.34 €1.46 rps
36. Amazon Nova Lite ⚠️677874946262730.02 €2.19 rps
37. Mistral Large 123B v2/2407 ☁️687968757570720.57 €1.02 rps
38. Google Gemini Flash 1.5 8B ☁️709378677648720.01 €1.19 rps
39. Google Gemini 1.5 Pro 0514 ☁️7396791002560721.07 €0.92 rps
40. Google Gemini 1.5 Flash 0514 ☁️3297100767252720.06 €1.77 rps
41. Google Gemini 1.0 Pro ☁️668683798828710.37 €1.36 rps
42. Meta Llama 3.2 90B Vision🦙748487777132710.23 €1.10 rps
43. GPT-3.5 v3/1106 ☁️687071817858710.24 €2.33 rps
44. Claude 3.5 Haiku ☁️528072757568700.32 €1.24 rps
45. Meta Llama 3.3 70B Instruct🦙747874777146700.10 €0.71 rps
46. GPT-3.5 v4/0125 ☁️638771777843700.12 €1.43 rps
47. Cohere Command R+ ☁️638076727058700.83 €1.90 rps
48. Mistral Large 123B v3/2411 ☁️687564768251700.56 €0.66 rps
49. Qwen1.5 32B Chat f16 ⚠️709082767820690.97 €1.66 rps
50. Gemma 2 27B IT ⚠️617287748932690.07 €0.90 rps
51. Mistral 7B OpenChat-3.5 v3 0106 f16 ✅688767748825680.32 €3.39 rps
52. Meta Llama 3 8B Instruct f16🦙796268708041670.32 €3.33 rps
53. Gemma 7B OpenChat-3.5 v3 0106 f16 ✅636784588146670.21 €5.09 rps
54. GPT-3.5-instruct 0914 ☁️479269698833660.35 €2.15 rps
55. Amazon Nova Pro ⚠️647882795241660.22 €1.34 rps
56. GPT-3.5 v1/0301 ☁️558269818226660.35 €4.12 rps
57. Llama 3 8B OpenChat-3.6 20240522 f16 ✅765176658838660.28 €3.79 rps
58. Mistral 7B OpenChat-3.5 v1 f16 ✅587272718833660.49 €2.20 rps
59. Mistral 7B OpenChat-3.5 v2 1210 f16 ✅637372668830650.32 €3.40 rps
60. Qwen 2.5 7B Instruct ⚠️487780686947650.07 €1.25 rps
61. Starling 7B-alpha f16 ⚠️586667738834640.58 €1.85 rps
62. Mistral Nemo 12B v1/2407 ☁️545851997549640.03 €1.22 rps
63. Meta Llama 3.2 11B Vision🦙707165707136640.04 €1.49 rps
64. Llama 3 8B Hermes 2 Theta🦙617374748516640.05 €0.55 rps
65. Claude 3 Haiku ☁️646964757535640.08 €0.52 rps
66. Yi 1.5 34B Chat f16 ⚠️477870748626641.18 €1.37 rps
67. Liquid: LFM 40B MoE ⚠️726965638224630.00 €1.45 rps
68. Meta Llama 3.1 8B Instruct f16🦙577462747432620.45 €2.41 rps
69. Qwen2 7B Instruct f32 ⚠️508181616631620.46 €2.36 rps
70. Claude 3 Sonnet ☁️724174747828610.95 €0.85 rps
71. Mistral Small v3/2409 ☁️437571747526610.06 €0.81 rps
72. Mistral Pixtral 12B ✅536973636440600.03 €0.83 rps
73. Mixtral 8x22B API (Instruct) ☁️53626297757590.17 €3.12 rps
74. Anthropic Claude Instant v1.2 ☁️587565776516592.10 €1.49 rps
75. Codestral Mamba 7B v1 ✅536651977117590.30 €2.82 rps
76. Inflection 3 Productivity ⚠️465939707961590.92 €0.17 rps
77. Anthropic Claude v2.0 ☁️635255678434592.19 €0.40 rps
78. Cohere Command R ☁️456657748427590.13 €2.50 rps
79. Amazon Nova Micro ⚠️586864715931590.01 €2.41 rps
80. Qwen1.5 7B Chat f16 ⚠️568160566036580.29 €3.76 rps
81. Mistral Large v1/2402 ☁️374970838425580.58 €2.11 rps
82. Microsoft WizardLM 2 8x22B ⚠️487679596222580.13 €0.70 rps
83. Qwen1.5 14B Chat f16 ⚠️505851728422560.36 €3.03 rps
84. MistralAI Ministral 8B ✅565541826830550.02 €1.02 rps
85. Anthropic Claude v2.1 ☁️295859787532552.25 €0.35 rps
86. Mistral 7B OpenOrca f16 ☁️545776367827550.41 €2.65 rps
87. MistralAI Ministral 3B ✅504839896041540.01 €1.02 rps
88. Llama2 13B Vicuna-1.5 f16🦙503755628237540.99 €1.09 rps
89. Mistral 7B Instruct v0.1 f16 ☁️347169636223540.75 €1.43 rps
90. Meta Llama 3.2 3B🦙527166714414530.01 €1.25 rps
91. Google Recurrent Gemma 9B IT f16 ⚠️582771645623500.89 €1.21 rps
92. Codestral 22B v1 ✅384744846613490.06 €4.03 rps
93. Qwen: QwQ 32B Preview ⚠️433274524840480.05 €0.63 rps
94. Llama2 13B Hermes f16🦙502437756042481.00 €1.07 rps
95. IBM Granite 34B Code Instruct f16 ☁️63493467577461.07 €1.51 rps
96. Meta Llama 3.2 1B🦙324033536851460.02 €1.69 rps
97. Mistral Small v2/2402 ☁️33424588568460.06 €3.21 rps
98. Mistral Small v1/2312 (Mixtral) ☁️10676365568450.06 €2.21 rps
99. DBRX 132B Instruct ⚠️433943745910450.26 €1.31 rps
100. NVIDIA Llama 3.1 Nemotron 70B Instruct🦙685425722821450.09 €0.53 rps
101. Mistral Medium v1/2312 ☁️414344596212440.81 €0.35 rps
102. Microsoft WizardLM 2 7B ⚠️533442665313430.02 €0.89 rps
103. Llama2 13B Puffin f16🦙371544675639434.70 €0.23 rps
104. Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️22475953628420.05 €2.39 rps
105. Gemma 2 9B IT ⚠️452547366813390.02 €0.88 rps
106. Meta Llama2 13B chat f16🦙22381765756370.75 €1.44 rps
107. Mistral 7B Zephyr-β f16 ✅37344662294350.46 €2.34 rps
108. Meta Llama2 7B chat f16🦙223320625018340.56 €1.93 rps
109. Mistral 7B Notus-v1 f16 ⚠️10542560484330.75 €1.43 rps
110. Orca 2 13B f16 ⚠️182232296720310.95 €1.14 rps
111. Mistral 7B Instruct v0.2 f16 ☁️11305425588310.96 €1.12 rps
112. Mistral 7B v0.1 f16 ☁️0948635212310.87 €1.23 rps
113. Google Gemma 2B IT f16 ⚠️332816471520270.30 €3.54 rps
114. Microsoft Phi 3 Medium 4K Instruct 14B f16 ⚠️5343032478260.82 €1.32 rps
115. Orca 2 7B f16 ⚠️2202626524220.78 €1.38 rps
116. Google Gemma 7B IT f16 ⚠️0006620110.99 €1.08 rps
117. Meta Llama2 7B f16🦙05223282100.95 €1.13 rps
118. Yi 1.5 9B Chat f16 ⚠️04291708101.41 €0.76 rps

Benchmarking Llama 3.3, Amazon Nova, Gemini 1206

Wir behandeln diese Modelle zusammen.

Meta Llama 3.3 70B Instruct – Platz 45.

Das Modell Llama 3.3 70B Instruct belegte zum Zeitpunkt seiner Veröffentlichung den 40. Platz. Seitdem wurden jedoch einige bessere Modelle vorgestellt, wodurch es weiter nach unten gerutscht ist. Dies ist ein typisches Muster: Wenn ein Unternehmen keine verbesserten Modelle veröffentlicht, wird es von der Konkurrenz schnell überholt.

 

Llama 3.3 70B verfügt über eine ordentliche Fähigkeit zur logischen Schlussfolgerung, knapp unterhalb von Llama 405B und dem älteren Llama 3.1 70B. Allerdings folgt es Anweisungen bei geschäftlichen Aufgaben nicht besonders gut – ein typisches Problem für Llama-Modelle. Normalerweise könnte dies durch gute Fine-Tunings behoben werden, doch der Markt beginnt zunehmend zu erkennen, dass der ROI von Fine-Tunings in der Praxis geringer ausfällt, als ursprünglich angenommen. Daher erwarten wir in absehbarer Zeit keine Veränderung seiner Platzierung.

Amazon Nova – enttäuschend
Amazon hat eigene Versionen von LLMs veröffentlicht: Amazon Nova Micro, Lite und Pro. Diese Modelle sind äußerst kostengünstig im Betrieb, aber leider auch weitgehend unbrauchbar, mit Platzierungen auf den Rängen 36, 55 und 79.

Gibt es dennoch einen Silberstreif am Horizont? Ja: Diese schwachen Modelle erreichen die Qualität von GPT-3.5, das seinerzeit als bahnbrechend galt. Die Modelle sind also nicht per se schlecht – der Fortschritt ist schlicht so rasant, dass wir die Maßstäbe immer schneller verschieben, ohne es wirklich zu bemerken.

Google Gemini Experimental 1206 und 2.0 Flash Experimental

Google Gemini Experimental 1206 – nicht so überzeugend

Das Modell Google Gemini Experimental belegte den 28. Platz, was deutlich schlechter ist als das leistungsstarke Google Gemini 1.5 Pro v2. Letzteres liefert hervorragende Ergebnisse, wenn man sich mit den typischen Google-Eigenheiten arrangieren kann.

Das ist jedoch akzeptabel, da 1206 nur ein experimentelles Modell und keine offizielle Veröffentlichung ist.

Bemerkenswert ist jedoch, dass es die Qualitätsstufe einiger Versionen von GPT-4 Turbo erreicht!

Google Gemini 2.0 Flash Experimental – ein spannenderes Modell

Das Modell Google Gemini 2.0 Flash Experimental ist zwar ebenfalls experimentell, hat es aber in die TOP 10 unseres Benchmarks geschafft!

Im Vergleich zur vorherigen Version Flash (Gemini 1.5 Flash) hat dieses experimentelle Modell seine Fähigkeiten im logischen Denken von 44 auf 62 verbessert und den Gesamtscore von 75 auf 84 gesteigert.

Besonders beeindruckend ist, dass Google Gemini 2.0 Flash großen Wert auf Anweisungen legt – ein entscheidender Faktor für Structured Output- und Custom Chain of Thought-Muster. Es hat als erstes Modell überhaupt eine perfekte 100-Punkte-Wertung in den Kategorien Docs und Integrate erreicht.

Google DeepMind über Google Gemini 2.0 Flash Experimental

Google DeepMind schreibt, dass das Modell für Automatisierung und agentische Erfahrungen entwickelt wurde – was auch immer das genau bedeuten mag. Es verfügt über einen beeindruckenden Input-Kontext von 1 Million Token.

Ein weiteres Highlight: Dieses Modell hat potenziell die niedrigsten Nutzungskosten unter den Top-19-Modellen. Das 20. Modell, DeepSeek v3 671B, ist ein weiterer Anwärter auf Kosteneffizienz.

„Potenziell“, da der Preis für Google Gemini 2.0 Flash aktuell noch nicht bekannt ist. Wir nehmen daher an, dass er ähnlich wie bei Flash 1.5 liegt.

Google überrascht uns weiterhin positiv, indem regelmäßig neue Modelle veröffentlicht werden, die es in die TOP 10 schaffen. Das hat jedoch den Nebeneffekt, dass ältere Favoriten wie Mistral und Anthropic etwas aus dem Rampenlicht gedrängt werden. Das bedeutet jedoch keineswegs, dass diese Modelle schlechter geworden sind – im Gegenteil: Die Vielfalt wächst, und wir haben mehr Auswahlmöglichkeiten als je zuvor!

DeepSeek v3

DeepSeek v3 ist ein kürzlich veröffentlichtes Mixture-of-Experts (MoE)-Sprachmodell mit insgesamt 671 Milliarden Parametern. Es wurde entwickelt, um besonders effizient in der Inferenz zu sein – für jeden Token werden lediglich 37 Milliarden Parameter aktiviert. Dies spiegelt sich in den niedrigen Betriebskosten des Modells wider.

Ein weiterer Vorteil: Das Modell ist lokal einsetzbar. Es kann heruntergeladen und auf eigenen Servern betrieben werden, vorausgesetzt, es stehen genügend GPUs zur Verfügung, um die Gewichte zu hosten.

 

DeepSeek v3 – Fortschritte und Herausforderungen

Verbesserte Leistungen:
DeepSeek v3 hat die Punktzahlen seines Vorgängers DeepSeek v2.5 (derzeit in den TOP 30) deutlich verbessert. Im Bereich Geschäftsautomatisierung (CRM-Kategorie) stieg die Punktzahl von 80 auf 97. Auch die Fähigkeit, Softwareentwicklungsaufgaben zu lösen, verbesserte sich von 57 auf 62. Dennoch bleibt das Modell hinter dem bewährten Sonnet 3.5 Claude v2 zurück, das hier eine Punktzahl von 82 erreicht.

Lokale Nutzung – nicht ohne Hürden:
Obwohl DeepSeek v3 nur 37 Milliarden Parameter pro Token aktiviert, macht dies den lokalen Einsatz nicht einfacher. Das Mixture-of-Experts (MoE)-Design sorgt zwar für eine schnellere Inferenz, senkt jedoch nicht die VRAM-Anforderungen. Um die Inferenz lokal auszuführen, wären etwa 8x H200 GPUs erforderlich, was das Modell für den lokalen Einsatz weniger geeignet macht.

Innovatives Training:
Eine bemerkenswerte Besonderheit von DeepSeek v3 ist die Einführung des FP8-Mixed-Precision-Training-Frameworks. Diese Methode ermöglicht es, neue LLM-Modelle schneller, kostengünstiger und mit geringeren VRAM-Anforderungen zu trainieren. Zudem könnte diese Technik eine bessere Out-of-the-Box-Quantisierung bei der Inferenz ermöglichen.

Es bleibt abzuwarten, ob dieser Ansatz dazu beitragen wird, kleinere und leistungsstarke lokale Modelle effizienter zu entwickeln.

Manueller Benchmark von OpenAI o1 Pro – Der Goldstandard

Lassen Sie uns zum Helden dieses LLM-Benchmarks kommen: o1 pro von OpenAI. Vorab jedoch ein wichtiger Hinweis: Es gibt 6 verschiedene Varianten des OpenAI o1-Modells, die leicht verwechselt werden können:

  • o1-mini: Das kleinste und günstigste Modell für logisches Denken. Verfügbar sowohl in der ChatGPT-Benutzeroberfläche als auch über die API.
  • o1-preview: Eine sehr leistungsfähige Version, die früher in der ChatGPT-Benutzeroberfläche verfügbar war. Diese wurde durch o1 base ersetzt, ist aber weiterhin direkt über die API verfügbar.
  • o1: Dieses Modell ersetzt o1-preview in der ChatGPT-Benutzeroberfläche. Es hat standardmäßig eine eingeschränktere logische Denkfähigkeit in der UI, ist aber mit höheren Konfigurationen leistungsfähiger. Über die API ist o1 nur für Tier-5-Konten verfügbar und bietet drei Konfigurationen für logisches Denken: hoch, mittel und niedrig.
  • o1-pro: Das leistungsstärkste Modell. Es ist in der ChatGPT-Benutzeroberfläche für 200 $ pro Monat verfügbar, jedoch noch nicht über die API zugänglich.

Zusätzlich gibt es also 4 Hauptversionen des o1-Modells sowie 2 zusätzliche Konfigurationen (hoch und niedrig) für das Modell o1.

Fokus auf o1 pro

Dieser Abschnitt konzentriert sich ausschließlich auf o1 pro, das als Ausnahme nicht über die API getestet wurde, da es dort noch nicht verfügbar ist. Stattdessen wurden die Tests manuell über die ChatGPT-Benutzeroberfläche durchgeführt.

Vorgehen beim Benchmark

  1. Auswahl der Aufgaben:
    Die Ergebnisse des Benchmarks von o1-mini wurden als Basis verwendet. Nur die Aufgaben, bei denen o1-mini Fehler gemacht hatte, wurden erneut getestet. Da o1 pro deutlich leistungsfähiger ist, wurde angenommen, dass es Aufgaben, die o1-mini korrekt gelöst hat, ebenfalls richtig beantworten würde. So musste nur ein Bruchteil des Benchmarks manuell durchgeführt werden.

  2. Einstellungen:

    • Benutzerdefinierte Anweisungen wurden in der ChatGPT-Benutzeroberfläche deaktiviert.
    • Lokaler Speicher war ebenfalls deaktiviert.
    • Benchmark-Anfragen im API-Format wurden in ein Textformat umgewandelt und manuell durch Copy-Paste ausgeführt.

Erste Herausforderungen

Während des Tests traten einige unerwartete Probleme auf:

  1. Formatierungsprobleme:
    o1 pro ist tief in die ChatGPT-Benutzeroberfläche integriert, die auf Benutzerfreundlichkeit ausgelegt ist. Wenn beispielsweise eine Aufgabe eine YAML-Antwort erfordert, wird diese als Markdown formatiert, wodurch die Antwort unbrauchbar wird. Solche Antworten mussten manuell korrigiert werden.

  2. Few-Shot-Beispiele:
    Historisch wurden Few-Shot-Beispiele in folgendem Format strukturiert:
    (Das Format der Few-Shot-Beispiele wird im nächsten Schritt beschrieben.)

System: Task explanation
User: sample request 1
Assistant: sample response 1
User: sample request 2
Assistant: sample response 2 
User: real request

Wir können in der ChatGPT-Benutzeroberfläche kein rollenbasiertes Prompting durchführen. Außerdem ist der System-Prompt in den o1-Modellen nicht zugänglich, um zu verhindern, dass Reasoning-Tokens zu den Endnutzern gelangen (diese werden von den Modellen ohne Alignment und Sicherheitsmechanismen generiert). Das Modell ist nicht nur darauf ausgelegt, seinen System-Prompt zu schützen (in der neuesten Dokumentation auch als Platform-Prompt bezeichnet), sondern versucht auch, über den Dialog mit dem Nutzer zu arbeiten.

Dies führte zu einem interessanten Ergebnis: Das Modell gab den Systemanweisungen eine geringere Priorität und versuchte, Muster aus früheren Gesprächen mit dem Nutzer zu finden. Gelegentlich gelang ihm das, es kam jedoch zu falschen Schlussfolgerungen, was zu niedrigen Integrate-Scores führte.

Daher mussten wir beginnen, die Aufgaben für o1 pro wie folgt zu formatieren:

# Task
Task explanation
## Example
User: sample request 1
Assistant: sample response 1
## Example
User: sample request 2
Assistant: sample response 2
# Request
real request

Damit gesagt, wie fielen die Ergebnisse aus?

o1 pro erreichte die absolute Spitze unseres Benchmarks mit einem nahezu perfekten Score von 97 (die verbleibenden 3 Punkte sind auf mehrdeutige Aufgaben in unserem Benchmark zurückzuführen).

In unserem Benchmark, der die Fähigkeiten von LLM-Modellen in Aufgaben der Geschäftsautomatisierung misst, ist o1 pro wie ein Goldbarren: perfekt und teuer. Es ist überdimensioniert für viele Anforderungen.

Wie immer sind dies gute Nachrichten aus zwei Gründen:

  1. Wir haben einen Punkt erreicht, an dem LLMs alle Aufgaben in unseren Geschäftsautomatisierungs-Herausforderungen (von vor 18 Monaten) problemlos lösen können. Jetzt müssen wir nur auf vergleichbare Modelle warten, die kostengünstiger im Betrieb sind.

  2. Während wir die zweite Version des LLM-Benchmarks entwickeln, können wir die aktuellen Fähigkeiten von o1 pro im Blick behalten und neue Aufgaben formulieren, die selbst dieses Modell herausfordern. Dadurch wird die Komplexitätskurve der Bewertung glatter, und der gesamte Benchmark wird repräsentativer für die Anforderungen der Geschäftsautomatisierung.

Benchmark von o1 (base) – 🥉TOP-3

Erinnern Sie sich an den Hinweis zu den verschiedenen Varianten der o1-Modelle oben?

Dieser Benchmark konzentriert sich auf das o1 (base)-Modell, das über die API mit einem reasoning_effort von medium getestet wurde. Es handelt sich dabei nicht zwangsläufig um die gleiche Modellkonfiguration wie die, die über die ChatGPT-Benutzeroberfläche verfügbar ist.

Unterschiede in der Konfiguration

Die Abweichungen liegen nicht nur in den unterschiedlichen Rechenbeschränkungen, sondern auch in einer neuen Befehlskette (den sogenannten rules of robotics, implementiert von OpenAI für die Reasoning-Modelle):
Platform > Developer > User > Tool.

Testergebnisse

Das o1 base-Modell wurde automatisch über die API getestet, wie die meisten anderen Modelle (mit Ausnahme von o1 pro). Es erreichte den 3. Platz im Benchmark – leicht besser als o1-mini, aber etwas schlechter als o1-preview.

  • reasoning_effort: medium (Standardwert)
  • max_tokens: 25.000 (gemäß der Empfehlung von OpenAI)

Interessanterweise belegt o1 base sowohl bei den Fähigkeiten als auch bei den Kosten den 3. Platz. Das ergibt eine faszinierende Kurve: An der Spitze ist die Fähigkeit zu logischem Denken eine Funktion der Kosten.

  • o1-preview schneidet besser ab als o1 base, da es mehr Tokens generiert – und das Ergebnis dadurch insgesamt besser ist.
  • o1 pro denkt generell tiefer und gründlicher, was seine Spitzenleistung erklärt.

Dieser Verlauf unterstützt auch jüngste Forschungsergebnisse von Hugging Face zum Thema Scaling Test-time Compute. Dabei geht es darum, die Qualität eines 3B-Modells durch erhöhten Aufwand beim logischen Denken (und bei der Generierung möglicher Antworten) auf das Niveau eines 70B-Modells zu heben.

Wir können wahrscheinlich damit rechnen, dass immer mehr LLM-Anbieter "intelligentere" Modelle gegen einen Aufpreis anbieten werden (man bezahlt für die Reasoning-Tokens). Gleichzeitig könnten sich neue Wege entwickeln, intensive logische Schlussfolgerungen auch lokal durchzuführen – ähnlich wie bei der lokalen Generierung strukturierter Outputs.

Was ist mit dem kürzlich angekündigten o3?

OpenAI hat kürzlich sein neues Modell o3 vorgestellt, das Aufgaben aus dem ARC-AGI-Datensatz außergewöhnlich gut löst.

Warum gibt es o1 und o3, aber kein o2?

Ein Namenskonflikt mit dem Telekommunikationsunternehmen O2 könnte der Grund sein.

Was ist ARC-AGI?

Der ARC-AGI-Datensatz enthält Herausforderungen, die darauf abzielen, menschliche Intelligenz mit maschineller Intelligenz zu vergleichen. Die offizielle Website behauptet, dass das Lösen des ARC-AGI-Datensatzes sogar eine größere Errungenschaft wäre als die Erfindung der Transformer-Architektur.

Um eine Aufgabe aus dem ARC-AGI-Datensatz zu lösen, muss eine Maschine die Regeln erkennen und eine pixelgenaue Antwort erstellen.

Die Leistung von o3 – ein neuer Maßstab?

Laut Berichten konnte o3 nahezu alle Aufgaben aus dem ARC-AGI-Datensatz lösen – etwas, das bisher als unmöglich galt.

Damit ist o3 theoretisch das beste LLM-Modell. Dennoch gehen wir davon aus, dass es in absehbarer Zeit keinen spürbaren Einfluss auf Geschäftsautomatisierungsaufgaben in Unternehmen haben wird. Der Knackpunkt: die Kosten.

Ein Blick auf das Diagramm aus der ARC-AGI-Ankündigung zeigt die Leistung verschiedener Modelle im Verhältnis zu den Kosten, die für das Lösen einer einzelnen Aufgabe anfallen. Dieses Verhältnis verdeutlicht, warum Modelle wie o3 aktuell für Unternehmen nur schwer umsetzbar sind: Die Kosten sind signifikant höher als bei bestehenden, bereits leistungsstarken Modellen.

Kostenfrage und Nutzen von o3

Die Kostenskala ist logarithmisch, und die Kosten für die Lösung einer einzigen Aufgabe mit o3 HIGH (Tuned) belaufen sich auf etwa 3200 USD pro pixelgenaue Antwort.

Wir haben bereits erwähnt, dass o1 der Goldstandard für Geschäftsautomatisierung ist – perfekt, aber oft zu teuer für den praktischen Einsatz. o3 geht noch einen Schritt weiter und setzt neue Maßstäbe, ist jedoch weit außerhalb der Reichweite für viele Anwendungsfälle.

Die Einführung von LLM-Modellen gelingt vor allem dort, wo der Automatisierungsgewinn groß ist. Der geschäftliche Mehrwert wird aktuell in alltäglichen, leicht überprüfbaren Aufgaben erzielt, bei denen LLMs kostengünstiger, geduldiger und präziser sind als Menschen. Beispiele dafür sind:

  • Datenextraktion aus Dokumenten
  • Kategorisierung von Anfragen
  • Code-Generierung
  • Überprüfung von Standardverträgen

Das Problem bei o3 liegt in seiner Kosten-Effizienz. Es ist bei weitem nicht billig, daher wird es keinen großen Einfluss auf alltägliche Geschäftsautomatisierung haben.

Trotz seiner begrenzten unmittelbaren Nutzbarkeit könnte o3 einen wichtigen Beitrag leisten:

  • Verbesserung der Modellqualität anderer LLMs, etwa durch die Generierung hochwertiger synthetischer Daten, die für das Training verwendet werden könnten.

Dieser Fortschritt könnte langfristig die Kosten senken und die Effizienz der nächsten Generation von Modellen steigern.

Unsere Prognosen für 2025

Das sind unsere Vorhersagen, basierend auf den Mustern, die wir in unseren KI-Projekten beobachtet haben.


Der Hype um das Fine-Tuning von LLMs wird abflauen

Das Fine-Tuning von LLMs wurde häufig als Methode erwähnt, um „ein LLM mit Ihren Unternehmensdaten zu trainieren“ oder „LLM neue Fähigkeiten beizubringen“. Selbst OpenAI bietet Fine-Tuning als Dienstleistung an.

In der Theorie klingt alles ganz einfach: Man gibt dem LLM viele Dokumente, und es „lernt“ daraus. In der Praxis zeigt sich jedoch oft das Gegenteil: Statt einer besseren Genauigkeit enden viele Teams mit Modellen, die deutlich mehr Halluzinationen erzeugen. Meist wird die Komplexität der Datenaufbereitung und des Trainingsprozesses unterschätzt.

Unter unseren KI-Projekten gab es nur ein einziges erfolgreiches Fine-Tuning eines LLMs (Embedding-Modelle sind hier nicht mitgezählt). Dieses Projekt verfügte über eine große Menge sorgfältig vorbereiteter Daten und benötigte dennoch zahlreiche Iterationen.

Wir gehen davon aus, dass Unternehmen und Softwaredienstleister/-anbieter im Jahr 2025 die tatsächliche Komplexität und die Kosten des Fine-Tunings von LLMs zunehmend erkennen werden. Gleichzeitig werden sie den Mehrwert eines guten, vortrainierten LLMs „out of the box“ schätzen lernen – insbesondere, wenn leistungsstarke Inferenzmethoden wie strukturierte Outputs und benutzerdefinierte Chain-of-Thought-Ansätze genutzt werden.


Der Hype um autonome Agenten wird nachlassen

Wir behaupten nicht, dass autonome Agenten unmöglich sind. Mit ausreichend Aufwand ist es durchaus möglich, ein solches System zu realisieren.

Allerdings ist das Konzept eines autonomen Agenten wenig praktikabel. Es ist extrem komplex, ein solches Produkt zu entwerfen, zu entwickeln und zu integrieren, während gleichzeitig eine vorhersehbare Qualität sichergestellt wird.

Hier möchten wir einen Punkt betonen: Agenten sind technisch gesehen nicht besonders komplex. Im Kern handelt es sich nur um eine Reihe von Prompts, die Kontrolle und Kontext aneinander weitergeben und dabei externe Tools nutzen. Dennoch ist es aufgrund der Struktur des Produkts schwierig, einen kosteneffizienten Prozess für die Erstellung vertrauenswürdiger agentenbasierter Lösungen zu etablieren. In der Praxis scheitern viele Projekte daran, dass Budgets ausgeschöpft sind, bevor die Systeme fehlerfrei funktionieren.

Im Jahr 2025 werden Anbieter weiterhin über Agenten sprechen und „unternehmensfertige Agenten-Frameworks“ verkaufen (sie müssen ihre Investitionen amortisieren). Dennoch glauben wir, dass der Hype langsam abnehmen wird.


Wird es 2025 eine AGI geben? Und was ist mit LLM-Trends?

Es wird 2025 keine AGI (Artificial General Intelligence) geben. AGI ist eine noch schwierigere Herausforderung, insbesondere da wir immer besser darin werden, die Anforderungen an „was eine AGI ist“ zu verschieben. Wie die Schöpfer von ARC-AGI schreiben: „Man wird wissen, dass AGI erreicht ist, wenn es unmöglich wird, Aufgaben zu erstellen, die für Menschen leicht, aber für KI schwierig sind.“ Und selbst sie arbeiten erst an Version 2 ihres Benchmarks.

Dennoch werden viele Unternehmen weiterhin versuchen, mit OpenAI um den Titel des intelligentesten Modells zu konkurrieren. Es besteht sogar die Möglichkeit, dass Google OpenAI schließlich vom Thron stoßen wird.

Betrachten Sie nur die Qualitätstrends der Modelle im Jahr 2024 (von verschiedenen Anbietern und in unterschiedlichen Preiskategorien):

Ein neuer Ansatz zur Verbesserung des Modell-Denkvermögens

Wir gehen davon aus, dass mehr KI-Anbieter in Zukunft ähnliche Denkfähigkeiten wie o1-Modelle bereitstellen werden. Dies wird ein temporärer Workaround sein, um die Modellgenauigkeit schnell und ohne große Investitionen zu steigern: einfach mehr Rechenleistung einsetzen, das Modell vor der Antwort länger „nachdenken“ lassen und höhere API-Gebühren verlangen.

Wir glauben jedoch auch, dass der kommende Hype um „intelligente Denkmodelle“, die extrem teuer sind, ebenfalls nachlassen wird. Es ist schlicht nicht besonders praktikabel.


Mehr erweiterte Funktionen in LLMs erwartet

Wir erwarten, dass KI-Anbieter beginnen werden, fortschrittlichere Funktionen in ihre LLMs zu integrieren. Während große Kontexte und Prompt Caching mittlerweile Standard sind (was dedizierte RAG-Lösungen in vielen Fällen überflüssig macht), gibt es immer noch mächtige Funktionen, die bislang nicht weit verbreitet sind:

  • Strukturierte Outputs (Constrained Decoding):
    Ein effektiver Ansatz zur Verbesserung der Qualität von LLM-Antworten in komplexen Szenarien, insbesondere in Kombination mit benutzerdefinierten Chain-of-Thoughts. Derzeit bietet nur OpenAI eine brauchbare Implementierung an. Google hinkt noch hinterher mit seiner begrenzt nutzbaren kontrollierten Generierung, die auf dem VertexAI API-Format basiert.

  • Dokumentenverständnis mit VLMs:
    Moderne LLMs sind nicht mehr ausschließlich textbasiert; sie können auch Bilder oder Audio verarbeiten. Dadurch wird die Bearbeitung komplexer Dokumente mit Tabellen und Diagrammen möglich. Anthropic bietet bereits eine Variante dieser Fähigkeit an, indem Dokumente sowohl als Text als auch als Bild an das Modell Sonnet 3.5 gesendet werden, das als Vision-Language-Modell (VLM) agiert.

  • Native Integration von LLMs mit anderen Tools:
    Ähnlich wie OpenAI mit seinen Assistant APIs, die es LLMs ermöglichen, lokale RAGs und eine Code-Ausführungs-Sandbox zu nutzen. Auch Anthropic arbeitet an der Einführung eines Modells namens Model Context Protocol, einem Standard zur Verbindung von LLMs mit Datenquellen und externen Tools, inspiriert vom Language Server Protocol.


Ein Konkurrenzkampf ähnlich den „Browser-Kriegen“

Wir erwarten, dass KI-Anbieter versuchen werden, ihre LLM-APIs durch einzigartige Funktionen attraktiver zu machen. Es wird dabei sowohl zu Standardisierungen kommen (z. B. testet Google derzeit den Zugriff auf VertexAI über OpenAI-Bibliotheken) als auch zu Inkompatibilitäten (z. B. unterschiedliche Implementierungen von Prompt Caching bei Google, OpenAI und Anthropic).

Die gesamte Situation wird an die „Browser-Kriege“ erinnern. Schließlich werden sich Standards herausbilden, doch bis dahin ist mit vielen Eigenheiten, häufigen Migrationsproblemen und sich weiterentwickelnden Funktionen zu rechnen.


Blick auf größere Muster zur Risikominderung

Glücklicherweise lassen sich über einzelne Anbieter hinaus größere Muster im Markt erkennen. Indem wir uns auf generische Trends des KI-Marktes konzentrieren, können wir das Risiko kostspieliger Fehlentscheidungen minimieren und vermeiden, in Sackgassen zu geraten.

Die Enterprise RAG Challenge ist ein freundlicher Wettbewerb, bei dem wir vergleichen, wie unterschiedliche RAG-Architekturen Fragen zu Geschäftsdokumenten beantworten.

Die erste Runde dieses Wettbewerbs fand letzten Sommer statt – mit beeindruckenden Ergebnissen. Bereits mit nur 16 teilnehmenden Teams konnten wir verschiedene RAG-Architekturen vergleichen und das Potenzial strukturierter Outputs für geschäftliche Aufgaben entdecken.

Die zweite Runde ist für den 27. Februar geplant. Merken Sie sich den Termin vor!

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Blog
Blog

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog
Blog

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog
Blog

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Jörg EgretzbergerJörg EgretzbergerBlog
Blog

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten für Unternehmen sind ein Hype, und viele Teams arbeiteten bereits eifrig und voller Tatendrang an ihrer Implementierung. Leider konnten wir allerdings sehen, dass viele Teams, welche wir in Europa und den USA beobachten konnten, an der Aufgabe gescheitert sind. Wir bieten Ihnen 8 Tipps, damit Ihnen nicht dasselbe passiert.

Martin WarnungMartin WarnungBlog
Blog

Fehler in der Entwicklung von AI-Assistenten

Wie gut, dass es Fehler gibt: Denn aus ihnen können wir lernen und besser werden. Wir haben genau hingesehen, wie Unternehmen in den letzten Monaten weltweit AI-Assistenten implementiert haben, und haben sie, leider, vielfach beim Scheitern beobachtet. Wie es zum Scheitern kam und was man daraus für künftige Projekte lernen kann, das möchten wir mit Ihnen teilen: Damit AI-Assistenten in Zukunft erfolgreicher umgesetzt werden können!

Blog
Blog

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz hat sich von einem bloßen Schlagwort zu einem entscheidenden Werkzeug entwickelt, Business Value in Unternehmen zu generieren. Wir verfolgen einen achtstufigen Ansatz, um Unternehmen den Weg zur effektiven Nutzung von AI zu ermöglichen.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Microsoft Azure-Ressourcen automatisch skalieren

Im Blog stellen wir Ihnen Autoscale in Azure vor und zeigen, warum es sich lohnt, diese mit der automatischen Skalierung mit IBM Turbonomics zu kombinieren.

TIMETOACT
Marc BastienMarc BastienBlog
Header Blogbeitrag Artificial Intelligence
Blog

Artificial Intelligence (AI) mit Spurhalteassistent im Griff

Die Transparenz und Nachvollziehbarkeit von AI ist die größte Herausforderung für die Nutzung von AI. Im Zusammenhang mit fairer Beurteilung von Menschen oder menschlichem Verhalten sowieso. Im Zusammenhang mit anderen Daten würden wir konsequenterweise in absehbarer Zeit komplett den Durchblick über Zusammenhänge in den Daten verlieren, wenn wir der AI allein das Feld überließen.

Workshop
Workshop

KI Workshops für Unternehmen

Ob Grundlagen der KI, Prompt-Engineering oder Potenzial-Scouting: Unser vielfältiges KI-Workshop Angebot bietet für jeden Wunsch die passenden Inhalte.

TIMETOACT
Martin LangeMartin LangeBlog
Checkliste als Symbol für die verschiedenen To Dos im Bereich Lizenzmanagement
Blog

Lizenzmanagement fest im Griff - Das sollten Sie wissen!

Lizenzmanagement hat nicht nur Relevanz für das Thema Compliance, sondern kann auch Kosten und Risiken minimieren. Mehr dazu im Beitrag.

TIMETOACT
Blog
Blog

In 6 Schritten zur passenden Data Analytics-Lösung

Um Innovation im Unternehmen voranzutreiben, braucht es eine state-of-the-art Data Analytics-Lösung. Oftmals ist hier eine Modernisierung von Nöten. Erfahren Sie in sechs Schritten, wie Sie die für Sie passende Lösung finden!

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Azure Cloud: Kosten mit IBM Turbonomic optimieren!

Im Blog erfahren Sie, wie Sie Ihre Microsoft Azure Kosten senken und dabei die bestmögliche Performance sichern. Und: wie IBM Turbonomic dabei unterstützen kann.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

AWS Cloud: So optimieren Sie Ihre Kosten mit IBM Turbonomic!

Wir geben Ihnen einen Überblick über die verschiedenen Methoden des AWS-Cloud-Kostenmanagements.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Amazon EC2: Performance richtig messen und optimieren!

Im Blog zeigen wir Ansätze zum Messen und Verwalten der Leistung von EC2-Instanzen. Zudem erfahren Sie, wie Sie mit IBM Turbonomic die Performance der darauf betriebenen Anwendungen optimieren.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Elastic Block Storage: Performance und Kosten optimieren

Wir geben Ihnen einen Überblick zu EBS. Und: zeigen Ihnen, wie IBM Turbonomic Sie bei Performance und Kosten unterstützt.

TIMETOACT
Service
Service

Eventreihe: KI Governance

Die EU hat sich auf schärfere Regeln zur Nutzung von Künstlicher Intelligenz geeinigt. Ihre Auswirkungen und weitere wichtige Aspekte von "KI Governance" beleuchten wir in unserer Eventserie.

Blog
Blog

8 Tipps für ein erfolgreiches Automatisierungsprojekt

Was sind die Regeln, die man bei der Planung und Umsetzung eines Automatisierungsprojektes in Betracht ziehen soll? Und woran scheitert es?

TIMETOACT
Service
Service

KI Governance

Die EU hat sich auf schärfere Regeln zur Nutzung von Künstlicher Intelligenz geeinigt. Ihre Auswirkungen und weitere wichtige Aspekte von "KI Governance" erfahren Sie hier.

TIMETOACT
Referenz
Referenz

Interaktives Onlineportal identifiziert passende Mitarbeiter

TIMETOACT digitalisiert für KI.TEST mehrere Testverfahren zur Bestimmung der beruflichen Intelligenz und Persönlichkeit.

TIMETOACT
Referenz
Referenz

Managed Service Support für optimales Lizenzmanagement

Zur Sicherstellung der Software Compliance unterstützt TIMETOACT die FUNKE Mediengruppe im Rahmen eines SAM Managed Services für Microsoft, Adobe, Oracle und IBM.

TIMETOACT
Referenz
Referenz

TIMETOACT unterstützt KC Risk bei Benchmarking & Reporting

TIMETOACT unterstützte die KC Risk AG bei der Integration, Aufbereitung und Visualisierung ihrer Kundendaten. Alle Informationen stehen nun zentral zur Verfügung, sind per Knopfdruck abrufbar und Berechnungen erfolgen automatisiert.

TIMETOACT
Referenz
Referenz

IAV erreicht ISO/IEC 5230 Zertifizierung

IAV hat ihr Open Source Compliance Programm nach ISO/IEC 5230 zertifizieren lassen und damit die Transparenz im Umgang mit Open Source Software, insbesondere im Software-Entwicklungsprozess erhöht. Durch die Zertifizierung nach ISO/IEC 5230 kann IAV in Zukunft potenzielle Risiken im Umgang mit Open-Source-Software verringern. Darüber hinaus wird durch die Zertifizierung das Vertrauen von Kunden und Partnern in die Lieferkette erheblich gestärkt. Begleitet wurde das Zertifizierungsverfahren von der TIMETOACT GROUP. Die Softwareberatung unterstützte bei der Reifegradanalyse, der Nachverfolgung von Befunden und bei der finalen Auditierung und Zertifizierung durch ARS – einem Unternehmen der TIMETOACT GROUP.

TIMETOACT
Webinar
Webinar

Webinar: KI-Lösungen in Rekordzeit umsetzen und einsetzen

Erfahren Sie, wie Sie mit Mendix und AWS Bedrock nicht nur IT-Engpässe überwinden, sondern auch fortschrittliche KI-Anwendungen umsetzen. Anhand realer Beispiele, Best Practices und konkreter Handlungsempfehlungen geben wir Ihnen das nötige Know-how, um KI gewinnbringend in Ihre Prozesse zu integrieren.

TIMETOACT
Referenz
Referenz

Standardisiertes Datenmanagement bei TRUMPF

Die effiziente Verwaltung und zentrale, nachvollziehbare und qualitätsgesicherte Bereitstellung von Unternehmensdaten ist wichtiger denn je, um Entscheidungen zu treffen und die Datenverwendung zu optimieren – ganz besonders, wenn täglich bis zu 2 Terabyte an Daten bewegt werden. TIMETOACT implementiert für TRUMPF Photonic Components ein übergeordnetes Datenmodell in einem Data Warehouse und sorgt mit Talend für die notwendige Datenintegrationsanbindung und Katalogisierung. Mit diesem standardisierten Datenmanagement erhält TRUMPF künftig Reportings auf Basis verlässlicher Daten - mit der Option, Vorgehen und Modell zukünftig auch auf andere Fachabteilungen übertragen.

Branche
Branche

Künstliche Intelligenz im Treasury Management

Optimieren Sie Treasury-Prozesse durch KI: Automatisierte Berichte, Vorhersagen und Risikomanagement.

TIMETOACT
Marc BastienMarc BastienBlog
Blog

ESG-Tagebuch | Wissenstransfer & Kommunikation | Teil 2

In diesem Teil unseres ESG-Tagebuchs berichten wir wieder über die Implementierung der IBM Envizi ESG Suite bei einem Industriekunden. Lesen Sie diesmal, vor welchen aktuellen Herausforderungen, Frage- und Problemstellungen wir bei der Bestimmung und Dokumentation fachlicher Aspekte stehen.

TIMETOACT
Referenz
Referenz

Standardisiertes Datenmanagement schafft Basis für Reporting

TIMETOACT implementiert für TRUMPF Photonic Components ein übergeordnetes Datenmodell in einem Data Warehouse und sorgt mit Talend für die notwendige Datenintegrationsanbindung. Mit diesem standardisierten Datenmanagement erhält TRUMPF künftig Reportings auf Basis verlässlicher Daten und kann das Modell auch auf andere Fachabteilungen übertragen.

TIMETOACT
Referenz
Referenz

Flexibilität bei der Datenauswertung eines Freizeitparks

Mit Unterstützung der TIMETOACT setzt ein Freizeitpark in Deutschland TM1 bereits seit vielen Jahren in unterschiedlichen Unternehmensbereichen ein, um einfach und flexibel Reportings-, Analyse- und Planungsprozesse durchzuführen.

TIMETOACT
Referenz
Referenz

Automatisierter Rechnungseingang bei Kapsch

TIMETOACT unterstützt Kapsch BusinessCom bei der Durchführung des automatisierten Rechnungseingangs durch den Einsatz einer umfassenden Dokumenten-Management- und Workflow-Lösung.

Referenz
Referenz

MAIN adaptiert automatisierte Rechnungseingangslösung

Um Zeit und Kosten bei der Rechnungsverarbeitung zu ersparen, setzt main auf eine umfassende Rechnungseingangslösung von TIMETOACT.

Referenz
Referenz

Automatisierte Eingangrechnungsverarbeitung mit JobRouter®

Schnelle Durchlaufzeiten und Ersparnisse im fünfstelligen Bereich durch automatisierten Rechnungsfreigabeprozess in der Buchhaltung bei der ISS.

Referenz
Referenz

Mit IBM FileNet zum modernen Dokumentenarchiv

Ein kompetenter Kundensupport ist einer der wichtigsten KPIs für Mobilanbieter. In dieser schnelllebigen Branche ist es eine Herausforderung, alle für einen Bestandsvertrag relevanten Dokumente schnell am Schirm zu haben, von AGBs über Zahlungsinformationen zu Vertragsanpassungen. TIMETOACT unterstützt einen frührenden Telekommunikationsanbieter bei der Archivmigration und Anbindung von modernen Applikationen an IBM FileNet P8 für das Handling von Millionen von Dokumenten.

Whitepaper
Whitepaper

Whitepaper: Eine Einführung ins API Management

Was genau sind APIs, welche Use Cases gibt es und wie können sie unterschiedliche Geschäftsziele unterstützen? Erfahren Sie in unserem kostenlosem Whitepaper.

Referenz
Referenz

Automatisierte Planung von Transportwegen

Effiziente Transportroutenplanung durch Automatisierung und einfache Integration.

Blog
Blog

The Future-Proof Business: API-Management

Die Aufzeichnung des zweiten Teiles unserer gemeinsam mit CROZ und Red Hat gehosteten Webinarreihe, "The Future-Proof Business" ist jetzt zum Nachsehen verfügbar!