CHATGPT UND CO IM VERGLEICH

Die besten Sprachmodelle im September 2024

Die TIMETOACT GROUP LLM Benchmarks zeigen die leistungsstärksten KI-Sprachmodelle für die digitale Produktentwicklung. Erfahren Sie, welche Sprachmodelle im September am besten abgeschnitten haben.

LLM Benchmarks | September 2024

Die Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz

Modell Code Crm Docs Integrate Marketing Reason Ergebnis Kosten Speed
GPT o1-preview v1/2024-09-12 ☁️ 95 92 94 96 88 87 92 52.32 € 0.08 rps
GPT o1-mini v1/2024-09-12 ☁️ 93 96 94 85 82 87 90 8.15 € 0.16 rps
Google Gemini 1.5 Pro v2 ☁️ 86 97 94 100 78 74 88 1.00 € 1.18 rps
GPT-4o v1/2024-05-13 ☁️ 90 96 100 89 78 74 88 1.21 € 1.44 rps
GPT-4o v3/dyn-2024-08-13 ☁️ 90 97 100 81 79 78 88 1.22 € 1.21 rps
GPT-4 Turbo v5/2024-04-09 ☁️ 86 99 98 100 88 43 86 2.45 € 0.84 rps
GPT-4o v2/2024-08-06 ☁️ 90 84 97 92 82 59 84 0.63 € 1.49 rps
Google Gemini 1.5 Pro 0801 ☁️ 84 92 79 100 70 74 83 0.90 € 0.83 rps
Qwen 2.5 72B Instruct ⚠️ 79 92 94 100 71 59 83 0.10 € 0.66 rps
Llama 3.1 405B Hermes 3🦙 68 93 89 100 88 53 82 0.54 € 0.49 rps
GPT-4 v1/0314 ☁️ 90 88 98 70 88 45 80 7.04 € 1.31 rps
GPT-4 v2/0613 ☁️ 90 83 95 70 88 45 78 7.04 € 2.16 rps
Claude 3 Opus ☁️ 69 88 100 78 76 58 78 4.69 € 0.41 rps
Claude 3.5 Sonnet ☁️ 72 83 89 85 80 58 78 0.94 € 0.09 rps
GPT-4 Turbo v4/0125-preview ☁️ 66 97 100 85 75 43 78 2.45 € 0.84 rps
GPT-4o Mini ☁️ 63 87 80 70 100 65 78 0.04 € 1.46 rps
Meta Llama3.1 405B Instruct🦙 81 93 92 70 75 48 76 2.39 € 1.16 rps
GPT-4 Turbo v3/1106-preview ☁️ 66 75 98 70 88 60 76 2.46 € 0.68 rps
DeepSeek v2.5 236B ⚠️ 57 80 91 78 88 57 75 0.03 € 0.42 rps
Google Gemini 1.5 Flash v2 ☁️ 64 96 89 75 81 44 75 0.06 € 2.01 rps
Google Gemini 1.5 Pro 0409 ☁️ 68 97 96 85 75 26 74 0.95 € 0.59 rps
Meta Llama 3.1 70B Instruct f16🦙 74 89 90 70 75 48 74 1.79 € 0.90 rps
GPT-3.5 v2/0613 ☁️ 68 81 73 81 81 50 72 0.34 € 1.46 rps
Meta Llama 3 70B Instruct🦙 81 83 84 60 81 45 72 0.06 € 0.85 rps
Mistral Large 123B v2/2407 ☁️ 68 79 68 75 75 70 72 0.86 € 1.02 rps
Google Gemini 1.5 Pro 0514 ☁️ 73 96 79 100 25 60 72 1.07 € 0.92 rps
Google Gemini 1.5 Flash 0514 ☁️ 32 97 100 75 72 52 71 0.06 € 1.77 rps
Google Gemini 1.0 Pro ☁️ 66 86 83 78 88 28 71 0.37 € 1.36 rps
Meta Llama 3.2 90B Vision🦙 74 84 87 78 71 32 71 0.23 € 1.10 rps
GPT-3.5 v3/1106 ☁️ 68 70 71 78 78 58 70 0.24 € 2.33 rps
GPT-3.5 v4/0125 ☁️ 63 87 71 78 78 43 70 0.12 € 1.43 rps
Qwen1.5 32B Chat f16 ⚠️ 70 90 82 78 78 20 69 0.97 € 1.66 rps
Cohere Command R+ ☁️ 63 80 76 70 70 58 69 0.83 € 1.90 rps
Gemma 2 27B IT ⚠️ 61 72 87 70 89 32 69 0.07 € 0.90 rps
Mistral 7B OpenChat-3.5 v3 0106 f16 ✅ 68 87 67 70 88 25 67 0.32 € 3.39 rps
Gemma 7B OpenChat-3.5 v3 0106 f16 ✅ 63 67 84 60 81 46 67 0.21 € 5.09 rps
Meta Llama 3 8B Instruct f16🦙 79 62 68 70 80 41 67 0.32 € 3.33 rps
Mistral 7B OpenChat-3.5 v2 1210 f16 ✅ 63 73 72 69 88 30 66 0.32 € 3.40 rps
Mistral 7B OpenChat-3.5 v1 f16 ✅ 58 72 72 70 88 33 65 0.49 € 2.20 rps
GPT-3.5-instruct 0914 ☁️ 47 92 69 62 88 33 65 0.35 € 2.15 rps
GPT-3.5 v1/0301 ☁️ 55 82 69 78 82 26 65 0.35 € 4.12 rps
Llama 3 8B OpenChat-3.6 20240522 f16 ✅ 76 51 76 60 88 38 65 0.28 € 3.79 rps
Mistral Nemo 12B v1/2407 ☁️ 54 58 51 100 75 49 64 0.03 € 1.22 rps
Meta Llama 3.2 11B Vision🦙 70 71 65 70 71 36 64 0.04 € 1.49 rps
Starling 7B-alpha f16 ⚠️ 58 66 67 70 88 34 64 0.58 € 1.85 rps
Llama 3 8B Hermes 2 Theta🦙 61 73 74 70 85 16 63 0.05 € 0.55 rps
Yi 1.5 34B Chat f16 ⚠️ 47 78 70 70 86 26 63 1.18 € 1.37 rps
Claude 3 Haiku ☁️ 64 69 64 70 75 35 63 0.08 € 0.52 rps
Meta Llama 3.1 8B Instruct f16🦙 57 74 62 70 74 32 61 0.45 € 2.41 rps
Qwen2 7B Instruct f32 ⚠️ 50 81 81 60 66 31 61 0.46 € 2.36 rps
Mistral Small v3/2409 ☁️ 43 75 71 75 75 26 61 0.06 € 0.81 rps
Claude 3 Sonnet ☁️ 72 41 74 70 78 28 61 0.95 € 0.85 rps
Mixtral 8x22B API (Instruct) ☁️ 53 62 62 100 75 7 60 0.17 € 3.12 rps
Mistral Pixtral 12B ✅ 53 69 73 60 64 40 60 0.03 € 0.83 rps
Codestral Mamba 7B v1 ✅ 53 66 51 100 71 17 60 0.30 € 2.82 rps
Anthropic Claude Instant v1.2 ☁️ 58 75 65 75 65 16 59 2.10 € 1.49 rps
Cohere Command R ☁️ 45 66 57 70 84 27 58 0.13 € 2.50 rps
Anthropic Claude v2.0 ☁️ 63 52 55 60 84 34 58 2.19 € 0.40 rps
Qwen1.5 7B Chat f16 ⚠️ 56 81 60 50 60 36 57 0.29 € 3.76 rps
Mistral Large v1/2402 ☁️ 37 49 70 78 84 25 57 0.58 € 2.11 rps
Microsoft WizardLM 2 8x22B ⚠️ 48 76 79 50 62 22 56 0.13 € 0.70 rps
Qwen1.5 14B Chat f16 ⚠️ 50 58 51 70 84 22 56 0.36 € 3.03 rps
Anthropic Claude v2.1 ☁️ 29 58 59 78 75 32 55 2.25 € 0.35 rps
Llama2 13B Vicuna-1.5 f16🦙 50 37 55 60 82 37 53 0.99 € 1.09 rps
Mistral 7B Instruct v0.1 f16 ☁️ 34 71 69 59 62 23 53 0.75 € 1.43 rps
Mistral 7B OpenOrca f16 ☁️ 54 57 76 25 78 27 53 0.41 € 2.65 rps
Meta Llama 3.2 3B🦙 52 71 66 70 44 14 53 0.01 € 1.25 rps
Google Recurrent Gemma 9B IT f16 ⚠️ 58 27 71 60 56 23 49 0.89 € 1.21 rps
Codestral 22B v1 ✅ 38 47 44 78 66 13 48 0.06 € 4.03 rps
Llama2 13B Hermes f16🦙 50 24 37 74 60 42 48 1.00 € 1.07 rps
IBM Granite 34B Code Instruct f16 ☁️ 63 49 34 70 57 7 47 1.07 € 1.51 rps
Mistral Small v2/2402 ☁️ 33 42 45 92 56 8 46 0.06 € 3.21 rps
DBRX 132B Instruct ⚠️ 43 39 43 77 59 10 45 0.26 € 1.31 rps
Mistral Medium v1/2312 ☁️ 41 43 44 61 62 12 44 0.81 € 0.35 rps
Meta Llama 3.2 1B🦙 32 40 33 40 68 51 44 0.02 € 1.69 rps
Llama2 13B Puffin f16🦙 37 15 44 70 56 39 43 4.70 € 0.23 rps
Mistral Small v1/2312 (Mixtral) ☁️ 10 67 63 52 56 8 43 0.06 € 2.21 rps
Microsoft WizardLM 2 7B ⚠️ 53 34 42 59 53 13 42 0.02 € 0.89 rps
Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️ 22 47 59 38 62 8 39 0.05 € 2.39 rps
Gemma 2 9B IT ⚠️ 45 25 47 34 68 13 38 0.02 € 0.88 rps
Meta Llama2 13B chat f16🦙 22 38 17 60 75 6 36 0.75 € 1.44 rps
Mistral 7B Zephyr-β f16 ✅ 37 34 46 59 29 4 35 0.46 € 2.34 rps
Meta Llama2 7B chat f16🦙 22 33 20 60 50 18 34 0.56 € 1.93 rps
Mistral 7B Notus-v1 f16 ⚠️ 10 54 25 52 48 4 32 0.75 € 1.43 rps
Orca 2 13B f16 ⚠️ 18 22 32 22 67 20 30 0.95 € 1.14 rps
Mistral 7B v0.1 f16 ☁️ 0 9 48 53 52 12 29 0.87 € 1.23 rps
Mistral 7B Instruct v0.2 f16 ☁️ 11 30 54 12 58 8 29 0.96 € 1.12 rps
Google Gemma 2B IT f16 ⚠️ 33 28 16 57 15 20 28 0.30 € 3.54 rps
Microsoft Phi 3 Medium 4K Instruct 14B f16 ⚠️ 5 34 30 11 47 8 22 0.82 € 1.32 rps
Orca 2 7B f16 ⚠️ 22 0 26 20 52 4 21 0.78 € 1.38 rps
Google Gemma 7B IT f16 ⚠️ 0 0 0 9 62 0 12 0.99 € 1.08 rps
Meta Llama2 7B f16🦙 0 5 22 3 28 2 10 0.95 € 1.13 rps
Yi 1.5 9B Chat f16 ⚠️ 0 4 29 9 0 8 8 1.41 € 0.76 rps
Code

Kann das Modell Code generieren und bei der Programmierung helfen?

Cost

Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.

CRM

Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

Docs

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

Integrate

Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

Marketing

Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

Reason

Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

Speed

Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.

ChatGPT o1-Modelle sind die besten

OpenAI hat einen radikal neuen Modelltyp namens o1-preview veröffentlicht, gefolgt von o1-mini. Diese einzigartigen Modelle unterscheiden sich von allen anderen LLM-Modellen auf dem Markt – sie führen für jede Anfrage eine eigene „Chain of Thought“-Routine durch. Dies ermöglicht es dem Modell, komplexe Probleme in kleinere Aufgaben zu zerlegen und die Antworten wirklich durchdacht zu formulieren.

Dieser Ansatz glänzt beispielsweise bei komplexen Full-Stack-Software-Engineering-Herausforderungen. Vergleicht man o1 mit dem „herkömmlichen“ GPT-4, fühlt es sich wie ein erfahrener Mid-Level-Software-Ingenieur an, der überraschend wenig Anleitung benötigt.

Es gibt jedoch einen Nachteil bei diesem „Chain of Thought unter der Haube“-Prozess. O1 liefert zwar qualitativ hochwertige Ergebnisse, aber diese Ergebnisse brauchen Zeit und sind deutlich teurer. Ein Blick auf die Preisspalte zeigt den Kostenunterschied.

Wir sind gespannt, ob andere LLM-Anbieter diesen Trick übernehmen und ihre eigenen Versionen von LLMs mit abgestimmter Chain-of-Thought-Routine veröffentlichen.

Google Gemini 1.5 Pro v 002 - TOP 3

Wenn wir über die Spitzenresultate und Cloud-Anbieter sprechen, gibt es ein weiteres neues Modell in den TOP-3. Google hat es irgendwie geschafft, mit der Geschwindigkeit des Fortschritts mitzuhalten und ein hoch konkurrenzfähiges Modell zu veröffentlichen – Gemini 1.5 Pro v002.

Dieses Modell verbessert sich systematisch gegenüber der vorherigen Version in mehreren Kategorien: Code, CRM, Dokumente und Marketingtexte. Es ist außerdem das günstigste Modell in den TOP-6 unseres Benchmarks.

Fachleute loben dieses Modell bereits für seine hervorragenden mehrsprachigen Fähigkeiten, und Google Cloud-Nutzer freuen sich, ein erstklassiges LLM in ihrer Cloud verfügbar zu haben.

Lange Zeit schien es, als ob nur OpenAI und Anthropic wirklich in der Lage wären, den Stand der Technik bei erstklassigen LLM-Modellen voranzutreiben. Es schien auch, als ob große Konzerne zu langsam und altmodisch wären, um etwas wirklich Bahnbrechendes zu veröffentlichen. Google hat schließlich bewiesen, dass dem nicht so ist.

So sieht der Fortschritt der Google-Modelle im Laufe der Zeit aus:

Es fühlt sich mittlerweile nicht mehr ungewöhnlich an, Modelle ähnlicher Qualität auch von Amazon oder Microsoft zu erwarten. Vielleicht wird dies eine neue Wettbewerbsrunde anstoßen, die zu weiteren Preissenkungen und Qualitätsverbesserungen führt.
Nun haben wir genug über die Cloud-Anbieter gesprochen, legen wir den Fokus jetzt auf lokale Modelle.

(Lokale Modelle sind Modelle, die Sie herunterladen und auf Ihrer eigenen Hardware ausführen können.)

Qwen 2.5 and DeepSeek 2.5

Das kürzlich veröffentlichte Qwen 2.5 Instruct ist überraschend gut. Es ist das erste lokale Modell, das Claude 3.5 Sonnet bei unseren Geschäftsanwendungen übertrifft. Zudem ist es günstiger als die anderen LLM-Modelle in den oberen Rängen.

Ab diesem Benchmark verwenden wir die OpenRouter-Preise als Basispreis für lokal nutzbare LLM-Modelle. Dies ermöglicht eine Kostenschätzung der Arbeitslasten basierend auf realen Marktpreisen. Es berücksichtigt auch alle sinnvollen Leistungsoptimierungen, die LLM-Anbieter nutzen, um ihre Margen zu verbessern.

Qwen 2.5 72B befolgt Anweisungen gewissenhaft (im Vergleich zu Sonnet 3.5 oder älteren GPT-4-Versionen) und verfügt über eine ordentliche Fähigkeit zur logischen Schlussfolgerung. Dieses chinesische Modell weist jedoch Lücken in den Bereichen Code und Marketing auf.

DeepSeek 2.5 schnitt in unseren Produkt-Benchmarks bei weitem nicht so gut ab, obwohl es eine enorme Größe von 236 Milliarden Parametern hat. Es läuft etwa auf dem Niveau älterer Versionen von GPT-4 und Gemini 1.5 Pro.

Das sind wirklich großartige Neuigkeiten: Immer mehr lokale Modelle erreichen das Intelligenzniveau von GPT-4 Turbo. Besonders beeindruckend ist, dass das kleinere Qwen 72B-Modell es mit deutlichem Vorsprung übertroffen hat – ein Erfolg, der eine eigene Feier verdient 🚀

Und wir sind überzeugt: Das wird nicht die letzte Überraschung in diesem Jahr sein.

Llama 3.2 – Mittelmäßige Ergebnisse, aber es gibt eine wichtige Nuance

Meta hat kürzlich die neuen Versionen seiner Llama-Modelle in der 3.2-Serie veröffentlicht.
Die größeren Modelle sind nun multimodal, was jedoch auf Kosten der kognitiven Fähigkeiten bei textbasierten Geschäftsanwendungen ging, verglichen mit den vorherigen Versionen. Llama 3.2 liegt weiterhin deutlich hinter den Spitzenmodellen zurück.

Ein Blick auf die Tabelle zeigt:

  • Das Llama 3.2 90B Vision-Modell arbeitet auf dem Niveau von Llama 3/3.1 70B, allerdings mit schwächerer logischer Schlussfolgerung.
  • Das Llama 3.2 11B Vision-Modell erreicht das Niveau des früheren 8B-Modells, jedoch ebenfalls mit einer geringeren Fähigkeit zur logischen Schlussfolgerung.

Das bedeutet nicht, dass die neuen Modelle schlechter sind – sie bieten jetzt mehr Funktionalitäten. Unser aktueller Benchmark bewertet jedoch ausschließlich textbasierte Geschäftsaufgaben. Vision-Aufgaben werden in der nächsten Version (v2) hinzugefügt.

Es gibt jedoch eine Besonderheit, die das Llama 3.2-Release wirklich bemerkenswert macht. Diese Besonderheit liegt in den neuen Modellen mit 1B und 3B Parametern. Diese kleinen Llama 3.2-Modelle wurden speziell für ressourcenbeschränkte Umgebungen und Edge-Anwendungen entwickelt (optimiert für ARM-Prozessoren sowie Qualcomm- und MediaTek-Hardware). Trotz der knappen Ressourcen bieten sie einen 128k-Token-Kontext und eine überraschend hohe Antwortqualität bei Geschäftsanwendungen.

Erinnern Sie sich an das riesige DBRX 132B Instruct-Modell, das als „neuer Maßstab für offene LLMs“ galt? Nun, das Llama 3.2 1B-Modell erreicht in unseren Benchmarks fast das gleiche Niveau, und das 3B-Modell übertrifft es sogar deutlich. Werfen Sie einfach einen Blick auf die Platzierungen dieser Modelle in der Tabelle:

Diese Version betont die entscheidenden Informationen präziser und flüssiger, was den Text noch ansprechender macht.

Beachten Sie, dass diese Benchmark-Ergebnisse auf den Basisversionen von Llama basieren. Maßgeschneiderte Feinabstimmungen verbessern die Gesamtleistung in der Regel noch weiter.

Wie Sie sehen können, bleibt der Fortschritt nicht stehen. Wir erwarten, dass sich der Trend fortsetzt, bei dem immer mehr Unternehmen es schaffen, bessere kognitive Fähigkeiten in kleinere Modelle zu integrieren.

Um diesen Trend zu verdeutlichen, haben wir alle Veröffentlichungen lokal nutzbarer Modelle über einen Zeitverlauf visualisiert und sie anhand der groben Hardwareanforderungen für deren Ausführung gruppiert. Für jede Gruppe haben wir den aktuellen Trend berechnet (linregress).

Hinweis: Diese Gruppierung ist nur eine grobe Einschätzung. Wir verwenden die am häufigsten genutzten Hardware-Kombinationen, die wir bei unseren Kunden und in der KI-Forschung gesehen haben. Wir gehen außerdem davon aus, dass die Inferenz im fp16-Modus läuft, ohne weitere Quantisierungen, und dass genügend VRAM verfügbar ist, um etwas Kontext im Speicher zu behalten.

Zum Schluss möchten wir noch einige Beobachtungen teilen:

  • Alle Modelle, sowohl kleine als auch große, verbessern sich kontinuierlich über die Zeit.
  • Interessante große Modelle sind erst in diesem Jahr wirklich in den Fokus gerückt.
  • Große Modelle verzeichnen derzeit die schnellsten Fortschritte.

Diese Erkenntnisse sind offensichtlich und erfordern eigentlich keine grafische Darstellung. Dennoch machen Visualisierungen den Fortschrittsgrad leichter verständlich. So lassen sich diese Informationen besser an Kunden vermitteln und in langfristige Planungen einbeziehen.

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Bitte Captcha lösen!

captcha image
Martin Warnung
Sales Consultant TIMETOACT GROUP Österreich GmbH +43 664 881 788 80
Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.07.24

LLM-Benchmarks Juli 2024

Unser LLM Leaderboard aus Juli 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Blog 20.02.25

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.08.24

LLM-Benchmarks August 2024

Anstelle unserer allgemeinen LLM Benchmarks, präsentieren wir Ihnen im August den ersten Benchmark verschiedener KI-Architekturen.

Blog 19.02.25

Knowledge Graphs: vernetzte Daten als Innovationsmotor

Stellen Sie sich ein großes Handelsunternehmen mit vielen Produkten, einer komplexen Lieferkette und weltweiten Kund:innen vor. Plötzlich fällt ein Lieferant aus und die Lieferkette ist unterbrochen. Jetzt muss schnell reagiert werden. Das Problem: Die Daten des Unternehmens sind überall verteilt - in Tabellen, Datenbanken, Cloud-Systemen, lokalen Datenservern. Es dauert mehrere Tage, bis die notwendigen Informationen für eine Entscheidung zusammengetragen sind. Viel zu lange, um die aktuelle Situation zu lösen. Diese Verzögerung kostet nicht nur Zeit, sondern auch Geld und möglicherweise Kund:innen.

Event Archive 26.02.25

AI Meetup 2024

Führende AI-Experten der TIMETOACT GROUP und aus unserem Partnernetzwerk laden Sie zu einem spannenden Abend im schönen Hauptquartier des AI Village ein, an dem wir das Thema Künstliche Intelligenz (AI) aus pragmatischer Sicht auf den Prüfstand stellen und konkrete Anwendungsbereiche aus der Praxis näher beleuchten.

Wissen 30.04.24

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Welche LLM-Modelle meistern Ihre Herausforderungen am besten? Werfen Sie einen Blick auf die Ergebnisse und finden Sie Ihr ideales Sprachmodell!

Workshop

KI Workshops für Unternehmen

Ob Grundlagen der KI, Prompt-Engineering oder Potenzial-Scouting: Unser vielfältiges KI-Workshop Angebot bietet für jeden Wunsch die passenden Inhalte.

Wissen 02.05.24

Das Potenzial der Datenkultur im Unternehmen ausschöpfen

Haben Sie schon einmal darüber nachgedacht, ob Ihr Unternehmen wirklich das volle Potenzial der Datenkultur ausschöpft? Stellen Sie sich einen Arbeitsplatz vor, an dem jeder Schritt, jede Entscheidung und jede Strategie auf fundierten und datengetriebenen Erkenntnissen basiert. Wo jeder Mitarbeiter das Vertrauen hat, sicher durch die digitale Landschaft zu navigieren. Unser neuer Deep Dive von Dr. Jan Hachenberger (engl. Sprache) beleuchtet die Welt der Datenkultur. Erfahren Sie, wie Sie gängige Mythen rund um datengetriebene Kulturen entlarven, die Grundpfeiler für eine erfolgreiche Datenkultur errichten und wertvolle Einblicke von Experten gewinnen können.

Blog 16.05.24

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz ist längst mehr als ein Schlagwort – sie schafft echten Business Value. Mit unserem achtstufigen Ansatz unterstützen wir Unternehmen auf dem Weg zur erfolgreichen AI-Nutzung.

Blog 17.05.24

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten sind ein Hype, und viele Teams arbeiten mit Begeisterung an ihrer Umsetzung. Doch in Europa und den USA scheitern viele an dieser Herausforderung. Damit Ihnen das nicht passiert, haben

Blog 16.05.24

Fehler in der Entwicklung von AI-Assistenten

Erfolgreiche AI-Assistenten starten mit den richtigen Learnings: Erfahren Sie, warum viele Unternehmen scheitern und wie Sie typische Fehler vermeiden – für eine optimale Umsetzung Ihrer AI-Projekte!

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.

Blog 20.02.24

Artificial Intelligence – No more experiments?!

Artificial Intelligence (AI) ist in aller Munde. Nach unserer Einschätzung – und damit deckungsgleich mit Prognosen von TechTarget, IDG und anderen Analysten – wird sich das auch im Jahr 2024 nicht ändern.

Blog 16.09.24

Business Innovation und Digitale Transformation mit AI

Die Implementierung von AI bietet enormes Potenzial für Unternehmen – von Effizienzsteigerungen bis hin zu völlig neuen Geschäftsmodellen. Doch wie jede technologische Revolution birgt sie auch Risiken und Fallstricke. In diesem Blogbeitrag werfen wir einen Blick auf die Potenziale von AI für Unternehmen und auf die häufigsten Fehler, die Sie bei der Einführung vermeiden sollten.