CHATGPT UND CO IM VERGLEICH

Die besten Sprachmodelle im September 2024

Die TIMETOACT GROUP LLM Benchmarks zeigen die leistungsstärksten KI-Sprachmodelle für die digitale Produktentwicklung. Erfahren Sie, welche Sprachmodelle im September am besten abgeschnitten haben.

Der September war spannend! In dieser Ausgabe der TIMETOACT GROUP LLM Benchmarks sprechen wir darüber, wie der aktuelle Stand der Technik vorangetrieben wird.

ChatGPT o1-Modelle sind die besten, aber es gibt eine kleine Einschränkung.
Gemini 1.5 Pro v002 - 3. Platz im Benchmark
Benchmarking Qwen 2.5 und DeepSeek 2.5 - Lokales Modell holt zu GPT-4 Turbo auf
Llama 3.2 - mittelmäßige Ergebnisse, aber auch hier gibt es eine kleine Einschränkung
Lokale LLM-Trends im Zeitverlauf

LLM Benchmarks | September 2024

Die Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz

Preise nicht anzeigen

Modell	Code	Crm	Docs	Integrate	Marketing	Reason	Ergebnis	Kosten	Speed
GPT o1-preview v1/2024-09-12 ☁️	95	92	94	96	88	87	92	52.32 €	0.08 rps
GPT o1-mini v1/2024-09-12 ☁️	93	96	94	85	82	87	90	8.15 €	0.16 rps
Google Gemini 1.5 Pro v2 ☁️	86	97	94	100	78	74	88	1.00 €	1.18 rps
GPT-4o v1/2024-05-13 ☁️	90	96	100	89	78	74	88	1.21 €	1.44 rps
GPT-4o v3/dyn-2024-08-13 ☁️	90	97	100	81	79	78	88	1.22 €	1.21 rps
GPT-4 Turbo v5/2024-04-09 ☁️	86	99	98	100	88	43	86	2.45 €	0.84 rps
GPT-4o v2/2024-08-06 ☁️	90	84	97	92	82	59	84	0.63 €	1.49 rps
Google Gemini 1.5 Pro 0801 ☁️	84	92	79	100	70	74	83	0.90 €	0.83 rps
Qwen 2.5 72B Instruct ⚠️	79	92	94	100	71	59	83	0.10 €	0.66 rps
Llama 3.1 405B Hermes 3🦙	68	93	89	100	88	53	82	0.54 €	0.49 rps
GPT-4 v1/0314 ☁️	90	88	98	70	88	45	80	7.04 €	1.31 rps
GPT-4 v2/0613 ☁️	90	83	95	70	88	45	78	7.04 €	2.16 rps
Claude 3 Opus ☁️	69	88	100	78	76	58	78	4.69 €	0.41 rps
Claude 3.5 Sonnet ☁️	72	83	89	85	80	58	78	0.94 €	0.09 rps
GPT-4 Turbo v4/0125-preview ☁️	66	97	100	85	75	43	78	2.45 €	0.84 rps
GPT-4o Mini ☁️	63	87	80	70	100	65	78	0.04 €	1.46 rps
Meta Llama3.1 405B Instruct🦙	81	93	92	70	75	48	76	2.39 €	1.16 rps
GPT-4 Turbo v3/1106-preview ☁️	66	75	98	70	88	60	76	2.46 €	0.68 rps
DeepSeek v2.5 236B ⚠️	57	80	91	78	88	57	75	0.03 €	0.42 rps
Google Gemini 1.5 Flash v2 ☁️	64	96	89	75	81	44	75	0.06 €	2.01 rps
Google Gemini 1.5 Pro 0409 ☁️	68	97	96	85	75	26	74	0.95 €	0.59 rps
Meta Llama 3.1 70B Instruct f16🦙	74	89	90	70	75	48	74	1.79 €	0.90 rps
GPT-3.5 v2/0613 ☁️	68	81	73	81	81	50	72	0.34 €	1.46 rps
Meta Llama 3 70B Instruct🦙	81	83	84	60	81	45	72	0.06 €	0.85 rps
Mistral Large 123B v2/2407 ☁️	68	79	68	75	75	70	72	0.86 €	1.02 rps
Google Gemini 1.5 Pro 0514 ☁️	73	96	79	100	25	60	72	1.07 €	0.92 rps
Google Gemini 1.5 Flash 0514 ☁️	32	97	100	75	72	52	71	0.06 €	1.77 rps
Google Gemini 1.0 Pro ☁️	66	86	83	78	88	28	71	0.37 €	1.36 rps
Meta Llama 3.2 90B Vision🦙	74	84	87	78	71	32	71	0.23 €	1.10 rps
GPT-3.5 v3/1106 ☁️	68	70	71	78	78	58	70	0.24 €	2.33 rps
GPT-3.5 v4/0125 ☁️	63	87	71	78	78	43	70	0.12 €	1.43 rps
Qwen1.5 32B Chat f16 ⚠️	70	90	82	78	78	20	69	0.97 €	1.66 rps
Cohere Command R+ ☁️	63	80	76	70	70	58	69	0.83 €	1.90 rps
Gemma 2 27B IT ⚠️	61	72	87	70	89	32	69	0.07 €	0.90 rps
Mistral 7B OpenChat-3.5 v3 0106 f16 ✅	68	87	67	70	88	25	67	0.32 €	3.39 rps
Gemma 7B OpenChat-3.5 v3 0106 f16 ✅	63	67	84	60	81	46	67	0.21 €	5.09 rps
Meta Llama 3 8B Instruct f16🦙	79	62	68	70	80	41	67	0.32 €	3.33 rps
Mistral 7B OpenChat-3.5 v2 1210 f16 ✅	63	73	72	69	88	30	66	0.32 €	3.40 rps
Mistral 7B OpenChat-3.5 v1 f16 ✅	58	72	72	70	88	33	65	0.49 €	2.20 rps
GPT-3.5-instruct 0914 ☁️	47	92	69	62	88	33	65	0.35 €	2.15 rps
GPT-3.5 v1/0301 ☁️	55	82	69	78	82	26	65	0.35 €	4.12 rps
Llama 3 8B OpenChat-3.6 20240522 f16 ✅	76	51	76	60	88	38	65	0.28 €	3.79 rps
Mistral Nemo 12B v1/2407 ☁️	54	58	51	100	75	49	64	0.03 €	1.22 rps
Meta Llama 3.2 11B Vision🦙	70	71	65	70	71	36	64	0.04 €	1.49 rps
Starling 7B-alpha f16 ⚠️	58	66	67	70	88	34	64	0.58 €	1.85 rps
Llama 3 8B Hermes 2 Theta🦙	61	73	74	70	85	16	63	0.05 €	0.55 rps
Yi 1.5 34B Chat f16 ⚠️	47	78	70	70	86	26	63	1.18 €	1.37 rps
Claude 3 Haiku ☁️	64	69	64	70	75	35	63	0.08 €	0.52 rps
Meta Llama 3.1 8B Instruct f16🦙	57	74	62	70	74	32	61	0.45 €	2.41 rps
Qwen2 7B Instruct f32 ⚠️	50	81	81	60	66	31	61	0.46 €	2.36 rps
Mistral Small v3/2409 ☁️	43	75	71	75	75	26	61	0.06 €	0.81 rps
Claude 3 Sonnet ☁️	72	41	74	70	78	28	61	0.95 €	0.85 rps
Mixtral 8x22B API (Instruct) ☁️	53	62	62	100	75	7	60	0.17 €	3.12 rps
Mistral Pixtral 12B ✅	53	69	73	60	64	40	60	0.03 €	0.83 rps
Codestral Mamba 7B v1 ✅	53	66	51	100	71	17	60	0.30 €	2.82 rps
Anthropic Claude Instant v1.2 ☁️	58	75	65	75	65	16	59	2.10 €	1.49 rps
Cohere Command R ☁️	45	66	57	70	84	27	58	0.13 €	2.50 rps
Anthropic Claude v2.0 ☁️	63	52	55	60	84	34	58	2.19 €	0.40 rps
Qwen1.5 7B Chat f16 ⚠️	56	81	60	50	60	36	57	0.29 €	3.76 rps
Mistral Large v1/2402 ☁️	37	49	70	78	84	25	57	0.58 €	2.11 rps
Microsoft WizardLM 2 8x22B ⚠️	48	76	79	50	62	22	56	0.13 €	0.70 rps
Qwen1.5 14B Chat f16 ⚠️	50	58	51	70	84	22	56	0.36 €	3.03 rps
Anthropic Claude v2.1 ☁️	29	58	59	78	75	32	55	2.25 €	0.35 rps
Llama2 13B Vicuna-1.5 f16🦙	50	37	55	60	82	37	53	0.99 €	1.09 rps
Mistral 7B Instruct v0.1 f16 ☁️	34	71	69	59	62	23	53	0.75 €	1.43 rps
Mistral 7B OpenOrca f16 ☁️	54	57	76	25	78	27	53	0.41 €	2.65 rps
Meta Llama 3.2 3B🦙	52	71	66	70	44	14	53	0.01 €	1.25 rps
Google Recurrent Gemma 9B IT f16 ⚠️	58	27	71	60	56	23	49	0.89 €	1.21 rps
Codestral 22B v1 ✅	38	47	44	78	66	13	48	0.06 €	4.03 rps
Llama2 13B Hermes f16🦙	50	24	37	74	60	42	48	1.00 €	1.07 rps
IBM Granite 34B Code Instruct f16 ☁️	63	49	34	70	57	7	47	1.07 €	1.51 rps
Mistral Small v2/2402 ☁️	33	42	45	92	56	8	46	0.06 €	3.21 rps
DBRX 132B Instruct ⚠️	43	39	43	77	59	10	45	0.26 €	1.31 rps
Mistral Medium v1/2312 ☁️	41	43	44	61	62	12	44	0.81 €	0.35 rps
Meta Llama 3.2 1B🦙	32	40	33	40	68	51	44	0.02 €	1.69 rps
Llama2 13B Puffin f16🦙	37	15	44	70	56	39	43	4.70 €	0.23 rps
Mistral Small v1/2312 (Mixtral) ☁️	10	67	63	52	56	8	43	0.06 €	2.21 rps
Microsoft WizardLM 2 7B ⚠️	53	34	42	59	53	13	42	0.02 €	0.89 rps
Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️	22	47	59	38	62	8	39	0.05 €	2.39 rps
Gemma 2 9B IT ⚠️	45	25	47	34	68	13	38	0.02 €	0.88 rps
Meta Llama2 13B chat f16🦙	22	38	17	60	75	6	36	0.75 €	1.44 rps
Mistral 7B Zephyr-β f16 ✅	37	34	46	59	29	4	35	0.46 €	2.34 rps
Meta Llama2 7B chat f16🦙	22	33	20	60	50	18	34	0.56 €	1.93 rps
Mistral 7B Notus-v1 f16 ⚠️	10	54	25	52	48	4	32	0.75 €	1.43 rps
Orca 2 13B f16 ⚠️	18	22	32	22	67	20	30	0.95 €	1.14 rps
Mistral 7B v0.1 f16 ☁️	0	9	48	53	52	12	29	0.87 €	1.23 rps
Mistral 7B Instruct v0.2 f16 ☁️	11	30	54	12	58	8	29	0.96 €	1.12 rps
Google Gemma 2B IT f16 ⚠️	33	28	16	57	15	20	28	0.30 €	3.54 rps
Microsoft Phi 3 Medium 4K Instruct 14B f16 ⚠️	5	34	30	11	47	8	22	0.82 €	1.32 rps
Orca 2 7B f16 ⚠️	22	0	26	20	52	4	21	0.78 €	1.38 rps
Google Gemma 7B IT f16 ⚠️	0	0	0	9	62	0	12	0.99 €	1.08 rps
Meta Llama2 7B f16🦙	0	5	22	3	28	2	10	0.95 €	1.13 rps
Yi 1.5 9B Chat f16 ⚠️	0	4	29	9	0	8	8	1.41 €	0.76 rps

Code

Kann das Modell Code generieren und bei der Programmierung helfen?

Cost

Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.

CRM

Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

Docs

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

Integrate

Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

Marketing

Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

Reason

Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

Speed

Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.

ChatGPT o1-Modelle sind die besten

OpenAI hat einen radikal neuen Modelltyp namens o1-preview veröffentlicht, gefolgt von o1-mini. Diese einzigartigen Modelle unterscheiden sich von allen anderen LLM-Modellen auf dem Markt – sie führen für jede Anfrage eine eigene „Chain of Thought“-Routine durch. Dies ermöglicht es dem Modell, komplexe Probleme in kleinere Aufgaben zu zerlegen und die Antworten wirklich durchdacht zu formulieren.

Dieser Ansatz glänzt beispielsweise bei komplexen Full-Stack-Software-Engineering-Herausforderungen. Vergleicht man o1 mit dem „herkömmlichen“ GPT-4, fühlt es sich wie ein erfahrener Mid-Level-Software-Ingenieur an, der überraschend wenig Anleitung benötigt.

Es gibt jedoch einen Nachteil bei diesem „Chain of Thought unter der Haube“-Prozess. O1 liefert zwar qualitativ hochwertige Ergebnisse, aber diese Ergebnisse brauchen Zeit und sind deutlich teurer. Ein Blick auf die Preisspalte zeigt den Kostenunterschied.

Wir sind gespannt, ob andere LLM-Anbieter diesen Trick übernehmen und ihre eigenen Versionen von LLMs mit abgestimmter Chain-of-Thought-Routine veröffentlichen.

Google Gemini 1.5 Pro v 002 - TOP 3

Wenn wir über die Spitzenresultate und Cloud-Anbieter sprechen, gibt es ein weiteres neues Modell in den TOP-3. Google hat es irgendwie geschafft, mit der Geschwindigkeit des Fortschritts mitzuhalten und ein hoch konkurrenzfähiges Modell zu veröffentlichen – Gemini 1.5 Pro v002.

Dieses Modell verbessert sich systematisch gegenüber der vorherigen Version in mehreren Kategorien: Code, CRM, Dokumente und Marketingtexte. Es ist außerdem das günstigste Modell in den TOP-6 unseres Benchmarks.

Fachleute loben dieses Modell bereits für seine hervorragenden mehrsprachigen Fähigkeiten, und Google Cloud-Nutzer freuen sich, ein erstklassiges LLM in ihrer Cloud verfügbar zu haben.

Lange Zeit schien es, als ob nur OpenAI und Anthropic wirklich in der Lage wären, den Stand der Technik bei erstklassigen LLM-Modellen voranzutreiben. Es schien auch, als ob große Konzerne zu langsam und altmodisch wären, um etwas wirklich Bahnbrechendes zu veröffentlichen. Google hat schließlich bewiesen, dass dem nicht so ist.

So sieht der Fortschritt der Google-Modelle im Laufe der Zeit aus:

Es fühlt sich mittlerweile nicht mehr ungewöhnlich an, Modelle ähnlicher Qualität auch von Amazon oder Microsoft zu erwarten. Vielleicht wird dies eine neue Wettbewerbsrunde anstoßen, die zu weiteren Preissenkungen und Qualitätsverbesserungen führt.
Nun haben wir genug über die Cloud-Anbieter gesprochen, legen wir den Fokus jetzt auf lokale Modelle.

(Lokale Modelle sind Modelle, die Sie herunterladen und auf Ihrer eigenen Hardware ausführen können.)

Qwen 2.5 and DeepSeek 2.5

Das kürzlich veröffentlichte Qwen 2.5 Instruct ist überraschend gut. Es ist das erste lokale Modell, das Claude 3.5 Sonnet bei unseren Geschäftsanwendungen übertrifft. Zudem ist es günstiger als die anderen LLM-Modelle in den oberen Rängen.

Ab diesem Benchmark verwenden wir die OpenRouter-Preise als Basispreis für lokal nutzbare LLM-Modelle. Dies ermöglicht eine Kostenschätzung der Arbeitslasten basierend auf realen Marktpreisen. Es berücksichtigt auch alle sinnvollen Leistungsoptimierungen, die LLM-Anbieter nutzen, um ihre Margen zu verbessern.

Qwen 2.5 72B befolgt Anweisungen gewissenhaft (im Vergleich zu Sonnet 3.5 oder älteren GPT-4-Versionen) und verfügt über eine ordentliche Fähigkeit zur logischen Schlussfolgerung. Dieses chinesische Modell weist jedoch Lücken in den Bereichen Code und Marketing auf.

DeepSeek 2.5 schnitt in unseren Produkt-Benchmarks bei weitem nicht so gut ab, obwohl es eine enorme Größe von 236 Milliarden Parametern hat. Es läuft etwa auf dem Niveau älterer Versionen von GPT-4 und Gemini 1.5 Pro.

Das sind wirklich großartige Neuigkeiten: Immer mehr lokale Modelle erreichen das Intelligenzniveau von GPT-4 Turbo. Besonders beeindruckend ist, dass das kleinere Qwen 72B-Modell es mit deutlichem Vorsprung übertroffen hat – ein Erfolg, der eine eigene Feier verdient 🚀

Und wir sind überzeugt: Das wird nicht die letzte Überraschung in diesem Jahr sein.

Llama 3.2 – Mittelmäßige Ergebnisse, aber es gibt eine wichtige Nuance

Meta hat kürzlich die neuen Versionen seiner Llama-Modelle in der 3.2-Serie veröffentlicht.
Die größeren Modelle sind nun multimodal, was jedoch auf Kosten der kognitiven Fähigkeiten bei textbasierten Geschäftsanwendungen ging, verglichen mit den vorherigen Versionen. Llama 3.2 liegt weiterhin deutlich hinter den Spitzenmodellen zurück.

Ein Blick auf die Tabelle zeigt:

Das Llama 3.2 90B Vision-Modell arbeitet auf dem Niveau von Llama 3/3.1 70B, allerdings mit schwächerer logischer Schlussfolgerung.
Das Llama 3.2 11B Vision-Modell erreicht das Niveau des früheren 8B-Modells, jedoch ebenfalls mit einer geringeren Fähigkeit zur logischen Schlussfolgerung.

Das bedeutet nicht, dass die neuen Modelle schlechter sind – sie bieten jetzt mehr Funktionalitäten. Unser aktueller Benchmark bewertet jedoch ausschließlich textbasierte Geschäftsaufgaben. Vision-Aufgaben werden in der nächsten Version (v2) hinzugefügt.

Es gibt jedoch eine Besonderheit, die das Llama 3.2-Release wirklich bemerkenswert macht. Diese Besonderheit liegt in den neuen Modellen mit 1B und 3B Parametern. Diese kleinen Llama 3.2-Modelle wurden speziell für ressourcenbeschränkte Umgebungen und Edge-Anwendungen entwickelt (optimiert für ARM-Prozessoren sowie Qualcomm- und MediaTek-Hardware). Trotz der knappen Ressourcen bieten sie einen 128k-Token-Kontext und eine überraschend hohe Antwortqualität bei Geschäftsanwendungen.

Erinnern Sie sich an das riesige DBRX 132B Instruct-Modell, das als „neuer Maßstab für offene LLMs“ galt? Nun, das Llama 3.2 1B-Modell erreicht in unseren Benchmarks fast das gleiche Niveau, und das 3B-Modell übertrifft es sogar deutlich. Werfen Sie einfach einen Blick auf die Platzierungen dieser Modelle in der Tabelle:

Diese Version betont die entscheidenden Informationen präziser und flüssiger, was den Text noch ansprechender macht.

Beachten Sie, dass diese Benchmark-Ergebnisse auf den Basisversionen von Llama basieren. Maßgeschneiderte Feinabstimmungen verbessern die Gesamtleistung in der Regel noch weiter.

Wie Sie sehen können, bleibt der Fortschritt nicht stehen. Wir erwarten, dass sich der Trend fortsetzt, bei dem immer mehr Unternehmen es schaffen, bessere kognitive Fähigkeiten in kleinere Modelle zu integrieren.

Um diesen Trend zu verdeutlichen, haben wir alle Veröffentlichungen lokal nutzbarer Modelle über einen Zeitverlauf visualisiert und sie anhand der groben Hardwareanforderungen für deren Ausführung gruppiert. Für jede Gruppe haben wir den aktuellen Trend berechnet (linregress).

Hinweis: Diese Gruppierung ist nur eine grobe Einschätzung. Wir verwenden die am häufigsten genutzten Hardware-Kombinationen, die wir bei unseren Kunden und in der KI-Forschung gesehen haben. Wir gehen außerdem davon aus, dass die Inferenz im fp16-Modus läuft, ohne weitere Quantisierungen, und dass genügend VRAM verfügbar ist, um etwas Kontext im Speicher zu behalten.

Zum Schluss möchten wir noch einige Beobachtungen teilen:

Alle Modelle, sowohl kleine als auch große, verbessern sich kontinuierlich über die Zeit.
Interessante große Modelle sind erst in diesem Jahr wirklich in den Fokus gerückt.
Große Modelle verzeichnen derzeit die schnellsten Fortschritte.

Diese Erkenntnisse sind offensichtlich und erfordern eigentlich keine grafische Darstellung. Dennoch machen Visualisierungen den Fortschrittsgrad leichter verständlich. So lassen sich diese Informationen besser an Kunden vermitteln und in langfristige Planungen einbeziehen.

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

Vorname

Nachname *

Unternehmen *

E-Mail *

Telefonnummer

Ihre Nachricht *

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Martin Warnung

Sales Consultant TIMETOACT GROUP Österreich GmbH +43 664 881 788 80

Kontakt

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Insights 17.03.25

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Februar 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.04.24

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Welche LLM-Modelle meistern Ihre Herausforderungen am besten? Werfen Sie einen Blick auf die Ergebnisse und finden Sie Ihr ideales Sprachmodell!

Wissen 30.07.24

LLM-Benchmarks Juli 2024

Unser LLM Leaderboard aus Juli 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.08.24

LLM-Benchmarks August 2024

Anstelle unserer allgemeinen LLM Benchmarks, präsentieren wir Ihnen im August den ersten Benchmark verschiedener KI-Architekturen.

Blog 16.05.24

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz ist längst mehr als ein Schlagwort – sie schafft echten Business Value. Mit unserem achtstufigen Ansatz unterstützen wir Unternehmen auf dem Weg zur erfolgreichen AI-Nutzung.

Blog 16.05.24

Fehler in der Entwicklung von AI-Assistenten

Erfolgreiche AI-Assistenten starten mit den richtigen Learnings: Erfahren Sie, warum viele Unternehmen scheitern und wie Sie typische Fehler vermeiden – für eine optimale Umsetzung Ihrer AI-Projekte!

Blog 17.05.24

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten sind ein Hype, und viele Teams arbeiten mit Begeisterung an ihrer Umsetzung. Doch in Europa und den USA scheitern viele an dieser Herausforderung. Damit Ihnen das nicht passiert, haben

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.

Blog 19.02.25

Knowledge Graphs: vernetzte Daten als Innovationsmotor

Erfahren Sie, wie Knowledge Graphs Datensilos auflösen, Echtzeit-Analysen ermöglichen und AI-basierte Entscheidungen optimieren können.

Workshop

KI Workshops für Unternehmen

Ob Grundlagen der KI, Prompt-Engineering oder Potenzial-Scouting: Unser vielfältiges KI-Workshop Angebot bietet für jeden Wunsch die passenden Inhalte.

Insights

Team-Leaderboard der Enterprise RAG Challenge

Das Team-Leaderboard fasst alle eingereichten Beiträge zusammen – auch jene, die nach Bekanntgabe der Ground Truth eingereicht wurden. Daher betrachten wir diese Rangliste als inoffizielle Übersicht.

Insights

IBM watsonx Leaderboard der Enterprise RAG Challenge

Insights

LLM Benchmarks März 2025

Was gibt’s Neues in der Welt der LLMs? Finden Sie es heraus – und lesen Sie, warum Google DeepMind uns im vergangenen Monat gleich mehrfach überrascht hat.

Die besten Sprachmodelle im September 2024

LLM Benchmarks | September 2024

ChatGPT o1-Modelle sind die besten

Google Gemini 1.5 Pro v 002 - TOP 3

Qwen 2.5 and DeepSeek 2.5

Llama 3.2 – Mittelmäßige Ergebnisse, aber es gibt eine wichtige Nuance

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Erfahren Sie mehr

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

ChatGPT & Co: November-Benchmarks für Sprachmodelle

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

GPT & Co: Die besten Sprachmodelle für digitale Produkte

LLM-Benchmarks Juli 2024

LLM-Benchmarks Juni 2024

LLM-Benchmarks Mai 2024

LLM-Benchmarks April 2024

LLM-Benchmarks August 2024

In 8 Schritten zu AI-Innovationen im Unternehmen

Fehler in der Entwicklung von AI-Assistenten

8 Tipps zur Entwicklung von AI-Assistenten

Die Zukunft der KI: Enterprise RAG Challenge

Knowledge Graphs: vernetzte Daten als Innovationsmotor

KI Workshops für Unternehmen

Team-Leaderboard der Enterprise RAG Challenge

IBM watsonx Leaderboard der Enterprise RAG Challenge

LLM Benchmarks März 2025