Die besten Sprachmodelle für digitale Produkte

Benchmarks für Mai 2024

Basierend auf echten Benchmark-Daten aus unseren eigenen Softwareprodukten haben wir die Leistungsfähigkeit verschiedener LLM-Modelle bei der Bewältigung spezifischer Herausforderungen bewertet. Dabei wurden spezifische Kategorien wie Dokumentenverarbeitung, CRM-Integration, externe Integration, Marketingunterstützung und Codegenerierung untersucht.  

Die Highlights des Monats:

LLM Benchmarks | Mai 2024

Unsere Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz

Eine genauere Erläuterung zu den jeweiligen Kategorien finden Sie unter der Tabelle.

modelcodecrmdocsintegratemarketingreasonfinal 🏆CostSpeed
GPT-4o ☁️8595100908275881.24 €1.49 rps
GPT-4 Turbo v5/2024-04-09 ☁️809998938845842.51 €0.83 rps
GPT-4 v1/0314 ☁️808898528850767.19 €1.26 rps
GPT-4 Turbo v4/0125-preview ☁️6097100717545752.51 €0.82 rps
GPT-4 v2/0613 ☁️808395528850747.19 €2.07 rps
Claude 3 Opus ☁️6488100537659734.83 €0.41 rps
GPT-4 Turbo v3/1106-preview ☁️607598528862722.52 €0.68 rps
Gemini Pro 1.5 0514 ☁️6796751002562712.06 €0.91 rps
Gemini Pro 1.5 0409 ☁️629796637528701.89 €0.58 rps
GPT-3.5 v2/0613 ☁️627973758148700.35 €1.39 rps
GPT-3.5 v3/1106 ☁️626871637859670.24 €2.29 rps
Gemini 1.5 Flash 0514 ☁️3297100567241660.10 €1.76 rps
GPT-3.5 v4/0125 ☁️588571607847660.13 €1.41 rps
Gemini Pro 1.0 ☁️558683608826660.10 €1.35 rps
Cohere Command R+ ☁️587776497059650.85 €1.88 rps
Qwen1.5 32B Chat f16 ⚠️648782567815641.02 €1.61 rps
GPT-3.5-instruct 0914 ☁️449069608832640.36 €2.12 rps
Mistral 7B OpenChat-3.5 v3 0106 f16 ✅568667528826620.37 €2.99 rps
Meta Llama 3 8B Instruct f16🦙746068498042620.35 €3.16 rps
GPT-3.5 v1/0301 ☁️497569678224610.36 €3.93 rps
Starling 7B-alpha f16 ⚠️516667528836600.61 €1.80 rps
Mistral 7B OpenChat-3.5 v1 f16 ✅467272498831600.51 €2.14 rps
Claude 3 Haiku ☁️596964557533590.08 €0.53 rps
Mixtral 8x22B API (Instruct) ☁️47626294757580.18 €3.01 rps
Mistral 7B OpenChat-3.5 v2 1210 f16 ✅517472417531570.36 €3.05 rps
Claude 3 Sonnet ☁️674174527830570.97 €0.85 rps
Mistral Large v1/2402 ☁️334970758425562.19 €2.04 rps
Anthropic Claude Instant v1.2 ☁️517565596514552.15 €1.47 rps
Anthropic Claude v2.0 ☁️575255458435552.24 €0.40 rps
Cohere Command R ☁️396357558426540.13 €2.47 rps
Qwen1.5 7B Chat f16 ⚠️518160346036540.30 €3.62 rps
Anthropic Claude v2.1 ☁️365859607533532.31 €0.35 rps
Qwen1.5 14B Chat f16 ⚠️445851498417510.38 €2.90 rps
Meta Llama 3 70B Instruct b8🦙467253298218507.32 €0.22 rps
Mistral 7B OpenOrca f16 ☁️425776217826500.43 €2.55 rps
Mistral 7B Instruct v0.1 f16 ☁️317069446221500.79 €1.39 rps
Llama2 13B Vicuna-1.5 f16🦙363753398238481.02 €1.07 rps
Llama2 13B Hermes f16🦙382330616043421.03 €1.06 rps
Llama2 13B Hermes b8🦙322429616043424.94 €0.22 rps
Mistral Small v1/2312 (Mixtral) ☁️10586551568410.19 €2.17 rps
Mistral Small v2/2402 ☁️27353682568410.19 €3.14 rps
IBM Granite 34B Code Instruct f16 ☁️52493044575401.12 €1.46 rps
Llama2 13B Puffin f16🦙371238485641394.89 €0.22 rps
Mistral Medium v1/2312 ☁️363027596212380.83 €0.35 rps
Llama2 13B Puffin b8🦙37937465639378.65 €0.13 rps
Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️13395740598360.05 €2.30 rps
Llama2 13B chat f16🦙15381745758330.76 €1.43 rps
Llama2 13B chat b8🦙15381545756323.35 €0.33 rps
Mistral 7B Zephyr-β f16 ✅28344644294310.51 €2.14 rps
Llama2 7B chat f16🦙203320425020310.59 €1.86 rps
Mistral 7B Notus-v1 f16 ⚠️16432541484300.80 €1.37 rps
Orca 2 13B f16 ⚠️152232226719290.99 €1.11 rps
Microsoft Phi 3 Mini 4K Instruct f16 ⚠️36242617508270.95 €1.15 rps
Mistral 7B Instruct v0.2 f16 ☁️7215013588261.00 €1.10 rps
Mistral 7B f16 ☁️0442425212250.93 €1.17 rps
Orca 2 7B f16 ⚠️1302418524190.81 €1.34 rps
Llama2 7B f16🦙0218328291.01 €1.08 rps

Die Benchmark-Kategorien im Detail

Hier erfahren Sie, was wir mit den unterschiedlichen Kategorien der LLM Leaderboards genau untersuchen

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

Kann das Modell Code generieren und bei der Programmierung helfen?

Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.

Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.


Tiefere Einblicke

Google Gemini 1.5 - Pro and Flash

Die vor kurzem veröffentlichte Ankündigung von Google IO drehte sich ganz um die KI und Gemini Pro. Obwohl Google offenbar auf Gemini Ultra vergessen hat (es sollte Anfang dieses Jahres herauskommen), haben sie einige Modelle aktualisiert.

GEMINI PRO 1.5 0514: VERÄNDERTE STÄRKEN

Gemini Pro 1.5 0514 tauscht einige Dokumentenverständnisfähigkeiten zugunsten eines besseren logischen Denkens aus. Es stellt sich als eine etwas bessere Version als die vorherige Gemini Pro-Version heraus.

In unserer Erfahrung war es zu diesem Zeitpunkt auch etwas fehlerhaft. Wir haben eine Reihe von Serverfehlern erlebt und es sogar geschafft, eine „HARM_CATEGORY_DANGEROUS_CONTENT“-Flag zu erhalten.

EXZELLENTE “INTEGRATE” FÄHIGKEITEN

Gemini Pro 1.5 erzielte eine perfekte „Integrate“-Punktzahl, bei der wir die Fähigkeit des LLM messen, Anweisungen zuverlässig zu befolgen und mit externen Systemen, Plugins und Datenformaten zu arbeiten.

GEMINI 1.5 FLASH ALS INTERESSANTE ALTERNATIVE ZU GPT-3.5

Gemini 1.5 Flash ist eine interessante neue Ergänzung der Familie. Es funktioniert gut bei Dokumentenaufgaben und hat eine angemessene logische Denkfähigkeit. Kombiniert man das mit einem sehr niedrigen Preis, erhält man eine gute Alternative zu GPT-3.5.

Beachten Sie nur das eigenartige Pricing-Modell von Google Gemini - sie berechnen den Text nicht nach Tokens, sondern nach verrechenbaren Symbolen (Unicode-Codepunkte minus Leerzeichen). Wir haben gesehen, dass mehrere Entwickler:innen und sogar SaaS-Systeme Fehler bei der Kostenschätzung gemacht haben.

GPT-4o - Klar an der Spitze, aber mit einem Vorbehalt

GPT-4o sieht auf den ersten Blick perfekt aus. Es ist schneller und günstiger als GPT-4 Turbo. Es hat auch einen Kontext von 128K, erzielt höhere Punktzahlen, hat native Multimodalität und versteht Sprachen besser.

Zusätzlich hat es einen neuen Tokenisierer mit einem größeren Wörterbuch. Dies führt zu reduzierten Token-Anzahlen.

Insgesamt sind die Modellbewertungen nicht viel höher gestiegen, da wir bereits an der Grenze unseres LLM Benchmarks arbeiten.
Es gibt nur einen Haken: Unsere Kategorie "Reason" (Fähigkeit der Modelle, komplexe logische und Denkaufgaben zu bewältigen) wurde von Natur aus schwierig gestaltet. GPT-4o schaffte es, die Punktzahl von 62 (GPT-4 Turbo v3/1106-preview) auf 75 zu erhöhen.

Was ist der Vorbehalt?

Sie sehen, OpenAI scheint in Zyklen zu arbeiten. Sie wechseln zwischen: „Lasst uns ein besseres Modell machen“ und „Lasst uns ein günstigeres Modell machen, ohne zu viel Qualität einzubüßen“.

Obwohl die LLM-Benchmarks es nicht erfassen, fühlt es sich an, als gehöre das GPT-4o-Modell zu den Kostenreduktions-Modellen. Es funktioniert erstaunlich gut bei kleinen Eingaben, jedoch zeigen andere Benchmarks, dass es nicht so gut mit größeren Kontexten umgehen kann wie die anderen GPT-4-Modelle. Es scheint auch an logischem Denken zu mangeln, obwohl aktuelle Benchmarks diese Regression nicht erfassen können.

Tipp

Derzeit ist das GPT-4 Turbo v5/2024-04-09 unser empfohlenes Standardmodell.

Qwen 1.5 Chat

HOHE NACHFRAGE UND LMSYS ARENA BEWERTUNGEN

Aufgrund der hohen Nachfrage und der guten Bewertungen in der LMSYS Arena haben wir uns entschieden, einige Varianten des Qwen Chat-Modells von Alibaba Cloud zu benchmarken.

BEWERTUNG VON QWEN 1.5 32B CHAT

Qwen 1.5 32B Chat ist im Allgemeinen ziemlich gut. Es liegt im Bereich der GPT-3.5-Modelle und Gemini Pro 1.0. Es kommt jedoch mit einer nicht standardmäßigen Lizenz.

Wir haben auch Qwen 1.5 7B und 14B getestet - auch sie sind für ihre relative Größe ziemlich gut. Nichts Besonderes, aber dennoch eine anständige Leistung.

Die Lizenz von Qwen1.5 Chat ist das chinesische Äquivalent zu Llama 3: Sie können es frei für kommerzielle Zwecke verwenden, wenn Sie weniger als 100 Millionen MAU (Monatlich Aktive Nutzer) haben. Dies könnte die Einführung des Modells in den USA und der EU erschweren.

IBM Granite 34B Code Instruct

IBM Granite-Modelle sind eine besondere Art von Modellen. IBM geht weiter als viele andere, um Modelle mit klaren und transparenten Datenquellen zu trainieren.

Das ist jedoch das einzige Besondere an ihren Modellen. Während die vorherigen Versionen der IBM Granite-Modelle nur innerhalb der IBM Cloud verfügbar waren, wurde das getestete Modell direkt auf Hugging Face veröffentlicht.

Kurz gesagt, IBM Granite 34B Code Instruct hat eine anständige Fähigkeit zur Erzeugung von Code (für ein 7B-Modell) und schlechte Ergebnisse in fast allen anderen Bereichen. Wenn Sie ein lokales Modell mit einem Bruchteil der Rechenleistung suchen, dass Ihnen bei Programmieraufgaben hilft, wählen Sie besser Llama3 oder eines seiner Derivate.


LLM Benchmarks Archiv

Interessiert an den Benchmarks der vergangenen Monate? Alle Links dazu finden Sie auf unserer LLM Benchmarks-Übersichtsseite!

Mehr erfahren

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.


Christoph HasenzaglChristoph HasenzaglBlog
Blog

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz hat sich von einem bloßen Schlagwort zu einem entscheidenden Werkzeug entwickelt, Business Value in Unternehmen zu generieren. Wir verfolgen einen achtstufigen Ansatz, um Unternehmen den Weg zur effektiven Nutzung von AI zu ermöglichen.

Christoph HasenzaglChristoph HasenzaglBlog
Blog

Fehler in der Entwicklung von AI-Assistenten

Wie gut, dass es Fehler gibt: Denn aus ihnen können wir lernen und besser werden. Wir haben genau hingesehen, wie Unternehmen in den letzten Monaten weltweit AI-Assistenten implementiert haben, und haben sie, leider, vielfach beim Scheitern beobachtet. Wie es zum Scheitern kam und was man daraus für künftige Projekte lernen kann, das möchten wir mit Ihnen teilen: Damit AI-Assistenten in Zukunft erfolgreicher umgesetzt werden können!

Christoph HasenzaglChristoph HasenzaglBlog
Blog

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten für Unternehmen sind ein Hype, und viele Teams arbeiteten bereits eifrig und voller Tatendrang an ihrer Implementierung. Leider konnten wir allerdings sehen, dass viele Teams, welche wir in Europa und den USA beobachten konnten, an der Aufgabe gescheitert sind. Wir bieten Ihnen 8 Tipps, damit Ihnen nicht dasselbe passiert.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Microsoft Azure-Ressourcen automatisch skalieren

Im Blog stellen wir Ihnen Autoscale in Azure vor und zeigen, warum es sich lohnt, diese mit der automatischen Skalierung mit IBM Turbonomics zu kombinieren.

TIMETOACT
Marc BastienMarc BastienBlog
Header Blogbeitrag Artificial Intelligence
Blog

Artificial Intelligence (AI) mit Spurhalteassistent im Griff

Die Transparenz und Nachvollziehbarkeit von AI ist die größte Herausforderung für die Nutzung von AI. Im Zusammenhang mit fairer Beurteilung von Menschen oder menschlichem Verhalten sowieso. Im Zusammenhang mit anderen Daten würden wir konsequenterweise in absehbarer Zeit komplett den Durchblick über Zusammenhänge in den Daten verlieren, wenn wir der AI allein das Feld überließen.

TIMETOACT
Service
Service

Eventreihe: KI Governance

Die EU hat sich auf schärfere Regeln zur Nutzung von Künstlicher Intelligenz geeinigt. Ihre Auswirkungen und weitere wichtige Aspekte von "KI Governance" beleuchten wir in unserer Eventserie.

TIMETOACT
Referenz
Referenz

Standardisiertes Datenmanagement schafft Basis für Reporting

TIMETOACT implementiert für TRUMPF Photonic Components ein übergeordnetes Datenmodell in einem Data Warehouse und sorgt mit Talend für die notwendige Datenintegrationsanbindung. Mit diesem standardisierten Datenmanagement erhält TRUMPF künftig Reportings auf Basis verlässlicher Daten und kann das Modell auch auf andere Fachabteilungen übertragen.

TIMETOACT
Technologie
Headerbild zu IBM Cloud Pak for Data Accelerator
Technologie

IBM Cloud Pak for Data Accelerator

Zum schnellen Einstieg in bestimmte Use Cases, konkret für bestimmte Geschäftsbereiche oder Branchen, bietet IBM auf Basis der Lösung „Cloud Pak for Data“ sogenannte Akzeleratoren, die als Vorlage für die Projektentwicklung dienen, und dadurch die Umsetzung dieser Use Cases deutlich beschleunigen können. Die Plattform selbst bringt alle notwendigen Funktionen für alle Arten von Analyticsprojekten mit, die Akzeleratoren den entsprechenden Inhalt.

TIMETOACT
Martin LangeMartin LangeBlog
Checkliste als Symbol für die verschiedenen To Dos im Bereich Lizenzmanagement
Blog

Lizenzmanagement fest im Griff - Das sollten Sie wissen!

Lizenzmanagement hat nicht nur Relevanz für das Thema Compliance, sondern kann auch Kosten und Risiken minimieren. Mehr dazu im Beitrag.

TIMETOACT
Blog
Blog

In 6 Schritten zur passenden Data Analytics-Lösung

Um Innovation im Unternehmen voranzutreiben, braucht es eine state-of-the-art Data Analytics-Lösung. Oftmals ist hier eine Modernisierung von Nöten. Erfahren Sie in sechs Schritten, wie Sie die für Sie passende Lösung finden!

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

AWS Cloud: So optimieren Sie Ihre Kosten mit IBM Turbonomic!

Wir geben Ihnen einen Überblick über die verschiedenen Methoden des AWS-Cloud-Kostenmanagements.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Elastic Block Storage: Performance und Kosten optimieren

Wir geben Ihnen einen Überblick zu EBS. Und: zeigen Ihnen, wie IBM Turbonomic Sie bei Performance und Kosten unterstützt.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Amazon EC2: Performance richtig messen und optimieren!

Im Blog zeigen wir Ansätze zum Messen und Verwalten der Leistung von EC2-Instanzen. Zudem erfahren Sie, wie Sie mit IBM Turbonomic die Performance der darauf betriebenen Anwendungen optimieren.

TIMETOACT
Dominic LehrDominic LehrBlog
Blog

Azure Cloud: Kosten mit IBM Turbonomic optimieren!

Im Blog erfahren Sie, wie Sie Ihre Microsoft Azure Kosten senken und dabei die bestmögliche Performance sichern. Und: wie IBM Turbonomic dabei unterstützen kann.

TIMETOACT
Referenz
Referenz

TIMETOACT unterstützt KC Risk bei Benchmarking & Reporting

TIMETOACT unterstützte die KC Risk AG bei der Integration, Aufbereitung und Visualisierung ihrer Kundendaten. Alle Informationen stehen nun zentral zur Verfügung, sind per Knopfdruck abrufbar und Berechnungen erfolgen automatisiert.

TIMETOACT
Service
Service

KI Governance

Die EU hat sich auf schärfere Regeln zur Nutzung von Künstlicher Intelligenz geeinigt. Ihre Auswirkungen und weitere wichtige Aspekte von "KI Governance" erfahren Sie hier.

TIMETOACT
Technologie
Headerbild zu Cloud Pak for Data – Test-Drive
Technologie

IBM Cloud Pak for Data – Test-Drive

Wir wollen durch die Bereitstellung unserer umfassenden Demo- und Kundendatenplattform diesen Kunden eine Möglichkeit bieten, sehr schnell und pragmatisch einen Eindruck der Technologie mit ihren Daten zu bekommen.

TIMETOACT
Technologie
Headerbild zu IBM Watson Knowledge Studio
Technologie

IBM Watson Knowledge Studio

In IBM Watson Knowledge Studio trainieren Sie eine Künstliche Intelligenz (KI) auf Fachbegriffe Ihres Unternehmens oder Fachbereichs ("Domain Knowledge"). Auf diese Weise legen Sie die Grundlage für die automatisierte Textverarbeitung umfangreicher, fachbezogener Dokumente.

TIMETOACT
Technologie
Headerbild zu IBM Watson Discovery
Technologie

IBM Watson Discovery

Mit Watson Discovery werden Unternehmensdaten mittels moderner KI durchsucht, um Informationen zu extrahieren. Dabei nutzt die KI einerseits bereits antrainierte Methoden, um Texte zu verstehen, andererseits wird sie durch neues Training an den Unternehmensdaten, deren Struktur und Inhalten ständig weiterentwickelt und so die Suchergebnisse ständig verbessert.

TIMETOACT
Technologie
Headerbild zu IBM Watson Assistant
Technologie

IBM Watson Assistant

Watson Assistant erkennt Intention in Anfragen, die über multiple Kanäle eingehen können. Watson Assistant wird anhand Real-Live Anforderungen angelernt und kann aufgrund der agierenden KI Zusammenhänge und Intention der Anfrage verstehen. Umfangreiche Rechercheanfragen werden an Watson Discovery geroutet und nahtlos in das Suchergebnis eingebettet.

TIMETOACT
Referenz
Referenz

Modernes Business Intelligence und Data Warehouse System

IBM Cloud Pak for Data System ermöglicht Gesundheitskonzern AGAPLESION ein effektives Datenmanagement und komplexe Analysen .

TIMETOACT
Referenz
Referenz

Interaktives Onlineportal identifiziert passende Mitarbeiter

TIMETOACT digitalisiert für KI.TEST mehrere Testverfahren zur Bestimmung der beruflichen Intelligenz und Persönlichkeit.

TIMETOACT
Referenz
Referenz

Managed Service Support für optimales Lizenzmanagement

Zur Sicherstellung der Software Compliance unterstützt TIMETOACT die FUNKE Mediengruppe im Rahmen eines SAM Managed Services für Microsoft, Adobe, Oracle und IBM.