LLM Benchmarks MÄRZ 2025

Modell Scores

#ModelbicompliancecodereasonScoreFeatures
1openai/o3-mini-2025-01-3145%70%100%74%76.7%SO, Reason
2google/gemini-2.5-pro-preview-03-2545%70%93%68%71.1%Reason
3anthropic/claude-3.7-sonnet:thinking54%32%100%67%70.4%Reason
4openai/o1-2024-12-1745%70%84%67%70.0%SO, Reason
5deepseek/deepseek-r127%64%100%63%66.1%SO, Reason, Open
6deepseek/deepseek-r1-distill-llama-70b36%32%96%56%60.0%Open
7deepseek/deepseek-chat-v3-032445%60%70%55%59.6%Reason, Open
8anthropic/claude-3.7-sonnet45%47%65%55%56.5%
9openai/gpt-4o-2024-11-2036%55%62%55%53.6%SO
10openai/gpt-4.5-preview-2025-02-2745%47%62%53%51.9%SO
11deepseek/deepseek-chat36%47%58%49%50.6%SO, Open
12openai/gpt-4o-2024-08-0618%62%63%52%50.5%SO
13microsoft/phi-436%62%57%48%49.7%Open
14meta-llama/llama-4-maverick27%42%70%44%49.1%SO, Open
15qwen/qwen-max45%45%45%50%46.3%
16google/gemma-3-27b-it27%27%70%43%45.0%Open
17anthropic/claude-3.5-sonnet36%32%57%44%43.6%
18meta-llama/llama-3.1-70b-instruct36%50%44%43%42.6%SO, Open
19meta-llama/llama-3.3-70b-instruct27%50%48%41%40.8%SO, Open
20google/gemini-2.0-flash-00127%24%57%38%40.7%
21qwen/qwq-32b36%52%41%37%40.0%SO, Reason, Open
22qwen/qwen-2.5-72b-instruct27%30%47%39%39.2%SO, Open
23mistralai/mistral-small-3.1-24b-instruct36%42%41%39%39.2%SO, Open
24qwen/qwen2.5-32b-instruct27%20%53%36%36.6%Open
25qwen/qwen-2.5-coder-32b-instruct18%35%54%39%36.5%SO, Open
26meta-llama/llama-3.1-405b-instruct18%55%40%38%35.5%SO, Open
27google/gemma-3-12b-it9%17%61%30%33.4%Open
28qwen/qwen-plus18%25%40%31%31.7%
29mistralai/mixtral-8x22b-instruct9%27%47%28%29.2%SO, Open
30openai/gpt-4o-mini-2024-07-189%32%41%30%28.4%SO
31mistral/mistral-small-24b-instruct-250127%22%33%30%27.8%SO, Open
32qwen/qwen-turbo0%15%41%20%21.9%
33deepseek/deepseek-r1-distill-qwen-32b9%22%29%17%21.2%SO, Open
34meta-llama/llama-4-scout9%25%22%16%18.0%SO, Open
35mistral/ministral-8b18%0%20%13%14.8%SO, Open
36meta-llama/llama-3.2-3b-instruct0%17%16%11%10.6%SO, Open
37mistralai/mistral-large-24110%0%0%0%0.0%SO, Open
Averages27%38%55%41%

Gemini-2.5 Pro Preview - takes 2nd place!

Google hat mehrere bemerkenswerte multimodale Modelle veröffentlicht. Beginnen wir mit Gemini-2.5 Pro Preview (bereits auf Vertex AI verfügbar). Dabei handelt es sich um DeepMinds fortschrittlichstes LLM, das speziell dafür entwickelt wurde, komplexe Probleme intern zu durchdenken, bevor es antwortet. Dieser „Chain-of-Thought“-Ansatz sorgt für hohe Genauigkeit bei anspruchsvollen Aufgaben und überzeugt besonders in Bereichen wie Coding, Mathematik und der Lösung wissenschaftlicher Fragestellungen.

Das leistungsstarke Modell unterstützt native Multimodalität (es kann mit Dokumenten, Bildern, Audio und Video umgehen) und verfügt über ein theoretisches Kontextlimit von 1 Million Token (in der Praxis könnte der effektiv nutzbare Kontext allerdings deutlich kleiner ausfallen, insbesondere bei kognitiv anspruchsvollen Aufgaben).

Das Modell feierte sein Debüt an der Spitze der LLM-Arena (eine Arena, in der Menschen die besten Chatbot-Antworten auswählen).

Bei unserem Reasoning-Benchmark geht es weniger um Chatting, sondern vielmehr um das präzise Lösen von Business-Problemen. Dennoch erreichte Gemini 2.5 Pro den zweiten Platz und ließ dabei Claude 3.7 Sonnet Reasoning sowie OpenAI o1 (nicht Pro) hinter sich.

Besonders bemerkenswert: Gemini 2.5 Pro erzielte diesen zweiten Platz sogar ohne Unterstützung durch „Structured Outputs“ (da Google derzeit nur einen sehr kleinen Teil des JSON-Schemas unterstützt).

DeepSeek V3-0324 – Fortschrittliches Update gegenüber der Vorgängerversion

DeepSeek V3-0324 ist ein sehr großes Modell (685 Mrd. Parameter), das auf einer Mixture-of-Experts-Architektur basiert. Dabei aktiviert es spezialisierte „Experten“ für unterschiedliche Arten von Anfragen, wodurch es ein breites Wissen und vielfältige Fähigkeiten besitzt und trotz seiner Größe relativ effizient bleibt.

Theoretisch könnte jede:r das Modell herunterladen und lokal ausführen. In der Praxis ist es aufgrund seiner Größe allerdings wenig praktikabel, da das gesamte Modell im GPU-VRAM gehalten werden muss, um zwischen den verschiedenen Experten wechseln zu können.

Die Autor:innen betonen, dass V3-0324 erhebliche Fortschritte bei logischen und wissensbasierten Aufgaben erzielt und in Benchmarks wie MMLU, GPQA und AIME deutlich besser abschneidet als sein Vorgänger.

In unserem Enterprise-Benchmark zeigt sich eine vergleichbare Größenordnung der Verbesserung. Das Modell hat deutlich zugelegt:

In unserem Enterprise-Benchmark beobachten wir einen ähnlichen Sprung nach vorne. Das Modell konnte sich deutlich verbessern:

Llama 4 Modelle von Meta – Keine großen Überraschungen

Die kürzlich veröffentlichten Llama-4-Modelle setzen weiterhin auf Open-Source und multimodale Intelligenz.

Llama 4 bringt erstmals eine Mixture-of-Experts-Architektur (MoE) in die Llama-Familie ein, wodurch die Effizienz erheblich gesteigert wird. Das Modell Llama 4 Maverick nutzt insgesamt 400 Mrd. Parameter, von denen jedoch pro Anfrage nur rund 17 Mrd. aktiv sind. Dies ermöglicht schnellere Antworten und geringere Inferenzkosten, ohne dass dabei Qualitätseinbußen auftreten. Der unterstützte Kontext umfasst bis zu 1 Million Token, und es verfügt über 128 integrierte Experten.

Das kleinere Modell, Llama 4 Scout, verwendet lediglich 16 Experten, was seine Größe auf 109 Mrd. Parameter reduziert und einen Kontext von 10 Millionen Token erlaubt.

Beide Modelle fokussieren sich auf 12 Hauptsprachen (Englisch, Französisch, Deutsch, Arabisch, Hindi, Indonesisch, Italienisch, Portugiesisch, Spanisch, Tagalog, Thai und Vietnamesisch), wurden jedoch im Rahmen der Initiative „No Language Left Behind“ auf über 200 Sprachen vortrainiert.

Trotz seiner beeindruckenden sprachlichen und multimodalen Fähigkeiten konnte Llama 4 in unserem Enterprise-Benchmark keine Spitzenplatzierung erreichen.

Das ist in Ordnung und auch erwartbar – aus zwei Gründen:

  • Erstens schneiden Llama-Modelle traditionell in unseren Benchmarks nicht besonders gut ab. Meist erscheinen später spezialisierte Fine-Tunes, die hier deutlich bessere Ergebnisse erzielen.
  • Zweitens wurden die Llama-4-Modelle nicht auf Reasoning-Workloads trainiert. Im Gegensatz zu dedizierten Reasoning-Modellen konnten sie die Reasoning-Slots innerhalb unserer Custom-Chain-of-Thought-Schemata nicht nutzen – stattdessen versuchten sie, direkt zur Antwort zu springen.

Wir warten daher auf r1-Distills, die auf den „pruned expert trees“ von Llama 4 basieren.

Google Gemma 3 – jetzt wird’s spannend

Gemma 3 27B ist Googles neuestes Open-Source-Modell mit 27 Milliarden Parametern und liefert State-of-the-Art-Ergebnisse in seiner Größenklasse – es konkurriert mit, oder übertrifft sogar, deutlich größere Modelle.

In menschlichen Bewertungen (Chatbot Arena) konnte es sowohl das 405B-Modell Llama 3 als auch das 685B große DeepSeek V3 übertreffen – und das auf nur einer einzigen GPU. Es ist zudem multimodal, unterstützt Kontexte bis zu 128.000 Tokens und wurde für Function Calling trainiert.

Auch unsere internen Zahlen bestätigen das: Dieses kleine, offene Modell überzeugt in unseren Benchmarks und schlägt dort deutlich größere Modelle.

Das Beste daran? Gemma-3-27B wurde ohne Structured Outputs getestet – und konnte dennoch erfolgreich auf komplexe Aufgaben antworten, indem es ein eigenes Chain-of-Thought-Schema nutzte.

Das kleinere Schwestermodell – Gemma-3-12B – lieferte ebenfalls überzeugende Ergebnisse: Es konnte Modelle mit deutlich größerer Parameteranzahl übertreffen, und das ebenfalls ohne den Einsatz von Structured Outputs.

Es scheint, als hätte Google DeepMind eine Art „Geheimzutat“ gefunden, mit der sie zuverlässig State-of-the-Art-Modelle in unterschiedlichen Größen trainieren können. Natürlich ist es für Unternehmen spannend, leistungsstarke LLMs direkt in der Google Cloud nutzen zu können – aber kleinere, offene Modelle, die über Reasoning-Fähigkeiten verfügen und dabei starke Leistung bringen, sind sogar noch interessanter.

Das Beste daran? Google hat hier nicht aufgehört.

Das Modell Gemma-3-27B-it kann direkt über Hugging Face heruntergeladen und lokal betrieben werden. Die Gewichte umfassen rund 55 GB, die im bf16-Format (zwei Byte pro Gewicht) in den GPU-Speicher geladen werden müssen. Für textbasierte Aufgaben werden dafür etwa 60 GB VRAM, für visionbasierte Aufgaben rund 70 GB VRAM benötigt – ideal also für den Einsatz auf einer H100 mit 80 GB.

Wer das Modell mit kleinerem Budget betreiben möchte, hat ebenfalls eine Option: Google bietet eine speziell optimierte Version im GGUF-Format an, basierend auf der Q4_0-Quantisierung (entspricht etwa 4 Bit pro Gewicht). Durch den Einsatz von Quantization Aware Training (QAT) kann das Modell eine ähnliche Qualität liefern – bei deutlich reduziertem Speicherbedarf.

Dieser generelle Trend hin zu offenen, leistungsstarken und kompakten (alle drei!) Modellen ist äußerst vielversprechend – insbesondere für den Aufbau von Business-Systemen mit vertrauenswürdiger KI als Fundament.

Und: Dieser Trend passt perfekt zu unserem strategischen Fokus für dieses Jahr.

Neue Ausrichtung: Enterprise Reasoning und Robotic Process Automation

AI-Case-Portfolio, LLM-Benchmarks, Enterprise-Challenges und verschiedenste Events – all das sind unsere Vehikel, um gemeinsam mit einer talentierten Community weltweit die KI-Forschung und -Entwicklung voranzutreiben.

Triff uns bei IBM!

Übrigens: Wenn Sie am 18. Juni in Wien sind, kommen Sie gerne vorbei – IBM, Cloudera und wir laden zum Event „Designing Trustworthy AI“ ein.

Wir sprechen über ein breites Themenspektrum – von Data Governance über Agenten bis hin zu öffentlichen KI-Forschungsinitiativen.

Bisher lag unser Fokus auf allgemeinen Business-Aufgaben und Reasoning. Das spiegelte sich in den Kategorien BI, Compliance und Reason innerhalb unseres LLM-Benchmarks wider und fand seinen Höhepunkt in der Enterprise RAG Challenge.

Als Nächstes wollen wir unsere Aufgaben näher an den unternehmerischen Alltag heranführen. Unser Fokus verlagert sich stärker auf Robotic Process Automation (RPA) und Enterprise Reasoning.

RPA lässt sich als „Automatisierung repetitiver SAP-Workflows über Mensch-Maschine-Schnittstellen“ beschreiben. Traditionell wurde dies über Regelwerke und Browser-Automatisierung umgesetzt. Die jüngsten Fortschritte bei Large Language Models eröffnen jedoch neue Perspektiven – etwa durch den Einsatz von Operatoren und visuellen Agenten.

In diesem Jahr wollen wir uns intensiver mit dieser Thematik beschäftigen und investieren gezielt in folgende Schritte:

  • Visuelle Automatisierungsfälle in die LLM-Benchmark unter der neuen Spalte RPA integrieren

  • Gemeinsam mit Branchenpartnern an einem dedizierten Operator/Agent-Benchmark arbeiten

  • Schließlich eine Enterprise RPA Challenge aufsetzen und durchführen

Unsere Partner und Kund:innen zeigen großes Interesse an den Möglichkeiten von KI-gestützter Automatisierung in moderner Unternehmenssoftware wie SAP, Salesforce oder ServiceNow. Wir möchten dieses Feld weiter erforschen, unsere Erkenntnisse mit der Community teilen und – idealerweise gemeinsam – den State-of-the-Art ein Stück weiter voranbringen.