Die besten Sprachmodelle für digitale Produkte im Juli 2024

Die TIMETOACT GROUP LLM Benchmarks zeigen die leistungsstärksten KI-Sprachmodelle für die digitale Produktentwicklung. Erfahren Sie, welche Sprachmodelle im Juli am besten abgeschnitten haben.

Basierend auf echten Benchmark-Daten aus unseren eigenen Softwareprodukten haben wir die Leistungsfähigkeit verschiedener LLM-Modelle bei der Bewältigung spezifischer Herausforderungen bewertet. Dabei wurden spezifische Kategorien wie Dokumentenverarbeitung, CRM-Integration, externe Integration, Marketingunterstützung und Codegenerierung untersucht.  

Juli 2024 war ein sehr spannender Monat in der Welt der generativen KI. Es wurden sogar ein paar Grenzen verschoben.

Die Highlights des Monats:

  • Codestral-Mamba 7B - neue effiziente LLM-Architektur, die erstaunlich gute Ergebnisse erzielt
  • GPT-4o Mini - günstiges, leichtes Modell. Das beste in seiner Klasse!

  • Mistral Nemo 12B - anständiges downloadbares Modell in seiner Klasse, entwickelt für Quantisierung (Kompression)

  • Mistral Large 123B v2 - lokales Modell, das das Niveau von GPT-4 Turbo v3 und Gemini Pro 1.5 erreicht. Es wäre das beste lokale Modell, wäre da nicht Meta Llama 3.1:

  • Meta Llama 3.1 - eine Reihe von Modellen mit freizügiger Lizenz, die in unserem Benchmark neue Rekorde aufgestellt haben.

    +++ Update +++

  • Gemini Pro 1.5 v0801 - Google schafft es plötzlich mit OpenAI gleichzuziehen und schafft es in die Top 3!

LLM Benchmarks | Juli 2024

Unsere Benchmarks bewerten die Modelle in Bezug auf ihre Eignung für die digitale Produktentwicklung. Je höher die Punktezahl, desto besser.

☁️ - Cloud-Modelle mit proprietärer Lizenz
✅ - Open-Source-Modelle, die lokal ohne Einschränkungen ausgeführt werden können
🦙 - Lokale Modelle mit Llama2-Lizenz

Eine genauere Erläuterung zu den jeweiligen Kategorien finden Sie unter der Tabelle.

Modell Code Crm Docs Integrate Marketing Reason Ergebnis Kosten Speed
GPT-4o ☁️ 90 95 100 90 82 75 89 1.21 € 1.50 rps
GPT-4 Turbo v5/2024-04-09 ☁️ 86 99 98 93 88 45 85 2.45 € 0.84 rps
Google Gemini Pro 1.5 0801 ☁️ 84 92 90 100 70 72 85 1.48 € 0.83 rps
GPT-4 v1/0314 ☁️ 90 88 98 52 88 50 78 7.04 € 1.31 rps
Claude 3.5 Sonnet ☁️ 72 83 89 78 80 59 77 0.94 € 0.09 rps
GPT-4 v2/0613 ☁️ 90 83 95 52 88 50 76 7.04 € 2.16 rps
GPT-4 Turbo v4/0125-preview ☁️ 66 97 100 71 75 45 76 2.45 € 0.84 rps
GPT-4o Mini ☁️ 63 87 80 52 100 67 75 0.04 € 1.46 rps
Claude 3 Opus ☁️ 69 88 100 53 76 59 74 4.69 € 0.41 rps
Meta Llama3.1 405B Instruct🦙 81 93 92 55 75 46 74 2.39 € 1.16 rps
GPT-4 Turbo v3/1106-preview ☁️ 66 75 98 52 88 62 73 2.46 € 0.68 rps
Mistral Large 123B v2/2407 ☁️ 68 79 68 75 75 71 73 0.86 € 1.02 rps
Gemini Pro 1.5 0514 ☁️ 73 96 75 100 25 62 72 2.01 € 0.92 rps
Meta Llama 3.1 70B Instruct f16🦙 74 89 90 55 75 46 72 1.79 € 0.90 rps
Gemini Pro 1.5 0409 ☁️ 68 97 96 63 75 28 71 1.84 € 0.59 rps
GPT-3.5 v2/0613 ☁️ 68 81 73 75 81 48 71 0.34 € 1.46 rps
GPT-3.5 v3/1106 ☁️ 68 70 71 63 78 59 68 0.24 € 2.33 rps
Gemini Pro 1.0 ☁️ 66 86 83 60 88 26 68 0.09 € 1.36 rps
GPT-3.5 v4/0125 ☁️ 63 87 71 60 78 47 68 0.12 € 1.43 rps
Gemini 1.5 Flash 0514 ☁️ 32 97 100 56 72 41 66 0.09 € 1.77 rps
Cohere Command R+ ☁️ 63 80 76 49 70 59 66 0.83 € 1.90 rps
Qwen1.5 32B Chat f16 ⚠️ 70 90 82 56 78 15 65 0.97 € 1.66 rps
GPT-3.5-instruct 0914 ☁️ 47 92 69 60 88 32 65 0.35 € 2.15 rps
Mistral Nemo 12B v1/2407 ☁️ 54 58 51 97 75 50 64 0.07 € 1.22 rps
Mistral 7B OpenChat-3.5 v3 0106 f16 ✅ 68 87 67 52 88 23 64 0.32 € 3.39 rps
Meta Llama 3 8B Instruct f16🦙 79 62 68 49 80 42 64 0.32 € 3.33 rps
GPT-3.5 v1/0301 ☁️ 55 82 69 67 82 24 63 0.35 € 4.12 rps
Gemma 7B OpenChat-3.5 v3 0106 f16 ✅ 63 67 84 33 81 48 63 0.21 € 5.09 rps
Llama 3 8B OpenChat-3.6 20240522 f16 ✅ 76 51 76 45 88 39 62 0.28 € 3.79 rps
Mistral 7B OpenChat-3.5 v1 f16 ✅ 58 72 72 49 88 31 62 0.49 € 2.20 rps
Mistral 7B OpenChat-3.5 v2 1210 f16 ✅ 63 73 72 45 88 28 61 0.32 € 3.40 rps
Starling 7B-alpha f16 ⚠️ 58 66 67 52 88 36 61 0.58 € 1.85 rps
Yi 1.5 34B Chat f16 ⚠️ 47 78 70 52 86 28 60 1.18 € 1.37 rps
Claude 3 Haiku ☁️ 64 69 64 55 75 33 60 0.08 € 0.52 rps
Mixtral 8x22B API (Instruct) ☁️ 53 62 62 94 75 7 59 0.17 € 3.12 rps
Meta Llama 3.1 8B Instruct f16🦙 57 74 62 52 74 34 59 0.45 € 2.41 rps
Codestral Mamba 7B v1 ✅ 53 66 51 94 71 17 59 0.30 € 2.82 rps
Meta Llama 3.1 70B Instruct b8🦙 60 76 75 30 81 26 58 5.28 € 0.31 rps
Claude 3 Sonnet ☁️ 72 41 74 52 78 30 58 0.95 € 0.85 rps
Qwen2 7B Instruct f32 ⚠️ 50 81 81 39 66 29 58 0.46 € 2.36 rps
Mistral Large v1/2402 ☁️ 37 49 70 75 84 25 57 2.14 € 2.11 rps
Anthropic Claude Instant v1.2 ☁️ 58 75 65 59 65 14 56 2.10 € 1.49 rps
Anthropic Claude v2.0 ☁️ 63 52 55 45 84 35 55 2.19 € 0.40 rps
Cohere Command R ☁️ 45 66 57 55 84 26 55 0.13 € 2.50 rps
Qwen1.5 7B Chat f16 ⚠️ 56 81 60 34 60 36 55 0.29 € 3.76 rps
Anthropic Claude v2.1 ☁️ 29 58 59 60 75 33 52 2.25 € 0.35 rps
Mistral 7B OpenOrca f16 ☁️ 54 57 76 21 78 26 52 0.41 € 2.65 rps
Qwen1.5 14B Chat f16 ⚠️ 50 58 51 49 84 17 51 0.36 € 3.03 rps
Meta Llama 3 70B Instruct b8🦙 51 72 53 29 82 18 51 6.97 € 0.23 rps
Mistral 7B Instruct v0.1 f16 ☁️ 34 71 69 44 62 21 50 0.75 € 1.43 rps
Llama2 13B Vicuna-1.5 f16🦙 50 37 53 39 82 38 50 0.99 € 1.09 rps
Google Recurrent Gemma 9B IT f16 ⚠️ 58 27 71 45 56 25 47 0.89 € 1.21 rps
Codestral 22B v1 ✅ 38 47 43 71 66 13 46 0.30 € 4.03 rps
Llama2 13B Hermes f16🦙 50 24 30 61 60 43 45 1.00 € 1.07 rps
Llama2 13B Hermes b8🦙 41 25 29 61 60 43 43 4.79 € 0.22 rps
Mistral Small v2/2402 ☁️ 33 42 36 82 56 8 43 0.18 € 3.21 rps
Mistral Small v1/2312 (Mixtral) ☁️ 10 67 65 51 56 8 43 0.19 € 2.21 rps
IBM Granite 34B Code Instruct f16 ☁️ 63 49 30 44 57 5 41 1.07 € 1.51 rps
Mistral Medium v1/2312 ☁️ 41 43 27 59 62 12 41 0.81 € 0.35 rps
Llama2 13B Puffin f16🦙 37 15 38 48 56 41 39 4.70 € 0.23 rps
Mistral Tiny v1/2312 (7B Instruct v0.2) ☁️ 22 47 57 40 59 8 39 0.05 € 2.39 rps
Llama2 13B Puffin b8🦙 37 14 37 46 56 39 38 8.34 € 0.13 rps
Meta Llama2 13B chat f16🦙 22 38 17 45 75 8 34 0.75 € 1.44 rps
Meta Llama2 13B chat b8🦙 22 38 15 45 75 6 33 3.27 € 0.33 rps
Mistral 7B Zephyr-β f16 ✅ 37 34 46 44 29 4 32 0.46 € 2.34 rps
Meta Llama2 7B chat f16🦙 22 33 20 42 50 20 31 0.56 € 1.93 rps
Mistral 7B Notus-v1 f16 ⚠️ 10 54 25 41 48 4 30 0.75 € 1.43 rps
Orca 2 13B f16 ⚠️ 18 22 32 22 67 19 30 0.95 € 1.14 rps
Mistral 7B Instruct v0.2 f16 ☁️ 11 30 50 13 58 8 29 0.96 € 1.12 rps
Mistral 7B v0.1 f16 ☁️ 0 9 42 42 52 12 26 0.87 € 1.23 rps
Google Gemma 2B IT f16 ⚠️ 33 28 14 39 15 20 25 0.30 € 3.54 rps
Microsoft Phi 3 Medium 4K Instruct f16 ⚠️ 5 34 30 13 47 8 23 0.82 € 1.32 rps
Orca 2 7B f16 ⚠️ 22 0 24 18 52 4 20 0.78 € 1.38 rps
Google Gemma 7B IT f16 ⚠️ 0 0 0 9 62 0 12 0.99 € 1.08 rps
Meta Llama2 7B f16🦙 0 5 18 3 28 2 9 0.95 € 1.13 rps
Yi 1.5 9B Chat f16 ⚠️ 0 4 29 8 0 8 8 1.41 € 0.76 rps

Die Benchmark-Kategorien im Detail

Hier erfahren Sie, was wir mit den unterschiedlichen Kategorien der LLM Leaderboards genau untersuchen

Docs

Wie gut kann das Modell mit großen Dokumenten und Wissensdatenbanken arbeiten?

CRM

Wie gut unterstützt das Modell die Arbeit mit Produktkatalogen und Marktplätzen?

Integrate

Kann das Modell problemlos mit externen APIs, Diensten und Plugins interagieren?

Marketing

Wie gut kann das Modell bei Marketingaktivitäten unterstützen, z.B. beim Brainstorming, der Ideenfindung und der Textgenerierung?

Reason

Wie gut kann das Modell in einem gegebenen Kontext logisch denken und Schlussfolgerungen ziehen?

Code

Kann das Modell Code generieren und bei der Programmierung helfen?

Cost

Die geschätzten Kosten für die Ausführung der Arbeitslast. Für cloud-basierte Modelle berechnen wir die Kosten gemäß der Preisgestaltung. Für lokale Modelle schätzen wir die Kosten auf Grundlage der GPU-Anforderungen für jedes Modell, der GPU-Mietkosten, der Modellgeschwindigkeit und des operationellen Overheads.

Speed

Die Spalte "Speed" gibt die geschätzte Geschwindigkeit des Modells in Anfragen pro Sekunde an (ohne Batching). Je höher die Geschwindigkeit, desto besser.

Tiefere Einblicke

Codestral Mamba 7B

Mistral AI hat diesen Monat eine ganze Reihe von Veröffentlichungen gemacht, aber Codestral Mamba ist unser Favorit. Es ist nicht extrem leistungsgstark, vergleichbar mit Modellen wie Llama 3.1 8B oder Claude 3 Sonnet. Aber es gibt auch ein paar Nachteile:

  • Dieses Modell ist nicht für Produkt- oder Businessaufgaben konzipiert, es ist ein Coding-Modell. Dennoch konkurriert es gut mit Allzweckmodellen.

  • Das Modell hat nicht die gut erforschte Transformer-Architektur implementiert, sondern eine Mamba (auch bekannt als Linear-Time Sequence Modeling with Selective State Spaces). Diese Architektur gilt als ressourceneffizienter und hat weniger Beschränkungen bei der Arbeit mit großen Kontexten. Es gab mehrere Versuche, ein gutes Mamba-Modell zu trainieren, aber dies ist das erste Modell, das in unserer Rangliste gute Ergebnisse erzielt.

  • Das neue Modell ist für den lokalen Gebrauch verfügbar, man kann es direkt von HuggingFace beziehen. Nvidia TensorRT-LLM unterstützt dieses Modell bereits.

GPT-4o Mini

GPT-4o Mini ist ein neues multimodales Modell von OpenAI. Es ähnelt in seiner Klasse den GPT-3.5-Modellen, hat aber bessere Gesamtergebnisse. Seine Grundfähigkeiten sind ziemlich groß für ein so kleines Modell. GPT-4o Mini ist auch das erste Modell, das in unserer Kategorie Marketing (Tests, die mit Sprache und Schreibstilen arbeiten) eine perfekte 100 erreicht hat.

Angesichts der extrem niedrigen Kosten und der guten Ergebnisse scheint der GPT-4o Mini perfekt für kleine, fokussierte Aufgaben wie Router und Klassifikatoren in LLM-gesteuerten Produkten geeignet zu sein. Auch Datenextraktionsaufgaben in großem Maßstab sehen gut aus.

Mistral Nemo 12B

Wie es scheint, hat Mistral AI eine Menge Anstrengungen in die Spitzenforschung und -entwicklung gesteckt. Der Mistral Nemo 12B ist ein weiteres Beispiel dafür.

Einerseits ist dieses Modell etwas größer als frühere 7B-Modelle von Mistral AI. Andererseits hat es ein paar interessante Nuancen, die das wieder wettmachen.

Erstens verfügt das Modell über einen besseren Tokeniser, was zu einer effizienteren Verwendung von Token führt (weniger Token pro Eingabe und Ausgabe erforderlich).

Zweitens wurde das Modell zusammen mit Nvidia unter Verwendung eines quantisierungssensitiven Trainings trainiert. Das bedeutet, dass das Modell von Anfang an auf einen ressourceneffizienten Betrieb ausgelegt ist. In diesem Fall ist das Modell so konzipiert, dass es im FP8-Modus gut funktioniert, was bedeutet, dass die Modellgewichte ein Viertel der üblichen Größe im Speicher einnehmen (im Vergleich zum FP32-Format). Hier ist die Ankündigung von Nvidia.

Es ist ein netter Zufall, dass NVidia-GPUs mit CUDA Compute 9.0-Generation darauf ausgelegt sind, FP8 nativ auszuführen (z. B. H100-GPUs für Rechenzentren)

Wenn Sie die neuesten GPUs haben, kann dieses Mistral Nemo Modell ein guter Ersatz für die früheren 7B Modelle von Mistral AI sein. Da das Modell auch einen hohen Reason-Wert erzielt, besteht die Chance, dass die Feinabstimmung das Modell noch höher treibt.

Sie können dieses Modell von Hugging Face herunterladen oder über die MistralAI API verwenden.

Mistral Large 123B v2

Mistral Large v2 ist derzeit das beste Modell von Mistral in unseren Benchmarks. Es steht zum Download zur Verfügung, d.h. Sie können es auf Ihren lokalen Rechnern ausführen (obwohl für die kommerzielle Nutzung eine Lizenz erforderlich ist).

Dieses Modell hat auch einen großen Kontext von 128 Token. Es behauptet, dass es mehrere Sprachen unterstützt, sowohl menschliche als auch Programmiersprachen.

In unserem Benchmark hat dieses Modell wirklich gute Ergebnisse und eine ungewöhnlich hohe Reason-Fähigkeit. Es ist vergleichbar mit GPT-4 Turbo v3, Gemini Pro 1.5 und Claude 3 Opus.

Die ungewöhnliche Größe dieses Mistral Modells könnte darauf hindeuten, dass es auch mit FP8 Awareness trainiert wurde, um die 70B Modi in ihrem Lineup zu ersetzen (12:7 ~~ 123:80). Wenn das der Fall ist, könnten wir einen allgemeinen Trend sehen, bei dem neue Modelle in diesen ungeraden Größen auftauchen werden. Sie werden allerdings nur auf den neuesten GPUs gut laufen. Dies kann die LLM-Landschaft fragmentieren und den Fortschritt verlangsamen.

Das Lineup der besten Mistral-Modelle sieht derzeit wie folgt aus:

Llama 3.1 Models from Meta

Meta hat ein Update seiner Llama 3.1-Reihe veröffentlicht, das 3 Modellgrößen umfasst: 8B, 70B und 405B. Sie können alle Modelle von HuggingFace herunterladen und lokal verwenden. Die meisten KI-Anbieter bieten auch Unterstützung über API an.

Wir haben kleinere Modelle lokal getestet und Google Vertex AI für 405B verwendet. Google hat die Integration so gut wie nicht vermasselt (Sie müssen eventuell die Zeilenumbrüche korrigieren und zusätzliche Token am Anfang der Eingabeaufforderung abschneiden).

Das Modell 8B ist nicht so interessant - es schneidet schlechter ab als die vorherige Version 3.0, also lassen wir es weg. Die beiden anderen Modelle sind viel interessanter.

Meta Llama 3.1 70B hat einen massiven Qualitätssprung gemacht, wenn man es mit der vorherigen Version vergleicht. Es hat Gemini Pro 1.5 erreicht, GPT-3.5 übertroffen und Mistral Large 123B v2 erreicht. Das sind großartige Neuigkeiten, denn wir können die Qualität des 123B-Modells mit einem kleineren Modell erreichen.

Beachten Sie übrigens, dass Llama 3.1-Modelle ziemlich empfindlich auf Quantisierung (Komprimierung) reagieren können. Wenn wir z.B. ein 70B-Modell mit einer 8bit-Quantisierung (über bitsandbytes) laufen lassen, wird die Leistung und Qualität drastisch sinken:

Das bedeutet nicht, dass alle Quantisierungsstrategien gleich schlecht sind (hier finden Sie einen guten Artikel zu diesem Thema). Stellen Sie nur sicher, dass Sie Ihr Modell auf Ihrer Hardware mit Ihren spezifischen Daten vergleichen.

Meta Llama 3.1 405B Instruct

Meta Llama 3.1 405B Instruct ist der letzte Held des Monats. Dies ist das erste Modell, das es geschafft hat, den GPT-4 Turbo (seine schwächste Version Turbo v3/1106) zu schlagen. Sie können es in den TOP 10 unseres Benchmarks finden:

Es ist ein großes Modell. Sie benötigen 640 GB VRAM (8xH100/A100), nur um es im FP8 mit einem kleinen Batch- und Kontextfenster zu betreiben. Allein die Ressourcenanforderungen bedeuten, dass nur sehr wenige dieses Modell verwenden werden, wenn man es mit 70B/8B-Varianten vergleicht. Es wird weniger interessante Feinabstimmungen und Lösungen geben.

Aber das ist alles nicht so wichtig. Die wichtigen Punkte sind:

  • Dies ist ein Modell, das Sie herunterladen und lokal verwenden können.

  • Es übertrifft eines der GPT-4-Modelle

  • Es übertrifft Mistral Large 2 in der Qualität, während es eine freizügigere Lizenz hat

  • Es erreicht die Qualität von Claude 3 Opus.

Dies ist ein kleiner Durchbruch. Wir sind sicher, dass irgendwann auch kleinere Modelle dieses Niveau erreichen werden.

Update: Google Gemini 1.5 Pro Experimental v0801

Normalerweise führen wir keine Benchmark-Updates nach der Veröffentlichung durch, aber diese Nachricht hat es verdient. Einen Monat zu warten, um über das neue Google Gemini-Modell zu berichten, wäre eine Verschwendung.

Dieses Modell wurde am ersten August als öffentliches Experiment veröffentlicht (Sie können es im Google AI Studio finden). Zu diesem Zeitpunkt wurde auch bekannt, dass das Modell seit einiger Zeit in der LMSYS Chatbot Arena läuft und mit mehr als 12.000 Stimmen an der Spitze steht.

Wir haben unseren eigenen Benchmark über die Google AI Studio API durchgeführt (das Modell ist noch nicht auf Vertex AI verfügbar). Die Ergebnisse sind wirklich beeindruckend. Wir sprechen hier von einem erheblichen Sprung in den Modellfähigkeiten gegenüber der ersten Version von Gemini Pro 1.5 im April.

Dieses Google-Modell schaffte es plötzlich, fast alle GPT-4-Modelle zu überholen und zur Spitze aufzuschließen und den dritten Platz zu belegen. Die Ergebnisse sind solide.

Die Ergebnisse hätten sogar noch besser ausfallen können, wenn Gemini Pro 1.5 mehr darauf geachtet hätte, die Anweisungen genau zu befolgen. Während extreme Detailgenauigkeit bei menschlichen Interaktionen nicht immer erforderlich ist, ist sie bei Produkten und LLM-Pipelines, die bei unseren Kunden eingesetzt werden, unerlässlich. Die beiden besten Modelle von OpenAI übertreffen diese Fähigkeit noch.

Dennoch gibt es hervorragende Neuigkeiten: Erstens haben wir eine neue Innovationsquelle, die es geschafft hat, mit OpenAI gleichzuziehen (und wir dachten, dass Google aus dem Rennen ist). Zweitens werden Unternehmen, die sich stark in der Google Cloud engagieren, endlich Zugang zu einem hochwertigen großen Sprachmodell innerhalb des Ökosystems erhalten.

Und wer weiß, ob es Google Gemini 2.0 gelingt, die Modellfähigkeiten noch weiter zu steigern. Das Tempo des Fortschritts war bisher recht beeindruckend. Überzeugen Sie sich einfach selbst:

Local AI and Compliance

Wir beobachten diesen Trend schon seit geraumer Zeit. Lokale Modelle werden mit der Zeit immer leistungsfähiger und übertreffen komplexere Closed-Source-Modelle.

Lokale Modelle sind für viele Kunden recht interessant, da sie viele Probleme in Bezug auf Datenschutz, Vertraulichkeit und Compliance zu lösen scheinen. Die Wahrscheinlichkeit, dass private Daten nach außen dringen, ist geringer, wenn Ihre LLMs vollständig in Ihren Räumlichkeiten innerhalb des Sicherheitsbereichs laufen, oder?

Nuancen und neue Regulierungen: Das EU-KI-Gesetz

Es gibt jedoch noch einige Nuancen. Ab dem 01. August 2024 tritt in der EU das Gesetz über künstliche Intelligenz in Kraft. Es schafft einen gemeinsamen regulatorischen und rechtlichen Rahmen für KI in der EU, wobei verschiedene Bestimmungen innerhalb der nächsten 3 Jahre langsam in Kraft treten werden.

Das EU-KI-Gesetz regelt nicht nur KI-Anbieter (wie OpenAI oder MistralAI), sondern auch Unternehmen, die KI in einem professionellen Kontext nutzen.

Risikobasierte Regulierung: Was bedeutet das für Ihr Unternehmen?

Natürlich wird nicht jeder auf die gleiche Weise reguliert werden. Die Regulierung basiert auf den Risikostufen, und die meisten KI-Anwendungen dürften in die Kategorie "minimales Risiko" fallen. Es ist jedoch recht einfach, in die höhere Risikokategorie einzusteigen (z. B. wenn KI Bildmanipulationen ermöglicht, im Bildungswesen oder bei der Personalbeschaffung eingesetzt wird).

Sorgfaltspflicht: Mehr als nur lokale Modelle

Mit anderen Worten: Eine gewisse Sorgfaltspflicht wird für alle großen Unternehmen erforderlich sein. Die Aussage "Wir verwenden nur lokale Modelle" ist möglicherweise nicht ausreichend.

Checkliste zur Einhaltung der KI-Vorschriften

Hier ist ein kurzer Check, um zu sehen, ob Sie auf dem richtigen Weg sind, um die Einhaltung der Vorschriften für Ihr KI-System zu gewährleisten. Haben Sie die Antworten auf diese Fragen dokumentiert und in Ihrem Unternehmen klar kommuniziert?

  • Wer sind die Hauptnutzer Ihres Systems? Welches sind die Branchen und spezifischen Anwendungen Ihres Systems? Wie ist hier die Risikoklassifizierung?

  • Wie lauten der genaue Name, die Version, der Anbieter und die Plattform/Umgebung Ihrer KI-Komponenten?

  • Wie lauten die Zugehörigkeiten und Partnerschaften Ihrer KI-Anbieter? Wie lauten die Lizenzierungsbedingungen?

  • Wo werden Ihre Systeme geografisch eingesetzt? Unter welcher Rechtsprechung laufen Ihre KI-Systeme?

  • Wer ist für das System und die Prozesse zum Management von KI-Risiken in Ihrem Unternehmen verantwortlich?

  • Wer ist für die Dokumentation und die Kommunikation Ihres KI-Systems verantwortlich (einschließlich Dingen wie Architektur, Komponenten, Abhängigkeiten, funktionale Anforderungen und Leistungsstandards)?

Ihr Weg zur KI-Compliance

Wenn Sie konkrete Antworten auf diese Fragen haben, stehen die Chancen gut, dass Sie mit der KI-Compliance bereits auf einem guten Weg sind. Das bedeutet auch, dass Ihr Unternehmen bei der Evaluierung von LLM-gesteuerten Lösungen den Compliance-Aufwand verschiedener Optionen im Auge behalten wird.

Sie können sich jederzeit an uns wenden, wenn Sie Fragen zur KI-Compliance haben oder das Thema näher erörtern möchten.

LLM Benchmarks Archiv

Interessiert an den Benchmarks der vergangenen Monate? Alle Links dazu finden Sie auf unserer LLM Benchmarks-Übersichtsseite!

Transformieren Sie Ihre digitalen Projekte mit den besten KI-Sprachmodellen!

Entdecken Sie die transformative Kraft der besten LLM und revolutionieren Sie Ihre digitalen Produkte mit KI! Bleiben Sie zukunftsorientiert, steigern Sie die Effizienz und sichern Sie sich einen klaren Wettbewerbsvorteil. Wir unterstützen Sie dabei, Ihren Business Value auf das nächste Level zu heben.

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Bitte Captcha lösen!

captcha image
Martin Warnung
Sales Consultant TIMETOACT GROUP Österreich GmbH +43 664 881 788 80
Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Blog 01.10.24

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.08.24

LLM-Benchmarks August 2024

Anstelle unserer allgemeinen LLM Benchmarks, präsentieren wir Ihnen im August den ersten Benchmark verschiedener KI-Architekturen.

Blog 20.02.25

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.04.24

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Welche LLM-Modelle meistern Ihre Herausforderungen am besten? Werfen Sie einen Blick auf die Ergebnisse und finden Sie Ihr ideales Sprachmodell!

Blog 16.05.24

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz ist längst mehr als ein Schlagwort – sie schafft echten Business Value. Mit unserem achtstufigen Ansatz unterstützen wir Unternehmen auf dem Weg zur erfolgreichen AI-Nutzung.

Blog 17.05.24

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten sind ein Hype, und viele Teams arbeiten mit Begeisterung an ihrer Umsetzung. Doch in Europa und den USA scheitern viele an dieser Herausforderung. Damit Ihnen das nicht passiert, haben

Blog 16.05.24

Fehler in der Entwicklung von AI-Assistenten

Erfolgreiche AI-Assistenten starten mit den richtigen Learnings: Erfahren Sie, warum viele Unternehmen scheitern und wie Sie typische Fehler vermeiden – für eine optimale Umsetzung Ihrer AI-Projekte!

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.

Social

Weiberfastnacht 2024 🎉

𝗨𝗻𝘀𝗲𝗿 𝗠𝗶𝘁𝗲𝗶𝗻𝗮𝗻𝗱𝗲𝗿 𝗯𝗲𝗿𝘂𝗵𝘁 𝗮𝘂𝗳 𝗩𝗶𝗲𝗹𝗳𝗮𝗹𝘁.🧡 Und das feierten wir auch dieses Jahr an #weiberfastnacht gemeinsam im Kölner Office. 🎉

Presse 27.02.25

Fachbeitrag: Dem Chatbot das Halluzinieren austreiben

Ein Fachbeitrag, im Digital Business Cloud Magazin zum Thema Retrieval Augmented Generation und der nächsten Entwicklungsstufe von künstlicher Intelligenz, von Matthias Bauer, Teamlead Data Science bei X-INTEGRATE.

Presse 30.11.23

Fachbeitrag: KI für die Luftbildauswertung

Wir haben eine KI-basierte Software entwickelt, die befestigte Flächen aus Luftbildaufnahmen automatisiert bestimmt. Business Geomatics berichtet darüber.

Social

Gemeinsam sind wir stark! - ITCS-Messe in Köln 2024

Das haben wir im September auf der ITCS-Messe in Köln wieder einmal bewiesen. Als Team haben wir die Vielfalt unserer Group präsentiert und für viel Aufmerksamkeit gesorgt! Besonders stolz sind wir auf die inspirierenden Vorträge von Hermann, Lisa und Matthias über Künstliche Intelligenz und den Zusammenhalt in der TIMETOACT GROUP sowie Vanessa, die ihren Weg als Frau in der IT auf der Women in Tech Bühne geteilt hat. Auch Benedict und Sophia haben mit ihrem Beitrag über das perfekte Rezept für Design -& Frontend-Projekte überzeugt und Innovationen gezeigt.🚀 Ein weiteres Highlight war der spannende Vortrag zu effizienten visuellen Regressionstests im CI/CD-Kontext von Marius🛠️ Ein großer Dank geht auch an Johanna, die den gesamten Tag so engagiert die Women in Tech Bühne moderiert hat.

Social 27.02.25

Gelebte Unternehmenskultur beim Wasserski-Event 2024

Auch dieses Jahr haben die Mitarbeitenden der TIMETOACT GROUP in Langenfeld wieder ihre Fähigkeiten auf den Wasserskiern unter Beweis gestellt und bei BBQ und Fußball einen gemeinsamen Abend genossen!

Wissen 18.11.24

IBM watsonx: 5 überzeugende Argumente

Erfahren Sie, wie IBM watsonx Effizienz steigert, Kosten senkt und Innovation vorantreibt.