KI-Modelle verstehen: Was bedeuten Begriffe wie 3B, 8B oder 175B?

von

in

Wer sich mit KI-Werkzeugen beschäftigt, stolpert früh über Bezeichnungen wie 3B, 8B oder 175B. Die Buchstaben und Zahlen klingen nach Geheimwissen, sind aber einfach zu entschlüsseln. Und wer sie versteht, trifft bessere Entscheidungen bei der Wahl seiner Werkzeuge.

Was die Zahlen bedeuten

Das B steht für Billion im Englischen, also Milliarden. Die Zahl davor ist die Anzahl der Parameter im Modell. Parameter sind die gelernten Stellschrauben, mit denen das Modell Sprache verarbeitet. Mehr Parameter kann mehr Können bedeuten, aber nur wenn Datenqualität, Training und Architektur mitspielen. Größe allein sagt wenig über Qualität.

Ich bin dem zum ersten Mal bewusst begegnet, als ich Ollama eingerichtet habe und vor der Frage stand, welches Modell ich auf meinem Rechner laden soll. Llama 3.2 mit 3 Milliarden Parametern oder doch lieber die 8-Milliarden-Variante? Die größere Version lief spürbar langsamer, hat aber nicht automatisch bessere Antworten geliefert. Das war der Moment, in dem ich angefangen habe, genauer hinzuschauen.

Warum es so viele Modelle gibt

Nicht jede Aufgabe braucht das größte Modell. Ein Modell mit wenigen Milliarden Parametern läuft auf einem Laptop und reicht für Textklassifikation, kurze Zusammenfassungen oder schnelle Antworten. Es ist sparsam, schnell und günstig, stößt aber bei komplexen Aufgaben an Grenzen.

Im Mittelfeld zwischen einer und zwanzig Milliarden Parametern liegen die Allrounder: vielseitige Texterstellung, Übersetzung, solide Assistenten. Gute Balance aus Leistung und Kosten, aber für Training und Anpassung braucht man oft eine dedizierte Grafikkarte.

Ab zwanzig Milliarden wird es leistungsfähig, aber auch aufwendig. Diese Modelle liefern komplexe Analysen, lange strukturierte Antworten und breites Weltwissen. Dafür kosten sie mehr Rechenzeit, mehr Energie und mehr Geld. Die ganz großen Modelle jenseits der hundert Milliarden, die hinter ChatGPT oder Claude stecken, sind für Spitzenleistung gebaut und oft multimodal: Sie verarbeiten Text, Bild und Audio. Lokal betreiben kann sie kaum jemand.

Die Faustregel: Das kleinste Modell wählen, das die Aufgabe zuverlässig löst. Alles darüber kostet nur Ressourcen.

Was wichtiger ist als die Größe

Die Parameterzahl ist eine Dimension von vielen. In der Praxis entscheiden oft andere Faktoren.

Datenqualität schlägt Datenmenge. Saubere, vielfältige und aktuelle Trainingsdaten sind wichtiger als ein riesiges Modell. Viele Modelle scheitern nicht an der Architektur, sondern an schiefen oder veralteten Daten.

Die Architektur macht einen Unterschied. Wie das Modell aufgebaut ist, ob als klassisches dichtes Netz oder als sogenanntes Mixture-of-Experts, beeinflusst Tempo, Kosten und Fähigkeiten. Ein kluger Aufbau kann ein kleineres Modell weit nach vorne bringen.

Das Kontextfenster bestimmt, wie viel Text das Modell auf einmal verarbeiten kann. Für lange Dokumente, Verträge oder ganze Quelltextdateien ist das entscheidend. Ein mittelgroßes Modell mit großem Kontextfenster kann praktischer sein als ein riesiges Modell mit kurzem Gedächtnis.

Dann gibt es die Anpassungsmöglichkeiten. Gute Eingabeanweisungen sind der schnellste Hebel. Wer dem Modell Dokumente dynamisch beilegt, ein Verfahren namens RAG, bekommt faktenfestere Antworten, ohne das Modell neu trainieren zu müssen. Und wer wiederkehrende Aufgaben hat, kann das Modell per Feintuning auf seinen Stil und seine Anforderungen spezialisieren.

Zuletzt der Betrieb. Verfahren wie Quantisierung (geringere Zahlenpräzision) oder Destillation (Wissen in kleinere Modelle übertragen) senken Kosten und Antwortzeit, oft ohne spürbaren Qualitätsverlust. Bei sensiblen Daten punkten lokale Installationen mit kleineren Modellen, kombiniert mit Zugriffsrechten und Protokollierung von Anfang an.

Wie ich in der Praxis entscheide

Zuerst kläre ich, was die KI konkret leisten soll. Dann teste ich mit dem kleinsten Modell, das infrage kommt. Gleiche Daten, gleiche Eingaben. Wenn das Ergebnis reicht, bleibe ich dabei. Wenn nicht, gehe ich eine Stufe höher. RAG und gute Eingabeanweisungen teste ich vor dem nächsten Modellsprung, weil sie oft mehr bringen als zusätzliche Milliarden Parameter.

Kosten und Antwortzeit messe ich mit, weil sie in der Praxis oft die härtere Grenze sind als die Qualität. Und ich prüfe mit ungewöhnlichen Eingaben, ob die Ergebnisse stabil bleiben, nicht nur mit den Fällen, die gut aussehen.

Ausblick

Der Trend geht Richtung Effizienz: bessere Trainingsverfahren, klügere Architekturen, größere Kontextfenster, stabile Quantisierung. Das Ergebnis sind Modelle, die mehr leisten mit weniger Ressourcen. Lokale Anwendungen, die sich vor zwei Jahren noch nach Kompromiss angefühlt haben, werden zunehmend brauchbar. Das verändert, wer KI einsetzen kann und wo.

Fazit

Ob 3B, 8B oder 175B: Die Zahl ist nur eine Dimension. Entscheidend sind Daten, Architektur, Kontextfenster, Anpassung und Betrieb. Die beste Wahl ist nicht die mit der größten Zahl im Namen, sondern die, die das Ziel bei vertretbaren Kosten trifft.

Wenn du noch tiefer einsteigen willst: Im KI Glossar findest du alle Grundlagen kompakt erklärt.


Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert