Xlera8

Meta stellt das große Sprachmodell Llama der dritten Generation vor

Meta hat sein neuestes großes Sprachmodell (LLM) mit dem Namen Llama 3 veröffentlicht und behauptet, es werde viel größere Modelle von Unternehmen wie Google, Mistral und Anthropic herausfordern.

Enthüllt in einer langen Ankündigung Am Donnerstag ist Llama 3 in Versionen mit acht Milliarden bis über 400 Milliarden Parametern erhältlich. Als Referenz: Die größten Modelle von OpenAI und Google nähern sich zwei Billionen Parametern.

Derzeit erhalten wir nur Zugriff auf die acht Milliarden und 3 Milliarden Parameter-Textvarianten von Llama 70. Meta ist mit dem Training seiner größten und komplexesten Modelle noch nicht fertig, deutet jedoch an, dass sie mehrsprachig und multimodal sein werden – das heißt, sie werden aus mehreren kleineren, domänenoptimierten Modellen zusammengesetzt.

Selbst mit nur 70 Milliarden Parametern ist Llama 3 laut Meta durchaus in der Lage, mit viel größeren Modellen mitzuhalten.

Meta behauptet, dass Llama3-8B und 70B weitaus größere Modelle wie Gemini Pro und Claude 3 von Antrhopic übertreffen können

Meta behauptet, dass Llama3-8B und 70B weitaus größere Modelle übertreffen können, darunter Gemini Pro und Claude 3 von Antrhopic – Zum Vergrößern anklicken

Bessere Daten, besseres Modell

Einer der größten Gewinne ergibt sich laut Meta aus der Verwendung eines Tokenizers mit einem Vokabular von 128,000 Token. Im Kontext von LLMs können Token aus einigen Zeichen, ganzen Wörtern oder sogar Phrasen bestehen. KIs zerlegen menschliche Eingaben in Token und verwenden dann ihr Token-Vokabular, um eine Ausgabe zu generieren.

Meta erklärte, dass sein Tokenizer dazu beiträgt, Sprache effizienter zu kodieren und die Leistung erheblich zu steigern. Zusätzliche Gewinne wurden durch die Verwendung hochwertigerer Datensätze und zusätzliche Feinabstimmungsschritte nach dem Training erzielt, um die Leistung und Gesamtgenauigkeit des Modells zu verbessern.

Konkret enthüllte Meta, dass Llama 3 mit mehr als 15 Billionen Token, die aus öffentlich zugänglichen Quellen gesammelt wurden, vorab trainiert wurde.

Der Trainingsdatensatz von Llama 3 ist mehr als siebenmal größer und enthält viermal mehr Code als der von Llama 2 ins Leben gerufen erst vor neun Monaten. Aber wie das Sprichwort sagt: „Müll rein, Müll raus“ – so behauptet Meta, es habe eine Reihe von Datenfilter-Pipelines entwickelt, um sicherzustellen, dass Llama 3 auf so wenig schlechte Informationen wie möglich trainiert wurde.

Zu diesen Qualitätskontrollen gehörten sowohl heuristische als auch NSFW-Filter sowie Datendeduplizierung und Textklassifikatoren, mit denen die Qualität der Informationen vor dem Training vorhergesagt wurde. Meta nutzte sogar sein älteres Llama-2-Modell – das angeblich „überraschend gut darin war, qualitativ hochwertige Daten zu identifizieren“ –, um die Spreu vom Weizen zu trennen.

Fünf Prozent der Trainingsdaten stammten aus mehr als 30 Sprachen, was laut Meta in Zukunft dazu beitragen wird, dem Modell umfangreichere mehrsprachige Fähigkeiten zu verleihen. Das Social Network™️ sagt, dass Benutzer vorerst nicht das gleiche Leistungsniveau in anderen Sprachen als Englisch erwarten sollten.

Das Trainieren kleiner Modelle anhand eines so großen Datensatzes wird im Allgemeinen als Verschwendung von Rechenzeit angesehen und führt sogar zu sinkenden Genauigkeitsergebnissen. Die ideale Mischung aus Trainingsdaten und Rechenressourcen wird als „Chinchilla optimal” [PDF] Betrag. Laut Meta wären dies für ein Modell mit acht Milliarden Parametern wie Llama3-8B etwa 200 Milliarden Token.

Bei Tests stellte Meta jedoch fest, dass sich die Leistung von Llama 3 auch beim Training mit größeren Datensätzen weiter verbesserte. „Sowohl unsere 70-Milliarden- als auch unsere 15-Milliarden-Parametermodelle verbesserten sich weiterhin logarithmisch linear, nachdem wir sie auf bis zu XNUMX Billionen Token trainiert hatten“, schrieb das Unternehmen.

Das Ergebnis ist offenbar ein relativ kompaktes Modell, das Ergebnisse liefern kann, die mit weitaus größeren Modellen vergleichbar sind. Der Kompromiss bei der Rechenleistung wurde wahrscheinlich als lohnenswert erachtet, da kleinere Modelle im Allgemeinen leichter abzuleiten und daher einfacher in großem Maßstab bereitzustellen sind.

Bei einer 8-Bit-Präzision benötigt ein Modell mit acht Milliarden Parametern nur 8 GB Speicher. Eine Reduzierung auf die 4-Bit-Präzision – entweder durch die Verwendung von Hardware, die dies unterstützt, oder durch die Verwendung von Quantisierung zur Komprimierung des Modells – würde den Speicherbedarf um etwa die Hälfte senken.

Meta trainierte das Modell auf zwei Rechenclustern, die jeweils 24,000 Nvidia-GPUs enthielten. Wie Sie sich vorstellen können, bringt das Training auf einem so großen Cluster zwar schneller, aber auch einige Herausforderungen mit sich – die Wahrscheinlichkeit, dass mitten im Trainingslauf etwas ausfällt, steigt.

Um dies zu mildern, erklärte Meta, dass es einen Trainingsstapel entwickelt habe, der die Fehlererkennung, -behandlung und -wartung automatisiert. Der Hyperscaler fügte außerdem Fehlerüberwachungs- und Speichersysteme hinzu, um den Aufwand für Prüfpunkte und Rollbacks zu reduzieren, falls ein Trainingslauf unterbrochen wird. Und nach der Fertigstellung unterzog Meta die Modelle einer Reihe von Test- und Feinabstimmungsschritten nach dem Training.

Neben Llama3-8B und 70B hat Meta auch neue und aktualisierte Vertrauens- und Sicherheitstools eingeführt – darunter Llama Guard 2 und Cybersec Eval 2, um Benutzern dabei zu helfen, das Modell vor Missbrauch und/oder Prompt-Injection-Angriffen zu schützen. Code Shield ist eine weitere Ergänzung, die Leitplanken bereitstellt, die dabei helfen sollen, unsicheren Code herauszufiltern, der von Llama 3 generiert wird.

Wie wir bereits berichtet haben, hat die LLM-unterstützte Codegenerierung zu einigen interessanten Ergebnissen geführt Angriffsvektoren das Meta vermeiden möchte.

Verfügbarkeit

In den nächsten Monaten plant Meta die Einführung weiterer Modelle – darunter eines mit mehr als 400 Milliarden Parametern und der Unterstützung zusätzlicher Funktionen, Sprachen und größerer Kontextfenster. Letzteres ermöglicht es Benutzern, größere, komplexere Abfragen zu stellen – beispielsweise die Zusammenfassung eines großen Textblocks.

Llama3-8B und 70B stehen derzeit zum Download bei Meta's zur Verfügung Website . Auch Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face und andere planen, das Modell zur Bereitstellung auf ihren Plattformen anzubieten.

Wenn Sie Llama3 auf Ihrem Computer testen möchten, können Sie sich unseren Leitfaden zum Ausführen lokaler LLMs ansehen hier. Sobald Sie es installiert haben, können Sie es starten, indem Sie Folgendes ausführen:

Ollama renne Lama3

Viel Spaß und lasst uns wissen, wie es gelaufen ist. ®

Chat mit uns

Hallo! Wie kann ich dir helfen?