エクスレラ8

Meta が第 3 世代 Llama 大規模言語モデルをデビュー

Meta は、Llama 3 と名付けられた最新の大規模言語モデル (LLM) を発表し、Google、Mistral、Anthropic などのはるかに大規模なモデルに挑戦すると主張しています。

長編で明らかになった 発表 木曜日には、Llama 3 は 400 億から XNUMX 億を超えるパラメータまでのバージョンで利用可能になります。参考までに、OpenAI と Google の最大のモデルは XNUMX 兆パラメータに近づいています。

今のところ、Llama 3 の 70 億と XNUMX 億のパラメータ テキスト バリアントにのみアクセスできます。 Meta は、最大かつ最も複雑なモデルのトレーニングをまだ完了していませんが、それらが多言語かつマルチモーダルになることを示唆しています。つまり、複数の小規模なドメイン最適化モデルから組み立てられることを意味します。

メタ氏は、パラメーターがわずか 70 億個であっても、Llama 3 ははるかに大規模なモデルと互角に渡り合える以上の能力があると主張しています。

Meta は、Llama3-8B と 70B は Gemini Pro や Antrhopic の Claude 3 を含むはるかに大型のモデルよりも優れたパフォーマンスを発揮できると主張しています。

Meta は、Llama3-8B および 70B は、Gemini Pro や Antrhopic の Claude 3 を含むはるかに大きなモデルよりも優れたパフォーマンスを発揮できると主張しています – クリックして拡大

より良いデータ、より良いモデル

Meta 氏によると、最大の利点の 128,000 つは、XNUMX トークンの語彙を備えたトークナイザーの使用によるものです。 LLM のコンテキストでは、トークンはいくつかの文字、単語全体、またはフレーズである場合があります。 AI は人間の入力をトークンに分解し、トークンの語彙を使用して出力を生成します。

Meta は、トークナイザーが言語をより効率的にエンコードし、パフォーマンスを大幅に向上させるのに役立つと説明しました。高品質のデータセットを使用し、トレーニング後に追加の微調整ステップを使用することで、さらなる利益が達成され、モデルのパフォーマンスと全体的な精度が向上しました。

具体的には、メタは、ラマ 3 が公的に入手可能な情報源から収集された 15 兆を超えるトークンで事前トレーニングされていることを明らかにしました。

Llama 3 のトレーニング データセットは Llama 2 の XNUMX 倍以上の大きさで、XNUMX 倍多くのコードが含まれています。 打ち上げ ちょうど3か月前。しかし、ことわざにあるように、「ゴミが入ったらゴミが出てくる」ため、メタ社は、ラマ XNUMX が可能な限り悪い情報でトレーニングされるようにするために、一連のデータ フィルタリング パイプラインを開発したと主張しています。

これらの品質管理には、ヒューリスティック フィルターと NSFW フィルターの両方に加え、データの重複排除と、トレーニング前に情報の品質を予測するために使用されるテキスト分類子が含まれていました。メタ社は、もみ殻から小麦を分離するのに「高品質のデータを識別するのに驚くほど優れていた」という古いラマ 2 モデルも使用しました。

トレーニング データの 30% は XNUMX 以上の言語からのものであり、将来的にはモデルにさらに実質的な多言語機能を導入するのに役立つとメタ氏は予測しました。今のところ、Social Network™️ は、ユーザーは英語以外の言語で同じ程度のパフォーマンスを期待すべきではないと述べています。

このような大規模なデータセットで小さなモデルをトレーニングすることは、一般に計算時間の無駄であると考えられており、さらには精度の利益が逓減すると考えられています。リソースを計算するためのトレーニング データの理想的な組み合わせは、「チンチラに最適」 [PDF] の金額です。 Meta 氏によると、Llama3-8B のような 200 億パラメータ モデルの場合、これは約 XNUMX 億トークンになります。

しかし、メタ氏はテスト中に、より大規模なデータセットでトレーニングした場合でも、Llama 3 のパフォーマンスが向上し続けることを発見しました。 「当社の70億パラメータモデルと15億パラメータモデルの両方は、最大XNUMX兆のトークンでトレーニングした後も対数線形に改善し続けました」と業界は書いています。

その結果、はるかに大きなモデルに匹敵する結果を生成できる比較的コンパクトなモデルが得られたようです。一般にモデルが小さいほど推論が容易であり、したがって大規模な展開が容易であるため、コンピューティングにおけるトレードオフは価値があると考えられたと考えられます。

8 ビット精度では、8 億パラメータ モデルに必要なメモリはわずか 4 GB です。 XNUMX ビット精度に落とすと、それをサポートするハードウェアを使用するか、量子化を使用してモデルを圧縮することになりますが、メモリ要件は約半分に下がります。

メタは、それぞれ 24,000 個の Nvidia GPU を含む XNUMX つのコンピューティング クラスター上でモデルをトレーニングしました。ご想像のとおり、このような大規模なクラスターでのトレーニングは高速ですが、いくつかの課題も発生します。つまり、トレーニングの実行中に何かが失敗する可能性が高くなります。

これを軽減するために、Meta はエラーの検出、処理、メンテナンスを自動化するトレーニング スタックを開発したと説明しました。ハイパースケーラーは、トレーニング実行が中断された場合のチェックポイントとロールバックのオーバーヘッドを削減するために、障害監視システムとストレージ システムも追加しました。そして完成後、Meta はモデルに対して一連のトレーニング後のテストと微調整ステップを実施しました。

Meta は、Llama3-8B および 70B に加えて、Llama Guard 2 や Cyber​​sec Eval 2 などの新しく更新された信頼性および安全性ツールも公開し、ユーザーがモデルを悪用やプロンプト インジェクション攻撃から保護できるようにしました。 Code Shield は、Llama 3 によって生成された安全でないコードをフィルタリングするために設計されたガードレールを提供するもう XNUMX つの追加機能です。

以前に報告したように、LLM 支援コード生成により、いくつかの興味深い結果が得られました。 攻撃ベクトル メタはそれを避けようとしている。

商品在庫

Meta は今後数か月にわたって、400 億を超えるパラメータを含む追加モデルを展開し、追加の機能、言語、より大きなコンテキスト ウィンドウをサポートする予定です。後者を使用すると、ユーザーは、大きなテキストのブロックを要約するなど、より大きく複雑なクエリを実行できるようになります。

Llama3-8B および 70B は現在、Meta's からダウンロードできます。 ウェブサイト。 Amazon Web Services、Microsoft Azure、Google Cloud、Hugging Face なども、自社のプラットフォームに導入するためのモデルを提供する予定です。

マシン上で Llama3 をテストしたい場合は、ローカル LLM の実行に関するガイドをご覧ください。 こちら。インストールしたら、次のコマンドを実行して起動できます。

オラマ ラン ラマ3

楽しんで、どうなったか教えてください。 ®

私たちとチャット

やあ! どんな御用でしょうか?