Meta が第 3 世代 Llama 大規模言語モデルをデビュー

タイムスタンプ: 18 年 2024 月 XNUMX 日 8：57 PM
ソースノード: 2733005

プラトン再発行

Meta は、Llama 3 と名付けられた最新の大規模言語モデル (LLM) を発表し、Google、Mistral、Anthropic などのはるかに大規模なモデルに挑戦すると主張しています。

長編で明らかになった発表木曜日には、Llama 3 は 400 億から XNUMX 億を超えるパラメータまでのバージョンで利用可能になります。参考までに、OpenAI と Google の最大のモデルは XNUMX 兆パラメータに近づいています。

今のところ、Llama 3 の 70 億と XNUMX 億のパラメータテキストバリアントにのみアクセスできます。 Meta は、最大かつ最も複雑なモデルのトレーニングをまだ完了していませんが、それらが多言語かつマルチモーダルになることを示唆しています。つまり、複数の小規模なドメイン最適化モデルから組み立てられることを意味します。

メタ氏は、パラメーターがわずか 70 億個であっても、Llama 3 ははるかに大規模なモデルと互角に渡り合える以上の能力があると主張しています。

Meta は、Llama3-8B と 70B は Gemini Pro や Antrhopic の Claude 3 を含むはるかに大型のモデルよりも優れたパフォーマンスを発揮できると主張しています。

Meta は、Llama3-8B および 70B は、Gemini Pro や Antrhopic の Claude 3 を含むはるかに大きなモデルよりも優れたパフォーマンスを発揮できると主張しています – クリックして拡大

より良いデータ、より良いモデル

Meta 氏によると、最大の利点の 128,000 つは、XNUMX トークンの語彙を備えたトークナイザーの使用によるものです。 LLM のコンテキストでは、トークンはいくつかの文字、単語全体、またはフレーズである場合があります。 AI は人間の入力をトークンに分解し、トークンの語彙を使用して出力を生成します。

Meta は、トークナイザーが言語をより効率的にエンコードし、パフォーマンスを大幅に向上させるのに役立つと説明しました。高品質のデータセットを使用し、トレーニング後に追加の微調整ステップを使用することで、さらなる利益が達成され、モデルのパフォーマンスと全体的な精度が向上しました。

具体的には、メタは、ラマ 3 が公的に入手可能な情報源から収集された 15 兆を超えるトークンで事前トレーニングされていることを明らかにしました。

Llama 3 のトレーニングデータセットは Llama 2 の XNUMX 倍以上の大きさで、XNUMX 倍多くのコードが含まれています。打ち上げちょうど3か月前。しかし、ことわざにあるように、「ゴミが入ったらゴミが出てくる」ため、メタ社は、ラマ XNUMX が可能な限り悪い情報でトレーニングされるようにするために、一連のデータフィルタリングパイプラインを開発したと主張しています。

これらの品質管理には、ヒューリスティックフィルターと NSFW フィルターの両方に加え、データの重複排除と、トレーニング前に情報の品質を予測するために使用されるテキスト分類子が含まれていました。メタ社は、もみ殻から小麦を分離するのに「高品質のデータを識別するのに驚くほど優れていた」という古いラマ 2 モデルも使用しました。

トレーニングデータの 30% は XNUMX 以上の言語からのものであり、将来的にはモデルにさらに実質的な多言語機能を導入するのに役立つとメタ氏は予測しました。今のところ、Social Network™️ は、ユーザーは英語以外の言語で同じ程度のパフォーマンスを期待すべきではないと述べています。

このような大規模なデータセットで小さなモデルをトレーニングすることは、一般に計算時間の無駄であると考えられており、さらには精度の利益が逓減すると考えられています。リソースを計算するためのトレーニングデータの理想的な組み合わせは、「チンチラに最適」 [PDF] の金額です。 Meta 氏によると、Llama3-8B のような 200 億パラメータモデルの場合、これは約 XNUMX 億トークンになります。

しかし、メタ氏はテスト中に、より大規模なデータセットでトレーニングした場合でも、Llama 3 のパフォーマンスが向上し続けることを発見しました。「当社の70億パラメータモデルと15億パラメータモデルの両方は、最大XNUMX兆のトークンでトレーニングした後も対数線形に改善し続けました」と業界は書いています。

その結果、はるかに大きなモデルに匹敵する結果を生成できる比較的コンパクトなモデルが得られたようです。一般にモデルが小さいほど推論が容易であり、したがって大規模な展開が容易であるため、コンピューティングにおけるトレードオフは価値があると考えられたと考えられます。

8 ビット精度では、8 億パラメータモデルに必要なメモリはわずか 4 GB です。 XNUMX ビット精度に落とすと、それをサポートするハードウェアを使用するか、量子化を使用してモデルを圧縮することになりますが、メモリ要件は約半分に下がります。

メタは、それぞれ 24,000 個の Nvidia GPU を含む XNUMX つのコンピューティングクラスター上でモデルをトレーニングしました。ご想像のとおり、このような大規模なクラスターでのトレーニングは高速ですが、いくつかの課題も発生します。つまり、トレーニングの実行中に何かが失敗する可能性が高くなります。

これを軽減するために、Meta はエラーの検出、処理、メンテナンスを自動化するトレーニングスタックを開発したと説明しました。ハイパースケーラーは、トレーニング実行が中断された場合のチェックポイントとロールバックのオーバーヘッドを削減するために、障害監視システムとストレージシステムも追加しました。そして完成後、Meta はモデルに対して一連のトレーニング後のテストと微調整ステップを実施しました。

Meta は、Llama3-8B および 70B に加えて、Llama Guard 2 や Cybersec Eval 2 などの新しく更新された信頼性および安全性ツールも公開し、ユーザーがモデルを悪用やプロンプトインジェクション攻撃から保護できるようにしました。 Code Shield は、Llama 3 によって生成された安全でないコードをフィルタリングするために設計されたガードレールを提供するもう XNUMX つの追加機能です。

以前に報告したように、LLM 支援コード生成により、いくつかの興味深い結果が得られました。攻撃ベクトルメタはそれを避けようとしている。

商品在庫

Meta は今後数か月にわたって、400 億を超えるパラメータを含む追加モデルを展開し、追加の機能、言語、より大きなコンテキストウィンドウをサポートする予定です。後者を使用すると、ユーザーは、大きなテキストのブロックを要約するなど、より大きく複雑なクエリを実行できるようになります。

Llama3-8B および 70B は現在、Meta's からダウンロードできます。ウェブサイト。 Amazon Web Services、Microsoft Azure、Google Cloud、Hugging Face なども、自社のプラットフォームに導入するためのモデルを提供する予定です。

マシン上で Llama3 をテストしたい場合は、ローカル LLM の実行に関するガイドをご覧ください。こちら。インストールしたら、次のコマンドを実行して起動できます。

オラマ ラン ラマ3

楽しんで、どうなったか教えてください。 ®

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://go.theregister.com/feed/www.theregister.com/2024/04/19/meta_debuts_llama3_llm/

タグ： 000, 200億, 24, 400, 70, 8, 8ビット, a, 私たちについて , 乱用, アクセス, 従った, 精度, 達成, 追加されました, 添加, NEW, 追加の利益, After, AIS, 許す, ユーザーを許可する, 並んで, また, Amazon, Amazon Webサービス, 量, an, &, お知らせ, 別の, 人間原理, です, AS, 頼む, 組み立て, 支援, At, 攻撃, 攻撃ベクトル, 攻撃, 自動化する, 賃貸条件の詳細・契約費用のお見積り等について, 利用できます, 避ける, Azure, 悪い, BE, 優れた, 最大の, 10億, XNUMX億トークン, ビット, BIZ, ブロック, 後押し, 両言語で, 破る, 打破する, 持って来る, だけど, by, 来ました, 缶, 機能, できる, 場合, 挑戦する, 課題, 文字, チェック, チェックポイント, クレーム, クリック, クラウド, , クラスター, コード, 集めました, 来ます, コンパクト, コンパクトモデル, 匹敵します, 完成した, 複雑な, 圧縮する, 計算, コンピューティング, 見なさ, 含む, 含まれています, 環境, 継続します, controls, 現在, データ, データセット, データセット, 度, 展開します, 展開, 設計, 検出, 発展した, 減少する, ドメイン, 行われ, ダウン, ダウンロード, Drop, 落下, 各, 容易, 効率良く, 8, どちら, エンコード, 英語, 大きくする, 確保, エラー, さらに, 超えます, 期待する, 説明, 顔, 失敗, 不良解析, FAR, 速いです, 少数の, filter , フィルタリング, フィルター, 終わり, 5, , 発見, 4, から, 楽しいです, 機能性, 未来, 利益, ごみ, 双子座, 一般に, 生成する, 生成された, 生成, 世代。, 受け, 行く, 行く, 良い, でログイン, Googleのクラウド, Googleの, だ, GPU, ガード, ガイド, ハーフ, ハンドリング, Hardware, 持ってる, カスタマーサービス, ことができます, こちら, ハイ, 高品質, より高い, ヒント, 認定条件, しかしながら, ハグ顔, 人間, 理想, 識別, if, 絵, 改善します, in, 含まれました, 含めて, 増加, 推論, 情報, 注入, インジェクション攻撃, , 安全でない, インストール, 興味深い, 中断された, に, 紹介します, Is, ISN, IT, ITS, ただ, 知っています, 言語, 言語モデル, ESL, ビジネスESL <br> 中国語/フランス語、その他, 大, より大きい, 最大の, 最新の, 後者, 起動する, 打ち上げ, ツェッペリン, 長い, させて, ような, 尤度, 可能性が高い, いいね, 少し, ラマ, LLM, ローカル, ログ, 探して, 機械, メンテナンス, 意味, メモリ, 単なる, Meta, Microsoft, 真ん中, マイト, ミストラル, 軽減する, ミックス, , モデル, モニタリング, ヶ月, 他には？, 最も, 多く, マルチモーダル, の試合に, 命名, 近づいている, ネットワーク, 新製品, Next, 9, Now, NSFW, NVIDIA, of, 提供, 古い, on, かつて, ONE, の, OpenAI, 最適な, 最適化, or, その他, その他, 私たちの, でる, 優れたパフォーマンス, 出力, オーバー, 全体, オーバーヘッド, ペア, パラメーター, パラメータ, PDF, パーセント, パフォーマンス, フレーズ, パイプライン, 計画 , プラン, プラットフォーム, プラトン, プラトンデータインテリジェンス, プラトデータ, 可能, 役職, プレ, 精度, 予測する, 予測, 前に, 事前の, Pro, 作り出す, プロンプト, 即注射, は、大阪で, 公然と, 品質, 品質データ, 量子化, クエリ, 測距, RE, 減らします, 参照, 言及, 相対的に, 報告, 要件, 必要, リソース, 結果, 結果, 収益, 明らかに, ロール, 転がした, ラン, ランニング, s, 守ります, 安全性, 前記, 同じ, 格言, 言う, 規模, と思われる, 別, シリーズ, サービス, セブン, シールド, いけない, 著しく, 小さい, より小さい, So, 社会, 社会的ネットワーク, 一部, 何か, ソース, 特に, スタック, ステップ, ストレージ利用料, 被った, かなりの, そのような, 支援する, サポート, 驚くほど, システム, T, test, テスト, 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다. , より, それ, 　, 情報, アプリ環境に合わせて, それら, その後, 彼ら, 彼らは, 三番, この, それらの, 木曜日, 従って, 時間, <font style="vertical-align: inherit;">回数</font>, 〜へ, トークン, 豊富なツール群, 訓練を受けた, トレーニング, トレーニングデータ, 1兆, 信頼, チューニング, 2, 解き放たれました, up, 更新しました, us, つかいます, 中古, users, , バリアント, ve, バージョン, 語彙, 欲しいです, ました, 無駄, we, ウェブ, Webサービス, ウェブサイト, WELL, 行ってきました, した, 小麦, 日時, どちら？, while, 全体, 意志, ウィンドウズ, 　, 言葉, やりがいのある, でしょう, 書いた, まだ, You, あなたの, ゼファーネット

エクスレラ8

Meta が第 3 世代 Llama 大規模言語モデルをデビュー

プラトン再発行

より良いデータ、より良いモデル

商品在庫

ライトコイン (LTC) 価格分析: 回復は 82 ドル付近で上限に達する可能性がある |ビットコインのライブニュース

ビットコイン価格は60万ドル以下に落ち着き、これは重大な弱気の兆候か?

BDAG が Solana の成長と Dogwifhat 価格予測を支配

CZの裁判は協力する価値があることを証明する

私たちとチャット