Xlera8

Benchmark Llama 3 mengungkapkan bagaimana Meta AI bertahan melawan ChatGPT dan Gemini

Sambil menghadirkan pembaruan Meta AI ke setiap platform, Meta juga menerbitkan benchmark Llama 3 untuk para penggemar teknologi.

Benchmark ini menawarkan kepada peneliti dan pengembang independen rangkaian pengujian standar untuk mengevaluasi kinerja Llama 3 dalam berbagai tugas.

Transparansi ini memungkinkan pengguna untuk membandingkan kekuatan dan kelemahan Llama 3 dengan LLM lain menggunakan tolok ukur yang sama, sehingga mendorong pemahaman yang lebih obyektif tentang kemampuannya.

Apa yang ditunjukkan oleh benchmark Llama 3?

Meta AI menetapkan tolok ukur Llama 3, serangkaian evaluasi komprehensif yang dirancang untuk menilai kinerja LLM di berbagai tugas. Tugas-tugas ini mencakup menjawab pertanyaan, merangkum, mengikuti instruksi, dan pembelajaran beberapa langkah. Tolok ukur ini berfungsi sebagai alat penting untuk mengukur kekuatan dan kelemahan Llama 3 dibandingkan LLM lainnya.

Meskipun perbandingan langsung antara tolok ukur Llama 3 dan yang digunakan untuk pesaing merupakan tantangan karena metodologi evaluasi yang berbeda, Meta mengklaim bahwa model Llama 3 yang dilatih berdasarkan kumpulan data mereka mencapai kinerja luar biasa di semua tugas yang dievaluasi. Hal ini menunjukkan bahwa Meta AI setara dengan yang terbaik di bidang LLM.

Berikut adalah pandangan lebih dalam tentang bagaimana benchmark Llama 3 disusun:

  • Skala parameter: Meta membanggakan bahwa model Llama 8 parameter 70B dan 3B mereka melampaui Llama 2 dan membangun kecanggihan baru untuk LLM dengan skala yang sama.
  • Evaluasi manusia: Meta melakukan evaluasi manusia pada kumpulan data komprehensif yang mencakup 12 kasus penggunaan utama. Evaluasi ini memposisikan model Llama 70 yang mengikuti instruksi 3B lebih baik dibandingkan pesaingnya yang berukuran sebanding dalam skenario dunia nyata.

Ini adalah evaluasi Meta sendiri, dan tolok ukur independen mungkin diperlukan untuk perbandingan yang lebih pasti.

Patokan Llama 3 Meta AI vs ChatGPT vs Gemini
Meskipun terdapat keterbatasan benchmark saat ini, Llama 3 menunjukkan kinerja yang kuat dalam berbagai tugas (Gambar kredit)

Bobot terbuka vs sumber terbuka

Penting untuk membedakan antara “bobot terbuka” dan “sumber terbuka”. Meskipun Llama 3 menawarkan model dan bobot yang dapat diunduh secara bebas, Llama XNUMX tidak termasuk dalam definisi ketat sumber terbuka karena keterbatasan akses dan data pelatihan (tidak seperti perangkat lunak sumber terbuka).

Llama 3 hadir dalam dua ukuran: 8 miliar (8B) dan 70 miliar (70B) parameter. Keduanya tersedia untuk diunduh gratis di situs web Meta setelah proses pendaftaran sederhana.

Penjelasan teknis mendalam tentang Meta AI

Llama 3 menawarkan dua versi:

  • Terlatih sebelumnya: Ini adalah model mentah yang berfokus pada prediksi token berikutnya.
  • Disetel dengan instruksi: Versi ini disesuaikan untuk mengikuti instruksi pengguna tertentu.

Kedua versi memiliki batas konteks sebesar 8,192 token.

Patokan Llama 3 Meta AI vs ChatGPT vs Gemini
Model Llama 3, tersedia dalam parameter 8 miliar (8B) dan 70 miliar (70B). (Gambar kredit)

Detail pelatihan

  • Perangkat keras pelatihan: Meta menggunakan dua cluster yang dibuat khusus, masing-masing berisi 24,000 GPU, untuk melatih Llama 3.
  • Data pelatihan: Mark Zuckerberg, CEO Meta, mengungkapkan dalam wawancara podcast bahwa model 70B dilatih pada kumpulan data besar sekitar 15 triliun token. Menariknya, model tersebut tidak pernah mencapai titik jenuh (kinerja puncak) selama pelatihan, sehingga menunjukkan bahwa mungkin ada ruang untuk perbaikan lebih lanjut dengan kumpulan data yang lebih besar.
  • Rencana masa depan: Meta saat ini sedang melatih versi parameter 400B yang sangat besar dari Llama 3, yang berpotensi menempatkannya di tingkat kinerja yang sama dengan pesaing seperti GPT-4 Turbo dan Gemini Ultra pada tolok ukur seperti MMLU, GPQA, HumanEval, dan MATH.

Tantangan dalam benchmark Llama 3

Kita perlu mengakui keterbatasan tolok ukur LLM saat ini karena faktor-faktor seperti kontaminasi data pelatihan dan hasil yang dipilih oleh vendor.

Terlepas dari keterbatasan ini, Meta memberikan beberapa tolok ukur yang menunjukkan kinerja Llama 3 pada tugas-tugas seperti MMLU (pengetahuan umum), GSM-8K (matematika), HumanEval (coding), GPQA (pertanyaan lanjutan), dan MATEMATIKA (masalah kata).

Tolok ukur ini memposisikan model 8B lebih baik dibandingkan pesaing kelas terbuka lainnya Gemma 7B dari Google dan Mistral 7B Menginstruksikan. Model 70B juga mampu bertahan melawan nama-nama mapan seperti Gemini Pro 1.5 dan Claude 3 Soneta.

Patokan Llama 3 Meta AI vs ChatGPT vs Gemini
Meta menggunakan cluster yang dibuat khusus yang masing-masing berisi 24,000 GPU untuk melatih Llama 3 (Gambar kredit)

Aksesibilitas Llama 3

Meta berencana membuat model Llama 3 tersedia di platform cloud utama seperti AWS, Databricks, Google Cloud, dan lainnya, memastikan aksesibilitas luas bagi pengembang.

Llama 3 membentuk dasar dari asisten virtual Meta, yang akan menonjol ditampilkan dalam fungsi pencarian di Facebook, Instagram, WhatsApp, Messenger, Dan situs yang didedikasikan menyerupai antarmuka ChatGPT (termasuk pembuatan gambar).

Selain itu, Meta telah bermitra dengan Google untuk mengintegrasikan hasil pencarian real-time ke dalam asisten, berdasarkan hasil tersebut kemitraan yang ada dengan Microsoft Bing.


Kredit gambar unggulan: meta

Hubungi kami

Hai, yang di sana! Apa yang bisa saya bantu?