Xlera8

Microsoft mengecilkan AI hingga seukuran saku dengan Phi-3 Mini

Microsoft mengklaim inkarnasi terbaru dari model Phi-3 Mini AI yang ringan menyaingi pesaing seperti GPT-3.5 namun cukup kecil untuk diterapkan pada ponsel.

Phi-3 Mini adalah model bahasa dengan 3.8 miliar parameter yang dilatih pada 3.3 triliun token. Angka ini naik dari 2.7 miliar parameter Phi-2 yang dimiliki Microsoft diperkenalkan pada bulan Desember 2023.

Daripada memasukkan sebanyak mungkin model pelatihan, fokusnya adalah pada penalaran. Microsoft mengatakan: “Sebagai contoh, hasil pertandingan di Liga Premier pada hari tertentu mungkin merupakan data pelatihan yang baik untuk model frontier, namun kami perlu menghapus informasi tersebut untuk memberikan lebih banyak kapasitas model untuk 'penalaran' untuk model ukuran mini. .”

Pendekatan yang ditargetkan berarti bahwa meskipun Phi-3 mungkin tidak memiliki pengetahuan yang luas dibandingkan para pesaingnya, setidaknya Phi-XNUMX sama baiknya, jika tidak lebih baik, dalam hal penalaran, atau begitulah klaim Microsoft. Di sebuah telaahan [PDF], Microsoft mencatat bahwa hal ini memungkinkan model bahasa kecilnya “mencapai level model berkemampuan tinggi seperti GPT-3.5 atau Mixtral dengan hanya 3.8 miliar parameter total (sementara Mixtral memiliki total parameter 45 miliar misalnya).”

Penelitian ini juga mencatat bahwa data pelatihan yang digunakan terdiri dari “data web yang sangat disaring… dari berbagai sumber internet terbuka” dan data yang dihasilkan LLM. Sumber data yang digunakan untuk melatih LLM adalah subjek beberapa tuntutan hukum.

Kami diberitahu bahwa ukuran Phi-3 Mini yang kecil berarti dapat dijalankan secara offline di smartphone. Para peneliti mengatakan itu dapat dibuat untuk menempati sekitar 1.8 GB memori dan mencobanya secara offline di iPhone 14 dengan chip A16 Bionic yang berjalan secara native di perangkat. Dalam makalah tersebut, peneliti menunjukkan tangkapan layar Phi-3 Mini yang sedang menulis puisi dan menyarankan hal-hal yang dapat dilakukan di Houston.

Para peneliti juga menyoroti kelemahan yang melekat pada fokus pada pemahaman dan penalaran bahasa. “Model ini tidak memiliki kapasitas untuk menyimpan terlalu banyak 'pengetahuan faktual',” sesuatu yang dapat dikurangi sampai batas tertentu dengan melengkapinya dengan mesin pencari. Namun, hal itu tidak sesuai dengan kemampuan menjalankannya secara offline.

Bahasanya sebagian besar terbatas pada bahasa Inggris saat ini, dan masalah yang melekat pada sebagian besar LLM – halusinasi, amplifikasi bias, dan pembuatan konten yang tidak pantas – juga dapat ditemukan di Phi-3 Mini.

Para peneliti mengatakan dalam makalahnya: “Ada upaya besar ke depan untuk sepenuhnya mengatasi tantangan-tantangan ini.”

Model yang lebih besar – secara relatif – juga telah diumumkan dalam bentuk Phi-3 Small dan Phi-3 Medium dengan masing-masing 7 dan 14 miliar parameter.

Victor Botev, CTO dan salah satu pendiri di Iris.ai, memberi tahu kami: “Pengumuman model Phi-3 oleh Microsoft mewakili tren berkelanjutan dalam pengembangan AI. Daripada mengejar model yang lebih besar, Microsoft mengembangkan alat dengan data yang dikurasi lebih cermat dan pelatihan khusus. Hal ini memungkinkan peningkatan performa dan kemampuan penalaran tanpa biaya komputasi model yang besar dengan triliunan parameter. Memenuhi janji ini berarti menghilangkan hambatan adopsi yang besar bagi bisnis yang mencari solusi AI.

“Microsoft dengan bijak melihat lebih jauh dari pola pikir 'lebih besar lebih baik'. Untuk aplikasi AI bisnis dan konsumen yang tersebar luas, kelayakan dan spesifisitas lebih penting daripada jumlah parameter yang besar. Model seperti Phi-3 dengan jelas menunjukkan bahwa dengan pendekatan data dan pelatihan yang tepat, kemampuan AI yang canggih tidak perlu membangun model yang lebih besar – sebuah faktor penentu bagi bisnis yang mengutamakan rasio biaya terhadap kualitas.” ®

Hubungi kami

Hai, yang di sana! Apa yang bisa saya bantu?