Xlera8

Microsoft, Phi-3 Mini ile yapay zekayı cep boyutuna küçültüyor

Microsoft, hafif Phi-3 Mini AI modelinin en son versiyonunun, bir telefona kurulabilecek kadar küçük olmasına rağmen GPT-3.5 gibi rakiplerle rekabet ettiğini iddia ediyor.

Phi-3 Mini, 3.8 trilyon token üzerinde eğitilmiş 3.3 milyar parametreli bir dil modelidir. Bu rakam, Microsoft'un belirlediği 2.7 milyar Phi-2 parametresinden yüksektir. tanıttı Aralık 2023 içinde.

Eğitim modellerine mümkün olduğu kadar çok şey katmak yerine, akıl yürütmeye odaklanıldı. Microsoft şunları söyledi: "Örneğin, Premier Lig'de belirli bir günde oynanan bir maçın sonucu, ileri seviye modeller için iyi bir antrenman verisi olabilir, ancak mini boyutlu modeller için 'akıl yürütme' için daha fazla model kapasitesi bırakmak amacıyla bu tür bilgileri kaldırmamız gerekiyor. .”

Hedeflenen yaklaşım, Phi-3'ün rakipleri kadar geniş bir bilgi birikimine sahip olmasa da, konu muhakeme söz konusu olduğunda en azından onlar kadar iyi olduğu anlamına geliyor; Microsoft bunu iddia ediyor. İçinde Araştırma kağıdı [PDF] Microsoft, bunun küçük dil modelinin "yalnızca 3.5 milyar toplam parametreyle (örneğin Mixtral'da 3.8 milyar toplam parametre varken) GPT-45 veya Mixtral gibi son derece yetenekli modellerin düzeyine ulaşmasına" olanak tanıdığını belirtiyor.

Araştırma ayrıca, kullanılan eğitim verilerinin "çeşitli açık internet kaynaklarından yoğun şekilde filtrelenmiş web verileri" ve LLM tarafından oluşturulan verilerden oluştuğunu belirtiyor. Yüksek Lisans'ları eğitmek için kullanılan veri kaynakları birkaç dava.

Bize Phi-3 Mini'nin küçük boyutunun akıllı telefonda çevrimdışı çalışabileceği anlamına geldiği söylendi. Araştırmacılar, bunun yaklaşık 1.8 GB bellek kaplayacak şekilde yapılabileceğini söyledi ve bunu bir cihazda yerel olarak çalışan A14 Bionic çipli bir iPhone 16 üzerinde çevrimdışı olarak denedi. Makalede araştırmacılar, Phi-3 Mini'nin şiir yazdığını ve Houston'da yapılacak şeyleri önerdiğini gösteren ekran görüntülerini gösteriyor.

Araştırmacılar ayrıca dili anlama ve akıl yürütmeye odaklanmanın doğasında olan olumsuzlukları da vurguluyor. "Modelin çok fazla 'olgusal bilgi' depolama kapasitesi yok", bu da bir arama motoruyla güçlendirilerek bir dereceye kadar hafifletilebilir. Ancak bu, onu çevrimdışı çalıştırabilmenin amacını ortadan kaldırır.

Dil şu anda çoğunlukla İngilizce ile sınırlıdır ve çoğu LLM'nin doğasında olan halüsinasyonlar, önyargının güçlendirilmesi ve uygunsuz içerik üretimi gibi sorunlar Phi-3 Mini'de de bulunabilir.

Araştırmacılar makalede şunları söylüyor: "Bu zorlukları tam olarak ele almak için önümüzde önemli çalışmalar var."

Göreceli olarak daha büyük modeller de sırasıyla 3 ve 3 milyar parametreli Phi-7 Small ve Phi-14 Medium şeklinde duyuruldu.

Victor Botev, CTO ve kurucu ortak iris.ai, bize şunları söyledi: “Microsoft'un Phi-3 modelini duyurması, yapay zeka gelişiminde devam eden bir eğilimi temsil ediyor. Microsoft, giderek daha büyük modelleri kovalamak yerine, daha dikkatli bir şekilde seçilmiş veriler ve özel eğitim içeren araçlar geliştiriyor. Bu, trilyonlarca parametreye sahip modellerin devasa hesaplama maliyetleri olmadan gelişmiş performans ve muhakeme yeteneklerine olanak tanır. Bu sözün yerine getirilmesi, yapay zeka çözümleri arayan işletmeler için büyük bir benimseme engelinin ortadan kaldırılması anlamına gelecektir.

“Microsoft akıllıca 'daha büyük olan daha iyidir' zihniyetinin ötesine bakıyor. Yaygın iş ve tüketici yapay zeka uygulamaları için fizibilite ve spesifiklik, büyük parametre sayılarından daha önemlidir. Phi-3 gibi modeller, doğru veri ve eğitim yaklaşımıyla gelişmiş yapay zeka yeteneklerinin daha büyük modeller oluşturmayı gerektirmediğini açıkça gösteriyor; bu, maliyet-kalite oranının kritik olduğu işletmeler için karar verici bir faktör." ®

Bizimle sohbet

Merhaba! Size nasıl yardım edebilirim?