Xlera8

Microsoft Phi-3 on teknologiajätin seuraava pieni titaani

Kilpailu yhä suuremmista tekoälymalleista on ollut viimeaikaisten edistysten tunnusmerkki. Microsoft kuitenkin ravistelee asioita Phi-3 Minillä, tekoälymallilla, joka ylpeilee vaikuttavilla ominaisuuksilla kompaktista koostaan ​​huolimatta.

Perinteisesti menestys suurissa kielimalleissa (LLM) on yhdistetty parametrien määrään – lähinnä niihin rakennuspalikoihin, jotka vaikuttavat mallin kielen ymmärtämiseen.

Ottaen huomioon laskentakustannukset ja kaikkien saatavuuden, Microsoft Phi-3 on täällä muuttamaan tätä "perinteistä" lähestymistapaa.

Microsoft Phi-3 Mini mahtuu jättiläisen taskuusi

GPT-3.5, LLM-kilpailun nykyinen edelläkävijä, tarjoaa huikeat 175 miljardia parametria. Tämän valtavan määrän ansiosta GPT-3.5 pystyy käsittelemään valtavia määriä tekstidataa, mikä antaa sille laajan ja vivahteikkaan käsityksen kielestä. Tästä monimutkaisuudesta tulee kuitenkin myös hintansa. Näin suurella parametrimäärällä varustetun mallin käyttäminen vaatii huomattavia laskentaresursseja, mikä tekee siitä kallista ja energiaa kuluttavaa.

Microsoftin minimalli sen sijaan ottaa toisenlaisen lähestymistavan. Hyödyntämällä paljon pienempää parametrijoukkoa – vain 3.8 miljardia – Phi-3 Mini toimii tehokkuustasolla, joka on kääpiöisempi sen suurempien kollegoiden osalta. Tällä koon pienennyksellä on useita etuja.

Kaikki nämä tekevät Microsoft Phi-3:sta:

  • Huomattavasti halvempi käyttää
  • Mahdollinen voimalaitos laitteissa oleville tekoälysovelluksille

Phi-3 Minin harjoitusohjelma

Toinen Phi-3 Minin kiehtova puoli on sen harjoitusmenetelmä.

Toisin kuin suuremmat kollegansa, jotka ovat koulutettuja massiivisiin teksti- ja kooditietosarjoihin, Phi-3 Minin koulutus sisälsi paremmin kuratoidun valinnan. Tutkijat valitsivat opetussuunnitelman, joka on saanut inspiraationsa siitä, miten lapset oppivat – käyttämällä lastenkirjoja perustana.

Tämä lähestymistapa näyttää tuottaneen myönteisiä tuloksia, kun Phi-3 Mini osoitti suorituskykyä, joka kilpailee GPT-3.5:n kanssa. useita vertailuarvoja.

Microsoft Phi-3 LLM
Vain 3.8 miljardilla parametrilla Phi-3 Mini ylittää suuremmat mallit kustannustehokkuuden ja laitteen suorituskyvyn suhteen (Kuva pistetilanne)

Menestyksen benchmark

Microsoftin tutkijat ottivat uuden mallinsa läpi vauhdilla käyttämällä vakiintuneita vertailuarvoja LLM:ille. Malli saavutti vaikuttavia pisteitä mittareista, kuten MMLU (mallin kyvystä ymmärtää monimutkaisia ​​kielen suhteita) ja MT-penkki (konekäännösominaisuuksien testi).

Nämä tulokset viittaavat siihen, että Phi-3 Mini voi koostaan ​​huolimatta kilpailla suurten nimien kanssa LLM-pelissä.

Miten se saavuttaa niin vaikuttavia tuloksia?

Phi-3 Minin tekniset yksityiskohdat paljastavat kiehtovan lähestymistavan vaikuttavien tulosten saavuttamiseen huomattavan pienellä mallikoolla. Tässä on erittely tärkeimmistä näkökohdista:

Muuntajan dekooderin arkkitehtuuri

Phi-3 Mini käyttää muuntajadekooderin arkkitehtuuria, joka on yleinen suunnitteluvaihtoehto tehokkaille kielimalleille. Tämä arkkitehtuuri on erinomainen käsittelemään peräkkäistä dataa, kuten tekstiä, jolloin malli voi ymmärtää lauseen sanojen välisiä suhteita.

Kontekstin pituus

Normaali Phi-3 Mini toimii kontekstipituudella 4,000 merkkiä. Tämä määrittää merkkien (sanojen tai sanaosien) enimmäismäärän, jonka malli ottaa huomioon luodessaan tekstiä. Pidempi kontekstin pituus mahdollistaa syvemmän ymmärryksen edellisestä keskustelusta, mutta vaatii myös enemmän käsittelytehoa.

Pitkä kontekstiversio (Phi-3-Mini-128K)

Laajempaa kontekstia vaativiin tehtäviin on saatavana muunnos nimeltä Phi-3-Mini-128K. Tämä versio laajentaa kontekstin pituuden huimiin 128,000 XNUMX merkkiin, mikä mahdollistaa monimutkaisempien tietosarjojen käsittelemisen.

Yhteensopivuus olemassa olevien työkalujen kanssa

Kehittäjäyhteisön hyödyksi Phi-3 Mini jakaa saman rakenteen ja sanaston koon (320,641 2) Llama-2-malliperheen kanssa. Tämän yhteensopivuuden ansiosta kehittäjät voivat hyödyntää olemassa olevia Llama-3:lle suunniteltuja työkaluja ja kirjastoja työskennellessään Phi-XNUMX Minin kanssa.

Malliparametrit

Tässä Phi-3 Mini todella loistaa. Vain 3.072 miljardilla parametrilla se toimii huomattavasti alle suuremmissa malleissa, kuten GPT-3.5:ssä (175 miljardia parametria) nähtyjä huikeita lukuja.

Tämä parametrien merkittävä pieneneminen merkitsee poikkeuksellista tehokkuutta prosessointitehon ja muistin käytön suhteen.

Microsoftin Saif Naik selittää:

”Tavoitteemme Krishi Mitra -kopilotin kanssa on parantaa tehokkuutta säilyttäen samalla suuren kielimallin tarkkuuden. Olemme innoissamme voidessamme tehdä yhteistyötä Microsoftin kanssa Phi-3:n hienosäädetyillä versioilla saavuttaaksemme molemmat tavoitteemme – tehokkuuden ja tarkkuuden!”

– Saif Naik, teknologiajohtaja, ITCMAARS

Koulutusmenetelmät

Phi-3 Minin koulutus saa inspiraationsa "Oppikirjat ovat kaikki mitä tarvitset" -lähestymistavasta. Tämä menetelmä korostaa korkealaatuista harjoitustietoa pelkän mallin koon suurentamisen sijaan. Koulutusdata on huolellisesti kuratoitu, ja siinä keskitytään verkkolähteisiin, joilla on tietty "koulutustaso" ja synteettisiin tietoihin, joita muut LLM:t ovat tuottaneet.

Tämän strategian avulla Phi-3 Mini voi saavuttaa vaikuttavia tuloksia kompaktista koostaan ​​huolimatta.

Tietojen suodatus optimaalista oppimista varten

Toisin kuin perinteiset lähestymistavat, jotka asettavat etusijalle joko laskentaresurssit tai liiallisen harjoittelun, Phi-3 Mini keskittyy kokoonsa nähden "optimaaliseen datajärjestelmään". Tämä edellyttää verkkotietojen huolellista suodattamista sen varmistamiseksi, että se sisältää oikean tason "tietoa" ja edistää päättelykykyä.

Esimerkiksi yleiset urheilutiedot voidaan sulkea pois sellaisten tietojen priorisoimiseksi, jotka parantavat mallin päättelykykyä.

Harjoittelun jälkeinen hienosäätö

Perusharjoitusprosessin jälkeen uutta mallia parannellaan lisää valvotun hienosäädön (SFT) ja suoran preferenssin optimoinnin (DPO) avulla. SFT paljastaa mallin kuratoidulle datalle eri aloilla, mukaan lukien matematiikka, koodaus ja turvallisuusperiaatteet. DPO auttaa ohjaamaan mallia pois ei-toivotusta käyttäytymisestä tunnistamalla ja sulkemalla pois ei-toivotut tulokset.

Tämä harjoituksen jälkeinen vaihe muuttaa Phi-3 Minin kielimallista monipuoliseksi ja turvalliseksi tekoälyavustajaksi.

Tehokas suorituskyky laitteessa

Phi-3 Minin pieni koko tarkoittaa poikkeuksellista suorituskykyä laitteella. Kvantisoimalla mallin 4-bittiseksi se vie vain 1.8 gigatavua muistia.

Ottelu taivaassa

Muistatko Microsoftin epäonnistuneet älypuhelinyritykset? Entä Applen epäonnistuneet Google Gemini -integraatiosopimukset viime kuukausina? Tai oletko seurannut uutisia Applen integroinnista laitteessa oleva LLM iOS 18:lla viime viikkoina?

Soittaako se kelloa?

Phi-3 Minin potentiaaliset sovellukset ovat laajat. Sen tehokkuus tekee siitä ihanteellisen integroitavaksi mobiililaitteisiin, mikä mahdollistaa ominaisuudet, kuten älykkäät virtuaaliassistentit ja reaaliaikaisen kielenkäännöksen. Lisäksi sen kustannustehokkuus voisi avata ovia laajemmalle omaksumiselle kehittäjille, jotka työskentelevät erilaisissa tekoälyprojekteissa.

Ja juuri sitä Apple etsi. Tietenkin tämä väite on toistaiseksi vain arvaus, mutta ei olisi väärin sanoa, että tämä on "taivaassa tehty ottelu". Lisäksi tutkimuspaperissa Microsoftin uusi projekti on jo ajettu iPhonessa, jossa on A16 Bionic -siru.

Microsoft Phi-3 LLM
Spekulaatioita herää mahdollisesta Microsoftin ja Applen välisestä yhteistyöstä, kun otetaan huomioon Phi-3 Minin yhteensopivuus iOS-laitteiden kanssa ja Applen viimeaikainen kiinnostus laitteen sisäiseen LLM-integraatioon (Kuva pistetilanne)

Phi-3 Minin menestys riippuu useista tekijöistä – hyvin sopivasta arkkitehtuurista, kontekstin pituuden tehokkaasta käytöstä, yhteensopivuudesta olemassa olevien työkalujen kanssa, keskittymisestä korkealaatuiseen harjoitustietoon ja optimointitekniikoihin. Tämä ainutlaatuinen lähestymistapa tasoittaa tietä tehokkaille ja tehokkaille tekoälymalleille, jotka voivat toimia saumattomasti henkilökohtaisissa laitteissa.


Suositeltu kuvahyvitys: vecstock/Freepik

Keskustele kanssamme

Hei siellä! Kuinka voin olla avuksi?