Xlera8

Microsoft verkleint AI tot zakformaat met Phi-3 Mini

Microsoft beweert dat de nieuwste incarnatie van zijn lichtgewicht Phi-3 Mini AI-model concurreert met concurrenten zoals GPT-3.5, terwijl hij klein genoeg is om op een telefoon te worden ingezet.

Phi-3 Mini is een taalmodel met 3.8 miljard parameters, getraind op 3.3 biljoen tokens. Dit cijfer is hoger dan de 2.7 miljard parameters van Phi-2, die Microsoft heeft ontwikkeld geïntroduceerd in december 2023.

In plaats van zoveel mogelijk in de trainingsmodellen te stoppen, lag de nadruk op redeneren. Microsoft zei: “Als voorbeeld kan het resultaat van een wedstrijd in de Premier League op een bepaalde dag goede trainingsgegevens zijn voor grensmodellen, maar we moeten dergelijke informatie verwijderen om meer modelcapaciteit over te laten voor ‘redeneren’ voor de minimodellen. .”

De gerichte aanpak betekent dat Phi-3 weliswaar niet over de enorme kennis van zijn concurrenten beschikt, maar dat het qua redenering minstens zo goed, zo niet beter, is, zo beweert Microsoft. In een research paper [PDF], merkt Microsoft op dat hierdoor zijn kleine taalmodel “het niveau kon bereiken van zeer capabele modellen zoals GPT-3.5 of Mixtral met slechts 3.8 miljard totale parameters (terwijl Mixtral bijvoorbeeld 45 miljard totale parameters heeft).”

Het onderzoek merkt ook op dat de gebruikte trainingsgegevens bestonden uit “zwaar gefilterde webgegevens … uit verschillende open internetbronnen” en door LLM gegenereerde gegevens. De gegevensbronnen die worden gebruikt om LLM's op te leiden zijn het onderwerp van verschillende rechtszaken.

Het kleine formaat van de Phi-3 Mini betekent dat hij offline op een smartphone kan draaien, zo wordt ons verteld. Onderzoekers zeiden dat het ongeveer 1.8 GB geheugen in beslag zou kunnen nemen en probeerden het offline uit op een iPhone 14 met een A16 Bionic-chip die standaard op een apparaat draaide. In de krant laten onderzoekers screenshots zien van Phi-3 Mini die een gedicht schrijft en suggesties doet voor dingen om te doen in Houston.

De onderzoekers benadrukken ook de nadelen die inherent zijn aan het focussen op taalbegrip en redeneren. “Het model heeft eenvoudigweg niet de capaciteit om te veel ‘feitelijke kennis’ op te slaan”, iets dat tot op zekere hoogte kan worden verzacht door het uit te breiden met een zoekmachine. Dat zou echter het punt van de mogelijkheid om het offline te kunnen gebruiken tenietdoen.

De taal is momenteel grotendeels beperkt tot het Engels, en problemen die inherent zijn aan de meeste LLM's – hallucinaties, versterking van vooroordelen en het genereren van ongepaste inhoud – zijn ook te vinden in Phi-3 Mini.

Onderzoekers zeggen in de paper: “Er is nog veel werk te doen om deze uitdagingen volledig aan te pakken.”

Er zijn – relatief gezien – ook grotere modellen aangekondigd in de vorm van Phi-3 Small en Phi-3 Medium met respectievelijk 7 en 14 miljard parameters.

Victor Botev, CTO en mede-oprichter van Iris.ai, vertelde ons: “Microsoft's aankondiging van het Phi-3-model vertegenwoordigt een aanhoudende trend in de AI-ontwikkeling. In plaats van steeds grotere modellen na te jagen, ontwikkelt Microsoft tools met zorgvuldiger samengestelde gegevens en gespecialiseerde training. Dit zorgt voor verbeterde prestaties en redeneervermogen zonder de enorme rekenkosten van modellen met biljoenen parameters. Het waarmaken van deze belofte zou betekenen dat een enorme adoptiebarrière wordt weggenomen voor bedrijven die op zoek zijn naar AI-oplossingen.

“Microsoft kijkt wijselijk verder dan de 'groter is beter'-mentaliteit. Voor wijdverbreide AI-toepassingen voor bedrijven en consumenten zijn haalbaarheid en specificiteit belangrijker dan enorme aantallen parameters. Modellen als Phi-3 laten duidelijk zien dat geavanceerde AI-mogelijkheden, met de juiste data- en trainingsaanpak, niet hoeven te leiden tot het bouwen van steeds grotere modellen – een doorslaggevende factor voor bedrijven waar de kosten-kwaliteitverhouding van cruciaal belang is.” ®

Chat met ons

Hallo daar! Hoe kan ik u helpen?