Xlera8

Microsoft réduit l'IA au format de poche avec Phi-3 Mini

Microsoft affirme que la dernière incarnation de son modèle léger Phi-3 Mini AI rivalise avec des concurrents tels que GPT-3.5 tout en étant suffisamment petite pour être déployée sur un téléphone.

Phi-3 Mini est un modèle de langage de 3.8 milliards de paramètres formé sur 3.3 billions de jetons. Ce chiffre est en hausse par rapport aux 2.7 milliards de paramètres de Phi-2, que Microsoft introduit en Décembre 2023.

Plutôt que d’investir autant que possible dans les modèles de formation, l’accent a été mis sur le raisonnement. Microsoft a déclaré : « À titre d'exemple, le résultat d'un match de Premier League un jour donné pourrait être de bonnes données d'entraînement pour les modèles frontières, mais nous devons supprimer ces informations pour laisser plus de capacité de « raisonnement » au modèle pour les modèles de taille mini. .»

L'approche ciblée signifie que même si Phi-3 n'a peut-être pas l'étendue des connaissances de ses concurrents, il est au moins aussi bon, sinon meilleur, en matière de raisonnement, du moins c'est ce que prétend Microsoft. Dans un document de recherche [PDF], Microsoft note que cela a permis à son petit modèle de langage « d'atteindre le niveau de modèles très performants tels que GPT-3.5 ou Mixtral avec seulement 3.8 milliards de paramètres au total (alors que Mixtral a 45 milliards de paramètres au total par exemple). »

La recherche note également que les données de formation utilisées étaient constituées de « données Web fortement filtrées… provenant de diverses sources Internet ouvertes » et de données générées par LLM. Les sources de données utilisées pour former les LLM font l’objet de plusieurs poursuites.

La petite taille du Phi-3 Mini signifie qu'il peut fonctionner hors ligne sur un smartphone, nous dit-on. Les chercheurs ont déclaré qu’il pourrait occuper environ 1.8 Go de mémoire et l’ont essayé hors ligne sur un iPhone 14 avec une puce A16 Bionic fonctionnant de manière native sur un appareil. Dans l'article, les chercheurs montrent des captures d'écran de Phi-3 Mini écrivant un poème et suggérant des choses à faire à Houston.

Les chercheurs soulignent également les inconvénients inhérents à l’accent mis sur la compréhension et le raisonnement du langage. « Le modèle n'a tout simplement pas la capacité de stocker trop de « connaissances factuelles » », ce qui peut être atténué dans une certaine mesure en l'ajoutant à un moteur de recherche. Cependant, cela irait à l’encontre de l’intérêt de pouvoir l’exécuter hors ligne.

La langue est actuellement principalement limitée à l'anglais, et les problèmes inhérents à la plupart des LLM – hallucinations, amplification des biais et génération de contenu inapproprié – peuvent également être trouvés dans Phi-3 Mini.

Les chercheurs affirment dans l’article : « Il y a un travail important à faire pour relever pleinement ces défis. »

Des modèles plus grands – relativement parlant – ont également été annoncés sous la forme de Phi-3 Small et Phi-3 Medium avec respectivement 7 et 14 milliards de paramètres.

Victor Botev, CTO et co-fondateur de Iris.ai, nous a déclaré : « L'annonce par Microsoft du modèle Phi-3 représente une tendance continue dans le développement de l'IA. Plutôt que de rechercher des modèles toujours plus grands, Microsoft développe des outils avec des données plus soigneusement sélectionnées et une formation spécialisée. Cela permet d’améliorer les performances et les capacités de raisonnement sans les coûts de calcul énormes des modèles comportant des milliards de paramètres. Tenir cette promesse signifierait éliminer un énorme obstacle à l’adoption pour les entreprises à la recherche de solutions d’IA.

« Microsoft regarde judicieusement au-delà de la mentalité « plus c'est gros, mieux c'est ». Pour les applications d’IA commerciales et grand public largement répandues, la faisabilité et la spécificité sont plus importantes que le nombre massif de paramètres. Des modèles comme Phi-3 démontrent clairement qu’avec la bonne approche en matière de données et de formation, les capacités avancées d’IA ne nécessitent pas nécessairement la construction de modèles toujours plus grands – un facteur décisif pour les entreprises où le rapport coût/qualité est critique. ®

Discutez avec nous

Salut! Comment puis-je t'aider?