Xlera8

Microsoft зменшує штучний інтелект до кишенькового розміру за допомогою Phi-3 Mini

Корпорація Майкрософт стверджує, що останнє втілення її легкої моделі Phi-3 Mini AI конкурує з такими конкурентами, як GPT-3.5, але є достатньо малим, щоб його можна було розгорнути на телефоні.

Phi-3 Mini — це модель мови з 3.8 мільярда параметрів, навчена на 3.3 трильйона токенів. Ця цифра перевищує 2.7 мільярда параметрів Phi-2, які Microsoft введені у грудні 2023.

Замість того, щоб якомога більше вникати в навчальні моделі, увага була зосереджена на аргументації. Microsoft сказала: «Як приклад, результатом гри в Прем’єр-лізі в певний день можуть бути хороші тренувальні дані для передових моделей, але нам потрібно видалити таку інформацію, щоб залишити більше можливостей моделі для «міркування» для моделей міні-розміру. .”

Цілеспрямований підхід означає, що, хоча Phi-3 може не мати такої широти знань, як його конкуренти, він принаймні такий самий, якщо не кращий, коли йдеться про міркування, принаймні так стверджує Microsoft. В дипломну роботу [PDF], Microsoft зазначає, що це дозволило її маленькій мовній моделі «досягти рівня високопродуктивних моделей, таких як GPT-3.5 або Mixtral, лише з 3.8 B загальних параметрів (у той час як Mixtral, наприклад, має 45 B загальних параметрів)».

Дослідження також зазначає, що використані навчальні дані складалися з «сильно відфільтрованих веб-даних … з різних відкритих інтернет-джерел» і даних, згенерованих LLM. Джерела даних, які використовуються для навчання LLM, є предметом декілька судових позовів.

Нам сказали, що невеликий розмір Phi-3 Mini означає, що він може працювати в автономному режимі на смартфоні. Дослідники сказали, що його можна змусити займати приблизно 1.8 ГБ пам’яті, і випробували його в автономному режимі на iPhone 14 із чіпом A16 Bionic, який працює на пристрої. У статті дослідники демонструють скріншоти, на яких Phi-3 Mini пише вірш і пропонує, чим зайнятися в Х’юстоні.

Дослідники також підкреслюють недоліки, властиві зосередженню на розумінні мови та міркуванні. «Модель просто не здатна зберігати занадто багато «фактичних знань», що можна певною мірою пом’якшити, доповнивши його за допомогою пошукової системи. Однак це зруйнувало б сенс можливості запуску в автономному режимі.

Мова на даний момент здебільшого обмежена англійською мовою, і проблеми, властиві більшості LLM – галюцинації, посилення упередженості та створення невідповідного контенту – також можна знайти в Phi-3 Mini.

Дослідники кажуть у статті: «Попереду ще багато роботи, щоб повністю вирішити ці проблеми».

Умовно кажучи, більші моделі також були анонсовані у вигляді Phi-3 Small і Phi-3 Medium з 7 і 14 мільярдами параметрів відповідно.

Віктор Ботев, технічний директор і співзасновник компанії Iris.ai, сказав нам: «Оголошення компанією Microsoft моделі Phi-3 демонструє триваючу тенденцію в розвитку ШІ. Замість того, щоб гнатися за все більшими моделями, Microsoft розробляє інструменти з більш ретельно підібраними даними та спеціалізованим навчанням. Це дозволяє підвищити продуктивність і здатність міркувати без великих обчислювальних витрат на моделі з трильйонами параметрів. Виконання цієї обіцянки означало б зруйнувати величезний бар’єр для впровадження для компаній, які шукають рішення ШІ.

«Майкрософт мудро виходить за межі мислення «більше — краще». Для широко розповсюджених ділових і споживчих додатків штучного інтелекту здійсненність і специфіка важливіші, ніж величезна кількість параметрів. Такі моделі, як Phi-3, чітко демонструють, що за наявності правильних даних і підходу до навчання розширені можливості штучного інтелекту не потребують створення все більших моделей, що є вирішальним фактором для компаній, де співвідношення ціни та якості має вирішальне значення». ®

Зв'яжіться з нами!

Привіт! Чим я можу вам допомогти?