Xlera8

마이크로소프트, Phi-3 Mini로 AI를 주머니 크기로 축소

Microsoft는 경량 Phi-3 Mini AI 모델의 최신 버전이 GPT-3.5와 같은 경쟁업체와 경쟁할 수 있으면서도 휴대폰에 배포할 수 있을 만큼 작다고 주장합니다.

Phi-3 Mini는 3.8조 3.3천억 개의 토큰으로 훈련된 2.7억 개의 매개변수 언어 모델입니다. 이 수치는 Microsoft가 소개 12월 2023 인치

훈련 모델에 최대한 많은 것을 집어넣는 대신 추론에 중점을 두었습니다. Microsoft는 다음과 같이 말했습니다. “예를 들어 특정 날짜의 Premier League 경기 결과는 프론티어 모델에 대한 좋은 훈련 데이터일 수 있지만 미니 사이즈 모델에 대한 '추론'을 위한 더 많은 모델 용량을 남기려면 이러한 정보를 제거해야 합니다. .”

표적 접근 방식은 Phi-3가 경쟁사에 대한 광범위한 지식을 갖고 있지는 않지만 추론에 있어서는 적어도 그 만큼 뛰어나거나 Microsoft가 주장하는 수준만큼 좋다는 것을 의미합니다. 안에 연구 논문 [PDF], Microsoft는 이를 통해 소규모 언어 모델이 "총 매개변수가 3.5B에 불과한 GPT-3.8 또는 Mixtral과 같은 고성능 모델 수준에 도달할 수 있게 되었다고 밝혔습니다(예를 들어 Mixtral에는 총 매개변수가 45B가 있습니다)."

또한 연구에서는 사용된 교육 데이터가 "다양한 공개 인터넷 소스에서 엄격하게 필터링된 웹 데이터"와 LLM 생성 데이터로 구성되어 있다고 지적했습니다. LLM을 교육하는 데 사용되는 데이터 소스는 다음과 같습니다. 여러 소송.

Phi-3 Mini는 크기가 작기 때문에 스마트폰에서 오프라인으로 실행할 수 있다고 합니다. 연구원들은 약 1.8GB의 메모리를 차지하도록 만들 수 있으며 기기에서 기본적으로 실행되는 A14 Bionic 칩을 갖춘 iPhone 16에서 오프라인으로 시험해 볼 수 있다고 말했습니다. 논문에서 연구원들은 Phi-3 Mini가 시를 쓰고 휴스턴에서 할 일을 제안하는 스크린샷을 보여줍니다.

연구자들은 또한 언어 이해와 추론에 초점을 맞추는 데 내재된 단점을 강조합니다. "모델에는 너무 많은 '사실적 지식'을 저장할 수 있는 용량이 없습니다." 이는 검색 엔진을 통해 이를 어느 정도 완화할 수 있습니다. 그러나 이렇게 하면 오프라인으로 실행할 수 있는 지점이 무너집니다.

현재 언어는 대부분 영어로 제한되어 있으며 대부분의 LLM에 내재된 문제(환각, 편견 증폭, 부적절한 콘텐츠 생성)도 Phi-3 Mini에서 찾을 수 있습니다.

연구원들은 논문에서 "이러한 과제를 완전히 해결하기 위해서는 앞으로 상당한 노력이 필요합니다"라고 말합니다.

비교적 큰 모델도 각각 3억 개와 3억 개의 매개변수를 갖춘 Phi-7 Small 및 Phi-14 Medium 형태로 발표되었습니다.

빅터 보테프(Victor Botev) CTO 겸 공동 창업자 아이리스.ai, “Microsoft의 Phi-3 모델 발표는 AI 개발의 지속적인 추세를 나타냅니다. Microsoft는 점점 더 큰 모델을 쫓는 대신 보다 신중하게 선별된 데이터와 전문 교육을 통해 도구를 개발하고 있습니다. 이를 통해 수조 개의 매개변수가 있는 모델에 막대한 계산 비용을 들이지 않고도 향상된 성능과 추론 능력을 얻을 수 있습니다. 이 약속을 이행한다는 것은 AI 솔루션을 찾는 기업의 거대한 도입 장벽을 허무는 것을 의미합니다.

“Microsoft는 '더 클수록 좋다'는 사고방식을 넘어 현명하게 생각하고 있습니다. 광범위한 비즈니스 및 소비자 AI 애플리케이션의 경우 실현 가능성과 특이성이 대규모 매개변수 수보다 더 중요합니다. Phi-3과 같은 모델은 올바른 데이터 및 교육 접근 방식을 사용하면 고급 AI 기능을 위해 더 큰 모델을 구축할 필요가 없다는 것을 분명히 보여줍니다. 이는 비용 대비 품질 비율이 중요한 기업의 결정 요소입니다.” ®

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?