Xlera8

Microsoft thu nhỏ AI xuống kích thước bỏ túi với Phi-3 Mini

Microsoft tuyên bố phiên bản mới nhất của mẫu Phi-3 Mini AI nhẹ của họ cạnh tranh với các đối thủ như GPT-3.5 trong khi đủ nhỏ để triển khai trên điện thoại.

Phi-3 Mini là mô hình ngôn ngữ có 3.8 tỷ tham số được đào tạo trên 3.3 nghìn tỷ mã thông báo. Con số này tăng lên so với con số 2.7 tỷ thông số của Phi-2 mà Microsoft đưa ra. giới thiệu vào tháng 2023.

Thay vì lao vào các mô hình đào tạo càng nhiều càng tốt, trọng tâm là lý luận. Microsoft cho biết: “Ví dụ: kết quả của một trận đấu ở Premier League trong một ngày cụ thể có thể là dữ liệu đào tạo tốt cho các mô hình biên giới, nhưng chúng tôi cần loại bỏ thông tin đó để có thêm khả năng 'lý luận' cho mô hình cho các mô hình kích thước nhỏ .”

Cách tiếp cận có mục tiêu có nghĩa là mặc dù Phi-3 có thể không có kiến ​​thức sâu rộng như các đối thủ cạnh tranh, nhưng ít nhất nó cũng tốt, nếu không muốn nói là tốt hơn, khi nói đến lý luận, hoặc Microsoft tuyên bố như vậy. trong một bài nghiên cứu [PDF], Microsoft lưu ý rằng điều này cho phép mô hình ngôn ngữ nhỏ của họ “đạt đến cấp độ của các mô hình có khả năng cao như GPT-3.5 hoặc Mixtral chỉ với tổng tham số 3.8B (trong khi Mixtral chẳng hạn có tổng tham số 45B).”

Nghiên cứu cũng lưu ý rằng dữ liệu đào tạo được sử dụng bao gồm “dữ liệu web được lọc kỹ lưỡng… từ nhiều nguồn internet mở khác nhau” và dữ liệu do LLM tạo. Các nguồn dữ liệu được sử dụng để đào tạo LLM là chủ đề của một số vụ kiện.

Chúng tôi được biết, kích thước nhỏ của Phi-3 Mini có nghĩa là nó có thể chạy ngoại tuyến trên điện thoại thông minh. Các nhà nghiên cứu cho biết nó có thể được tạo ra để chiếm khoảng 1.8 GB bộ nhớ và dùng thử ngoại tuyến trên iPhone 14 với chip A16 Bionic chạy nguyên bản trên thiết bị. Trong bài báo, các nhà nghiên cứu đưa ra ảnh chụp màn hình Phi-3 Mini đang viết một bài thơ và gợi ý những điều cần làm ở Houston.

Các nhà nghiên cứu cũng nêu bật những nhược điểm vốn có của việc tập trung vào việc hiểu và lý luận ngôn ngữ. “Đơn giản là mô hình không có khả năng lưu trữ quá nhiều 'kiến thức thực tế'", điều này có thể được giảm thiểu ở một mức độ nhất định bằng cách tăng cường nó bằng công cụ tìm kiếm. Tuy nhiên, điều đó sẽ làm mất khả năng có thể chạy nó ngoại tuyến.

Ngôn ngữ hiện tại hầu như chỉ giới hạn ở tiếng Anh và các vấn đề cố hữu trong hầu hết các LLM – ảo giác, khuếch đại sai lệch và tạo ra nội dung không phù hợp – cũng có thể được tìm thấy trong Phi-3 Mini.

Các nhà nghiên cứu cho biết trong bài báo: “Còn rất nhiều công việc quan trọng phía trước để giải quyết triệt để những thách thức này”.

Các model lớn hơn – nói một cách tương đối – cũng đã được công bố dưới dạng Phi-3 Small và Phi-3 Medium với thông số lần lượt là 7 và 14 tỷ.

Victor Botev, CTO và đồng sáng lập tại Iris.ai, nói với chúng tôi: “Thông báo của Microsoft về mẫu Phi-3 thể hiện xu hướng phát triển AI đang tiếp tục. Thay vì theo đuổi các mô hình ngày càng lớn hơn, Microsoft đang phát triển các công cụ với dữ liệu được quản lý cẩn thận hơn và chương trình đào tạo chuyên biệt. Điều này cho phép cải thiện hiệu suất và khả năng suy luận mà không tốn chi phí tính toán lớn như các mô hình có hàng nghìn tỷ tham số. Thực hiện lời hứa này đồng nghĩa với việc phá bỏ rào cản lớn trong việc áp dụng đối với các doanh nghiệp đang tìm kiếm giải pháp AI.

“Microsoft đang nhìn xa hơn tư duy 'càng lớn càng tốt' một cách khôn ngoan. Đối với các ứng dụng AI tiêu dùng và kinh doanh rộng rãi, tính khả thi và tính đặc hiệu quan trọng hơn số lượng thông số lớn. Các mô hình như Phi-3 chứng minh rõ ràng rằng với dữ liệu phù hợp và phương pháp đào tạo, khả năng AI tiên tiến không cần phải xây dựng các mô hình ngày càng lớn hơn – yếu tố quyết định đối với các doanh nghiệp nơi tỷ lệ chi phí trên chất lượng là rất quan trọng.” ®

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?