Xlera8

Các lõi SiFive RISC-V được chọn cho các nút tính toán AI của Google

SiFive chip RISC-V cho biết bộ xử lý của nó đang được sử dụng để quản lý khối lượng công việc AI ở một mức độ nào đó trong các trung tâm dữ liệu của Google.

Theo SiFive, bộ vi xử lý được đề cập là Thông minh của nó X280, một thiết kế RISC-V đa lõi với phần mở rộng vectơ, được tối ưu hóa cho các ứng dụng AI / ML trong trung tâm dữ liệu. Khi được kết hợp với các đơn vị nhân ma trận (MXU) được nâng lên từ các Đơn vị xử lý Tensor của Google (TPU), điều này được khẳng định là mang lại sự linh hoạt hơn cho việc lập trình khối lượng công việc học máy.

Về cơ bản, các lõi RV280 có mục đích chung của X64 trong bộ xử lý chạy mã quản lý thiết bị và cung cấp các tính toán máy học vào MXU của Google theo yêu cầu để hoàn thành công việc. X280 cũng bao gồm đơn vị toán học vectơ của riêng nó có thể xử lý các hoạt động mà đơn vị gia tốc không thể.

SiFive và Google hơi khó hiểu, có lẽ vì lý do thương mại, về cách đóng gói và sử dụng chính xác thứ này, mặc dù đối với chúng tôi, nghe có vẻ như Google đã đặt các đơn vị tăng tốc tùy chỉnh của mình trong một hệ thống trên chip X280 đa lõi, kết nối Các khối MXU do Google thiết kế trực tiếp đến phức hợp lõi RISC-V. Theo SiFive, những con chip này được sử dụng trong các trung tâm dữ liệu của Google, trong “AI compute host”, để tăng tốc công việc học máy.

Chúng tôi tưởng tượng rằng nếu chúng được sử dụng trong sản xuất, những con chip này đang xử lý các tác vụ trong các dịch vụ. Chúng tôi lưu ý rằng bạn không thể thuê phần cứng này trực tiếp trên Google Cloud, nơi cung cấp các máy ảo được tối ưu hóa bằng AI được hỗ trợ bởi công nghệ x86, Arm, TPU và GPU truyền thống.

Các chi tiết đã được tiết lộ tại Hội nghị thượng đỉnh phần cứng AI ở Thung lũng Silicon vào đầu tháng này, trong một cuộc nói chuyện của đồng sáng lập SiFive và kiến ​​trúc sư trưởng Krste Asanović và Kiến trúc sư Cliff Young của Google TPU, và trong một Bài đăng trên blog SiFive trong tuần này.

Theo SiFive, họ nhận thấy rằng sau sự ra đời của X280, một số khách hàng đã bắt đầu sử dụng nó như một lõi đồng hành cùng với máy gia tốc, để xử lý tất cả các nhiệm vụ xử lý nội trợ và mục đích chung mà máy gia tốc không được thiết kế để thực hiện.

Nhiều người nhận thấy rằng cần có một ngăn xếp phần mềm đầy đủ tính năng để quản lý bộ tăng tốc, chip biz cho biết và khách hàng nhận ra rằng họ có thể giải quyết vấn đề này với một tổ hợp lõi X280 bên cạnh bộ tăng tốc lớn của họ, các lõi CPU RISC-V xử lý tất cả các bảo trì và mã hoạt động, thực hiện các phép toán mà máy gia tốc lớn không thể và cung cấp nhiều chức năng khác. Về cơ bản, X280 có thể đóng vai trò như một loại nút quản lý cho bộ tăng tốc.

Để tận dụng điều này, SiFive đã làm việc với các khách hàng như Google để phát triển cái mà họ gọi là Giao diện đồng xử lý Vector eXtension (VCIX), cho phép khách hàng liên kết chặt chẽ máy gia tốc trực tiếp với tệp đăng ký vectơ của X280, mang lại hiệu suất tăng và dữ liệu lớn hơn băng thông.

Theo Asanović, lợi ích là khách hàng có thể đưa bộ đồng xử lý của riêng họ vào hệ sinh thái RISC-V và chạy một môi trường lập trình và ngăn xếp phần mềm hoàn chỉnh, với khả năng khởi động Linux với bộ nhớ ảo đầy đủ và bộ nhớ đệm hỗ trợ nhất quán, trên một con chip có chứa kết hợp giữa các lõi CPU có mục đích chung và các đơn vị tăng tốc.

Theo quan điểm của Google, họ muốn tập trung vào việc cải thiện dòng công nghệ TPU của mình và không lãng phí thời gian để tạo ra bộ xử lý ứng dụng của riêng mình từ đầu, và vì vậy việc ghép nối các chức năng tăng tốc này với một bộ xử lý đa năng có sẵn dường như là một cách đúng đắn để đi, theo Young.

Về cơ bản, VCIX sẽ dán các MXU vào các lõi RISC-V với độ trễ thấp, bỏ qua việc mất nhiều chu kỳ chờ đợi để chuyển dữ liệu giữa CPU và đơn vị tăng tốc qua bộ nhớ, bộ đệm hoặc PCIe. Thay vào đó, chúng tôi nói rằng, nó chỉ là hàng chục chu kỳ thông qua truy cập thanh ghi vectơ. Điều đó cũng gợi ý rằng mọi thứ - tổ hợp CPU RISC-V và các bộ tăng tốc tùy chỉnh - đều nằm trên cùng một khuôn, được đóng gói như một hệ thống trên chip.

Mã ứng dụng chạy trên lõi RISC-V có mục đích chung và mọi công việc có thể được tăng tốc bởi MXU đều được chuyển qua VCIX. Theo Young, có những ưu điểm khác của phương pháp này cũng như hiệu quả. Mô hình lập trình được đơn giản hóa, dẫn đến một chương trình duy nhất với các lệnh vô hướng, vectơ và bộ đồng xử lý được xen kẽ và cho phép một chuỗi công cụ phần mềm duy nhất nơi các nhà phát triển có thể viết mã bằng C / C ++ hoặc trình hợp dịch tùy thích.

“Với các lõi đa năng dựa trên SiFive VCIX được 'lai' với Google MXU, bạn có thể tạo ra một cỗ máy cho phép bạn 'ăn bánh và ăn luôn', tận dụng tối đa tất cả hiệu suất của MXU và khả năng lập trình của một chiếc máy nói chung CPU cũng như hiệu suất vector của bộ xử lý X280, ”Young nói.

Khả năng tạo ra một con chip tùy chỉnh như thế này có khả năng vẫn là lĩnh vực của những nhà siêu cấp như Google hoặc những người có yêu cầu thích hợp và túi tiền sâu, nhưng nó chứng minh những gì có thể đạt được nhờ vào tính linh hoạt của mô hình RISC-V hệ sinh thái mở .

Tính linh hoạt và cởi mở đó dường như đủ để thu hút Google - một người ủng hộ lâu năm của RISC-V, với các lõi RV được sử dụng trong một số sản phẩm khác của nó - sử dụng kiến ​​trúc mới nổi thay vì cải tiến bộ vi xử lý tùy chỉnh của mình thành chip x86 hoặc Arm -các thiết kế được cấp phép. ®

PS: Hãy nhớ khi Google là đùa giỡn với việc sử dụng kiến ​​trúc POWER CPU trong các trung tâm dữ liệu của nó?

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?