Dữ liệu Kim Tứ ngày 3 tháng 3, Lenovo Group mới đây đã thông báo rằng dựa trên máy chủ Lenovo Hỏi Thiên WA7780 G3, họ đã thành công triển khai mô hình lớn DeepSeek-R1/V3 671B trên một máy duy nhất lần đầu tiên trong ngành, với dung lượng VRAM thấp hơn so với 1TGB được công nhận trong ngành (thực tế là 768GB), mang lại trải nghiệm mượt mà cho 100 người dùng song song. Theo dữ liệu thử nghiệm thực tế của Lenovo, trong môi trường thử nghiệm chuẩn 512 token, hệ thống này có thể hỗ trợ 100 người dùng song song liên tục nhận được đầu ra ổn định 10 token mỗi giây, với thời gian phản hồi token đầu tiên được nén xuống dưới 30 giây.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Máy chủ AI của Lenovo lần đầu tiên triển khai cục bộ, DeepSeek toàn mô hình dưới 1TB, hỗ trợ 100 đồng thời
Dữ liệu Kim Tứ ngày 3 tháng 3, Lenovo Group mới đây đã thông báo rằng dựa trên máy chủ Lenovo Hỏi Thiên WA7780 G3, họ đã thành công triển khai mô hình lớn DeepSeek-R1/V3 671B trên một máy duy nhất lần đầu tiên trong ngành, với dung lượng VRAM thấp hơn so với 1TGB được công nhận trong ngành (thực tế là 768GB), mang lại trải nghiệm mượt mà cho 100 người dùng song song. Theo dữ liệu thử nghiệm thực tế của Lenovo, trong môi trường thử nghiệm chuẩn 512 token, hệ thống này có thể hỗ trợ 100 người dùng song song liên tục nhận được đầu ra ổn định 10 token mỗi giây, với thời gian phản hồi token đầu tiên được nén xuống dưới 30 giây.