Tổ chức nghiên cứu DeepSeek vừa giới thiệu mô hình thử nghiệm mới V3.2-exp, hứa hẹn giảm đáng kể chi phí vận hành cho các tác vụ xử lý ngữ cảnh dài (long-context operations).
Điểm nhấn chính của mô hình này là công nghệ DeepSeek Sparse Attention. Hệ thống này sử dụng một bộ phận gọi là “lightning indexer” để xác định và ưu tiên các đoạn văn bản quan trọng trong cửa sổ ngữ cảnh. Sau đó, một hệ thống “fine-grained token selection” sẽ lựa chọn các token cụ thể từ những đoạn văn bản đã ưu tiên để đưa vào cửa sổ chú ý (attention window) có giới hạn. Nhờ đó, mô hình có thể xử lý các đoạn ngữ cảnh dài với yêu cầu tài nguyên máy chủ thấp hơn nhiều.
Theo thử nghiệm ban đầu của DeepSeek, phương pháp này có thể giúp giảm tới 50% chi phí cho một lệnh gọi API đơn giản khi xử lý ngữ cảnh dài. Dù cần thêm các bài kiểm tra độc lập, nhưng với việc mô hình này là mã nguồn mở và có sẵn trên Hugging Face, cộng đồng công nghệ sẽ sớm có cơ hội đánh giá chính xác tuyên bố này.
DeepSeek, một công ty có trụ sở tại Trung Quốc, được xem là một nhân tố đáng chú ý trong lĩnh vực trí tuệ nhân tạo. Trước đó, họ đã gây tiếng vang với mô hình R1, được huấn luyện với chi phí thấp hơn đáng kể so với các đối thủ Mỹ. Mặc dù R1 chưa tạo ra một cuộc cách mạng hoàn toàn trong việc huấn luyện AI như dự đoán, nhưng những đột phá về hiệu quả chi phí của họ, như với mô hình “sparse attention” mới, có thể mang lại những bài học giá trị cho các nhà cung cấp dịch vụ AI tại Mỹ.
Thông tin này được TechCrunch ghi nhận vào ngày 29 tháng 9 năm 2025.