Các nhà nghiên cứu của Apple vừa giới thiệu một mô hình khuếch tán mới có khả năng tạo văn bản nhanh hơn tới 128 lần so với các mô hình hiện tại. Nghiên cứu này có tên gọi FS-DFM (Few-Step Discrete Flow-Matching), một mô hình mới được đề xuất bởi các nhà nghiên cứu từ Apple và Đại học Ohio State.
Điểm đặc biệt của FS-DFM là nó có thể viết các đoạn văn bản hoàn chỉnh chỉ với tám vòng tinh chỉnh nhanh chóng, đạt chất lượng tương đương với các mô hình khuếch tán khác cần tới hàng ngàn bước. Các nhà nghiên cứu đã thực hiện một cách tiếp cận ba bước: huấn luyện mô hình để xử lý các mức độ tinh chỉnh khác nhau, sử dụng mô hình “giáo viên” để đưa ra các cập nhật lớn và chính xác hơn, và điều chỉnh cách thức hoạt động của mỗi vòng lặp để mô hình đạt kết quả cuối cùng trong ít bước hơn.
FS-DFM đã được so sánh với các mô hình khuếch tán lớn hơn và cho thấy kết quả tốt ở hai chỉ số quan trọng: độ khó hiểu (perplexity) và entropy. Độ khó hiểu càng thấp, văn bản càng chính xác và tự nhiên. Entropy đo lường mức độ tự tin của mô hình khi chọn mỗi từ. Các biến thể FS-DFM với 1.7, 1.3 và 0.17 tỷ tham số liên tục đạt được độ khó hiểu thấp hơn và duy trì entropy ổn định hơn so với các mô hình Dream và LLaDA.
Nhóm nghiên cứu cho biết họ có kế hoạch công bố mã nguồn và các điểm kiểm tra mô hình để tạo điều kiện thuận lợi cho việc tái tạo và nghiên cứu sâu hơn. Thông tin chi tiết về phương pháp và cách triển khai cụ thể có thể được tìm thấy trong bài báo đầy đủ trên arXiv. Theo 9to5Mac.