Kể từ khi Google DeepMind ra mắt AlphaFold, khả năng dự đoán cấu trúc 3D của protein đã đạt được những bước tiến vượt bậc, mang lại lợi ích to lớn trong việc phát triển thuốc và vật liệu mới. Tuy nhiên, các mô hình tiên tiến hiện nay lại đòi hỏi nguồn lực điện toán khổng lồ để vận hành.
Nhận thấy thách thức này, các nhà nghiên cứu của Apple đã phát triển một phương pháp thay thế mang tên SimpleFold. Đây là một mô hình trí tuệ nhân tạo (AI) gọn nhẹ, hứa hẹn mang lại hiệu quả tương đương mà không cần đến các tính toán phức tạp như các phương pháp truyền thống.
SimpleFold hoạt động như thế nào?
Thay vì dựa vào các kiến trúc phức tạp và các phương pháp đòi hỏi nhiều tài nguyên như phân tích trình tự đa chuỗi (MSA), bản đồ tương tác cặp, hay cập nhật tam giác—những yếu tố tích hợp sẵn trong AlphaFold2 hay RoseTTAFold—SimpleFold sử dụng các mô hình đối sánh dòng chảy (flow matching models). Các mô hình này, được giới thiệu vào năm 2023, đã trở nên phổ biến trong việc tạo hình ảnh từ văn bản hoặc tạo vật thể 3D.
Về cơ bản, mô hình đối sánh dòng chảy là một sự phát triển của các mô hình khuếch tán (diffusion models). Thay vì lặp đi lặp lại việc loại bỏ nhiễu từ một hình ảnh ban đầu, chúng học một lộ trình mượt mà hơn để biến nhiễu ngẫu nhiên thành một hình ảnh hoàn chỉnh chỉ trong một lần. Điều này giúp SimpleFold bỏ qua nhiều bước loại bỏ nhiễu, từ đó giảm chi phí điện toán và tạo ra kết quả nhanh hơn.
Kết quả đầy hứa hẹn
Các nhà nghiên cứu của Apple đã huấn luyện SimpleFold với nhiều kích cỡ khác nhau, từ 100 triệu đến 3 tỷ tham số, và đánh giá hiệu suất của chúng trên hai bộ tiêu chuẩn dự đoán cấu trúc protein được sử dụng rộng rãi là CAMEO22 và CASP14. Kết quả rất khả quan.
SimpleFold đã thể hiện hiệu suất cạnh tranh so với các mô hình hàng đầu khác. Trên bộ tiêu chuẩn CAMEO22, SimpleFold đạt kết quả tương đương với AlphaFold2, RoseTTAFold2 và ESMFold, đặc biệt là đạt hơn 95% hiệu suất của RoseTTAFold2/AlphaFold2 trên hầu hết các chỉ số mà không cần áp dụng các tính toán tam giác và MSA phức tạp. Ngay cả mô hình SimpleFold-100M nhỏ nhất cũng cho thấy hiệu suất cạnh tranh, đạt hơn 90% hiệu suất của ESMFold trên CAMEO22, minh chứng cho sự hiệu quả của kiến trúc này.
Các nhà nghiên cứu cũng ghi nhận sự cải thiện về hiệu suất khi mở rộng quy mô mô hình, cho thấy rằng các mô hình lớn hơn với dữ liệu huấn luyện nhiều hơn sẽ mang lại kết quả dự đoán tốt hơn. Họ xem SimpleFold chỉ là bước khởi đầu và hy vọng mô hình này sẽ là động lực để cộng đồng tiếp tục xây dựng các mô hình tạo protein hiệu quả và mạnh mẽ hơn, theo tin từ 9to5Mac.