Các nhà nghiên cứu của Apple vừa giới thiệu UniGen 1.5, một hệ thống trí tuệ nhân tạo (AI) đột phá, có khả năng hiểu, tạo và chỉnh sửa hình ảnh trong một mô hình duy nhất. Đây là bước tiến quan trọng, phát triển từ mô hình UniGen trước đó.
UniGen 1.5 được xây dựng dựa trên nghiên cứu trước đây của Apple về UniGen, một mô hình ngôn ngữ lớn (LLM) đa phương thức, có khả năng hiểu và tạo hình ảnh. Điểm nổi bật của UniGen 1.5 là khả năng chỉnh sửa ảnh, cho phép người dùng thay đổi hình ảnh theo yêu cầu, tất cả đều được thực hiện trong cùng một hệ thống.
Một trong những thách thức chính trong việc chỉnh sửa ảnh bằng AI là khả năng hiểu các hướng dẫn phức tạp. UniGen 1.5 giải quyết vấn đề này bằng cách giới thiệu một bước đào tạo mới, gọi là ‘Edit Instruction Alignment’. Hệ thống được đào tạo để tạo ra một mô tả chi tiết bằng văn bản về những gì hình ảnh sau khi chỉnh sửa sẽ có, dựa trên hình ảnh gốc và hướng dẫn chỉnh sửa. Bước này giúp mô hình hiểu rõ hơn ý định chỉnh sửa trước khi tạo ra hình ảnh cuối cùng.
Sau đó, các nhà nghiên cứu sử dụng học tăng cường (reinforcement learning) với một hệ thống thưởng duy nhất cho cả việc tạo và chỉnh sửa hình ảnh. Kết quả, UniGen 1.5 đã vượt trội so với các mô hình AI khác trong các bài kiểm tra về khả năng tuân thủ hướng dẫn, duy trì chất lượng hình ảnh và xử lý các chỉnh sửa phức tạp.
Theo báo cáo, UniGen 1.5 đã đạt được những kết quả ấn tượng, vượt trội so với các đối thủ cạnh tranh. Các nhà nghiên cứu cũng chỉ ra một số hạn chế của UniGen 1.5, chẳng hạn như khả năng tạo văn bản và duy trì tính nhất quán của danh tính trong một số trường hợp. Tuy nhiên, đây vẫn là một bước tiến quan trọng trong lĩnh vực AI, mở ra nhiều khả năng ứng dụng trong tương lai.
Theo 9to5mac, những nỗ lực này cho thấy Apple đang nỗ lực phát triển các công nghệ AI tiên tiến, hứa hẹn mang đến những trải nghiệm hình ảnh độc đáo và cải thiện khả năng tương tác của người dùng.









































