Nghiên cứu mới của Apple cho thấy LLM có thể nhận diện hành động từ dữ liệu âm thanh và chuyển động

Apple vừa công bố nghiên cứu về cách mô hình ngôn ngữ lớn (LLM) phân tích dữ liệu âm thanh và chuyển động để nhận diện hoạt động của người dùng. Nghiên cứu cho thấy LLM có thể xác định chính xác các hành động hàng ngày, ngay cả khi dữ liệu cảm biến hạn…

apple intelligence ios 26 03

Các nhà nghiên cứu của Apple vừa công bố một nghiên cứu sâu rộng về cách các Mô hình Ngôn ngữ Lớn (LLM) có thể phân tích dữ liệu âm thanh và chuyển động để hiểu rõ hơn về các hoạt động của người dùng. Bài báo, có tiêu đề “Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition”, mang lại cái nhìn sâu sắc về cách Apple có thể tích hợp phân tích LLM cùng với dữ liệu cảm biến truyền thống để đạt được sự hiểu biết chính xác hơn về hoạt động của người dùng.

Theo nghiên cứu, cách tiếp cận này có tiềm năng lớn trong việc làm cho việc phân tích hoạt động trở nên chính xác hơn, ngay cả trong những tình huống dữ liệu cảm biến không đầy đủ. Các nhà nghiên cứu giải thích rằng LLM thực sự khá giỏi trong việc suy luận những gì người dùng đang làm từ các tín hiệu âm thanh và chuyển động cơ bản, ngay cả khi chúng không được đào tạo đặc biệt cho mục đích đó. Hơn nữa, khi chỉ được cung cấp một ví dụ duy nhất, độ chính xác của chúng còn được cải thiện đáng kể.

Một điểm quan trọng cần lưu ý là trong nghiên cứu này, LLM không được cung cấp bản ghi âm thanh thực tế, mà thay vào đó là các mô tả văn bản ngắn được tạo ra bởi các mô hình âm thanh và một mô hình chuyển động dựa trên IMU (theo dõi chuyển động thông qua dữ liệu gia tốc kế và con quay hồi chuyển).

Apple đã sử dụng Ego4D, một bộ dữ liệu khổng lồ gồm phương tiện được quay ở góc nhìn người thứ nhất, chứa hàng nghìn giờ môi trường và tình huống đời thực, từ công việc nhà đến các hoạt động ngoài trời. Các nhà nghiên cứu đã chạy dữ liệu âm thanh và chuyển động qua các mô hình nhỏ hơn để tạo ra chú thích văn bản và dự đoán lớp, sau đó đưa các kết quả này vào các LLM khác nhau (Gemini-2.5-pro và Qwen-32B) để xem chúng có thể nhận diện hoạt động tốt đến mức nào.

Kết quả nghiên cứu cho thấy những hiểu biết thú vị về cách kết hợp nhiều mô hình có thể mang lại lợi ích cho dữ liệu hoạt động và sức khỏe, đặc biệt trong những trường hợp dữ liệu cảm biến thô một mình không đủ để cung cấp một bức tranh rõ ràng về hoạt động của người dùng. Apple cũng đã công bố các tài liệu bổ sung, bao gồm ID phân đoạn Ego4D, dấu thời gian, lời nhắc và các ví dụ một lần sử dụng trong các thử nghiệm, để hỗ trợ các nhà nghiên cứu quan tâm đến việc tái tạo kết quả, theo 9to5Mac.


follow nhận tin mới

tin mới


Tin NỔI BẬT


Tin Chính trị


Tin Hoa Kỳ


Tin Di trú