Chatbot AI cần nhiều sách hơn để học hỏi. Các thư viện đang mở cửa kho tàng tri thức của mình.

Chatbot AI cần nhiều sách hơn để học hỏi. Các thư viện đang mở cửa kho tàng tri thức của mình.

Các công ty công nghệ đang tìm kiếm nguồn dữ liệu mới để huấn luyện các chatbot AI của mình, và giờ đây họ đang hướng đến một kho tàng tri thức lâu đời: các thư viện. Hàng triệu cuốn sách, báo, và tài liệu chính phủ, có niên đại từ thế kỷ 15 và bằng hàng trăm ngôn ngữ, đang được các thư viện lớn như Harvard và Thư viện Công cộng Boston mở cửa cho các nhà nghiên cứu AI.

Việc này được xem là một giải pháp thay thế nguồn dữ liệu trên internet, vốn đang gây ra nhiều tranh cãi về bản quyền. Các công ty AI đang đối mặt với nhiều vụ kiện từ các nhà văn, nghệ sĩ và người sáng tạo nội dung khác, vì đã sử dụng tác phẩm của họ để đào tạo AI mà không được phép.

Ông Burton Davis, phó tổng cố vấn tại Microsoft, cho biết việc bắt đầu với dữ liệu thuộc phạm vi công cộng (public domain) sẽ ít gây tranh cãi hơn. Đồng thời, kho lưu trữ của thư viện chứa đựng một lượng lớn dữ liệu văn hóa, lịch sử và ngôn ngữ quan trọng mà dữ liệu internet trong vài thập kỷ qua còn thiếu.

Sáng kiến Dữ liệu Tổ chức (Institutional Data Initiative) có trụ sở tại Harvard, được hỗ trợ bởi các khoản tài trợ không giới hạn từ Microsoft và OpenAI (công ty tạo ra ChatGPT), đang hợp tác với các thư viện toàn cầu để đưa các bộ sưu tập lịch sử vào định dạng sẵn sàng cho AI, đồng thời mang lại lợi ích cho chính các thư viện và cộng đồng.

Tập dữ liệu mới phát hành của Harvard, Institutional Books 1.0, chứa hơn 394 triệu trang giấy đã được quét. Lượng dữ liệu khổng lồ này hứa hẹn sẽ giúp các nhà phát triển cải thiện độ chính xác và độ tin cậy của hệ thống AI.

Trước đây, nhiều nhà nghiên cứu AI thường không quan tâm nhiều đến nguồn gốc của văn bản họ sử dụng, lấy từ Wikipedia, các diễn đàn mạng hay thậm chí là các kho sách lậu. Họ chỉ cần một lượng lớn ‘tokens’ (đơn vị dữ liệu). Bộ sưu tập mới của Harvard có khoảng 242 tỷ token.

Việc số hóa dữ liệu rất tốn kém. Đối với Thư viện Công cộng Boston, việc quét và sắp xếp hàng chục tờ báo tiếng Pháp của vùng New England từ cuối thế kỷ 19, đầu thế kỷ 20 là một công việc tỉ mỉ. Giờ đây, khi dữ liệu này hữu ích cho việc đào tạo AI, nó giúp hỗ trợ tài chính cho các dự án mà thủ thư muốn thực hiện.

Bà Jessica Chapel, trưởng bộ phận kỹ thuật số và dịch vụ trực tuyến của Thư viện Boston cho biết: “Chúng tôi rất rõ ràng rằng, ‘Này, chúng tôi là một thư viện công cộng’. Bộ sưu tập của chúng tôi được lưu trữ để sử dụng công cộng, và bất cứ thứ gì chúng tôi số hóa trong dự án này đều sẽ được công khai.”

Bộ sưu tập của Harvard đã được số hóa từ năm 2006 cho dự án của Google nhằm tạo ra một thư viện trực tuyến có thể tìm kiếm. Google đã mất nhiều năm đối phó với các thách thức pháp lý từ các tác giả về dự án này, vốn bao gồm nhiều tác phẩm còn bản quyền. Vụ việc cuối cùng được giải quyết vào năm 2016 khi Tòa án Tối cao Hoa Kỳ giữ nguyên phán quyết bác bỏ yêu cầu bồi thường vi phạm bản quyền.

Lần này, Google đã làm việc với Harvard để lấy lại các tập sách thuộc phạm vi công cộng từ Google Books và cho phép chúng được công bố cho các nhà phát triển AI. Tại Mỹ, bản quyền thường có thời hạn 95 năm, và lâu hơn đối với bản ghi âm thanh.

Việc bộ dữ liệu này hữu ích đến mức nào cho thế hệ công cụ AI tiếp theo vẫn còn phải chờ xem khi dữ liệu được chia sẻ trên nền tảng Hugging Face. Bộ sưu tập sách này đa dạng hơn về ngôn ngữ so với các nguồn dữ liệu AI thông thường; chưa đầy một nửa số sách là tiếng Anh, dù các ngôn ngữ châu Âu vẫn chiếm ưu thế.

Một bộ sưu tập sách đậm chất tư tưởng thế kỷ 19 cũng có “vô cùng quan trọng” cho nỗ lực của ngành công nghệ nhằm xây dựng các tác nhân AI (AI agents) có khả năng lập kế hoạch và suy luận như con người, theo ông Greg Leppert, giám đốc điều hành của sáng kiến dữ liệu tại Harvard.

Tuy nhiên, bộ dữ liệu này cũng chứa nhiều thông tin lỗi thời, từ các lý thuyết khoa học và y học đã bị bác bỏ cho đến các quan điểm phân biệt chủng tộc. Các tổ chức đang cố gắng cung cấp hướng dẫn về cách giảm thiểu rủi ro khi sử dụng dữ liệu này, nhằm khuyến khích việc sử dụng AI một cách có trách nhiệm.

Theo tường trình từ Associated Press, đăng tải trên Seattle Times ngày 12/06/2025.


TIN LIÊN QUAN


XEM NHIỀU


follow nhận tin mới


Tin NỔI BẬT


Tin Chính trị


Tin Hoa Kỳ


Tin Di trú