Tổ chức Wikimedia Deutschland vừa công bố một cơ sở dữ liệu tiên tiến, có khả năng biến kho tàng tri thức khổng lồ của Wikipedia và các nền tảng chị em thành nguồn tài nguyên dễ tiếp cận hơn cho các mô hình Trí Tuệ Nhân Tạo (AI).
Dự án mang tên Wikidata Embedding, áp dụng kỹ thuật tìm kiếm ngữ nghĩa dựa trên vector để giúp máy tính hiểu rõ hơn ý nghĩa và mối quan hệ giữa các từ ngữ. Hệ thống này sẽ làm việc với gần 120 triệu mục dữ liệu hiện có trên Wikipedia, theo tin từ TechCrunch.
Cùng với việc hỗ trợ Giao thức Ngữ cảnh Mô hình (Model Context Protocol – MCP), một tiêu chuẩn giúp các hệ thống AI giao tiếp với nguồn dữ liệu, dự án này sẽ tăng cường khả năng tiếp cận dữ liệu thông qua các truy vấn ngôn ngữ tự nhiên từ các mô hình ngôn ngữ lớn (LLMs). Wikimedia Deutschland đã hợp tác với công ty tìm kiếm thần kinh Jina.AI và DataStax, một công ty dữ liệu huấn luyện thời gian thực thuộc sở hữu của IBM, để triển khai dự án.
Mặc dù Wikidata đã cung cấp dữ liệu có thể đọc được bằng máy trong nhiều năm, nhưng các công cụ trước đây chỉ giới hạn ở tìm kiếm từ khóa và truy vấn SPARQL, một ngôn ngữ truy vấn chuyên biệt. Hệ thống mới này sẽ hoạt động hiệu quả hơn với các hệ thống tạo sinh tăng cường truy xuất (RAG), cho phép các mô hình AI kéo thông tin bên ngoài và dựa vào kiến thức đã được các biên tập viên Wikipedia kiểm chứng.
Dữ liệu được cấu trúc để cung cấp ngữ cảnh ngữ nghĩa quan trọng. Chẳng hạn, khi truy vấn từ “nhà khoa học,” cơ sở dữ liệu sẽ hiển thị danh sách các nhà khoa học hạt nhân nổi bật, các nhà khoa học từng làm việc tại Bell Labs, cùng với các bản dịch và các khái niệm liên quan như “nhà nghiên cứu” hay “học giả.” Cơ sở dữ liệu này hiện đã được công khai trên Toolforge.
Dự án mới được ra mắt trong bối cảnh các nhà phát triển AI đang rất cần nguồn dữ liệu chất lượng cao để tinh chỉnh mô hình. Dù một số người có thể coi thường Wikipedia, nhưng dữ liệu của nó được đánh giá là định hướng sự kiện hơn đáng kể so với các tập dữ liệu tổng hợp như Common Crawl.
Ông Philippe Saadé, quản lý dự án AI của Wikidata, nhấn mạnh tính độc lập của dự án: “Việc ra mắt Dự án Embedding này cho thấy AI mạnh mẽ không nhất thiết phải bị kiểm soát bởi một vài công ty. Nó có thể mở, hợp tác và được xây dựng để phục vụ tất cả mọi người.”