Những điểm chính
- Các mô hình ngôn ngữ lớn như GPT-3 có thể trả về phản hồi không chính xác do ảo giác.
- DataGemma của Google sử dụng Data Commons để cải thiện độ chính xác của mô hình ngôn ngữ.
- DataGemma sử dụng các chiến lược RIG và RAG để chống lại những lời nói dối của AI.
Các mô hình ngôn ngữ lớn đóng vai trò quan trọng đối với các tính năng AI ngày nay, dù được bao bọc xung quanh các công cụ khác hay chỉ hoạt động như các chatbot được Turing kiểm tra. Là các mô hình dự đoán (và không phải là sinh vật thông minh), chúng không thể lý luận và không thực sự gắn liền với sự thật. Điều đó dẫn đến việc LLM trả về các phản hồi không chính xác, gần như bịa đặt, được gọi là ảo giác. Đây là một trong những trở ngại lớn nhất cần vượt qua trong hành trình tìm kiếm đầu ra ngôn ngữ thực sự giống con người.
Là một công ty hàng đầu thế giới về thu thập và lập danh mục dữ liệu, Google có thể cung cấp dữ liệu chính xác cho LLM tốt hơn bất kỳ ai. Để đạt được mục đích đó, Google chỉ công bố một bộ mô hình mởđược gọi là DataGemma, được thiết kế để cải thiện khả năng phân biệt sự thật và hư cấu của LLM.
Khi những từ nghe có vẻ đúng thì hóa ra lại đúng
Bắt chước lý trí của con người hiệu quả hơn bao giờ hết
Nguồn: Google
Data Commons, biểu đồ kiến thức khổng lồ đến kinh ngạc của Google, là vũ khí mới nhất của họ chống lại sự thiếu chính xác lan rộng của LLM. Biểu đồ kiến thức không chỉ là một danh sách các sự kiện, mà là một mạng lưới dữ liệu bao quát, bao gồm các mối quan hệ giữa nhiều điểm và cách chúng tương tác. Tận dụng các sự kiện được kết nối với nhau bằng các hướng dẫn tiện ích cao là một cách hiệu quả để tinh chỉnh các mô hình ngôn ngữ. Bây giờ, Data Commons là dữ liệu đó và DataGemma là tập hợp các thuật toán đó.
DataGemma sử dụng hai chiến lược chính để chống lại những lời nói dối của AI: Retrieval-Interleaved Generation và Retrieval-Augmented Generation. Sử dụng RIG, một LLM nhận được lời nhắc, tạo ra một câu trả lời có khả năng xảy ra, sau đó kiểm tra câu trả lời đó với cơ sở dữ liệu các sự kiện và số liệu thống kê đã được xác minh. RIG hạn chế một phần việc ra quyết định của mô hình theo các xác suất mà nó được đào tạo ban đầu.
Trong RAG, mô hình ngôn ngữ đầu tiên thu thập dữ liệu có liên quan từ biểu đồ kiến thức được chỉ định và đánh giá tập dữ liệu đó để tìm câu trả lời. Điều này cho phép các kỹ sư liên tục quản lý tập dữ liệu có sẵn của mô hình, thay vì dựa vào dữ liệu đào tạo ban đầu. Bài đăng trên blog gần đây của Google đã làm rất tốt việc khiến những điều này trở nên khó hiểu nhất có thể, nhưng về mặt khái niệm, chúng không quá phức tạp.
Điều gì làm cho DataGemma trở nên đặc biệt?
Chủ yếu là thực tế là nó sử dụng tài nguyên của Google
RIG và RAG không phải là mới, và nhiều mô hình AI sử dụng một hoặc cả hai theo một số cách. Sự khác biệt là DataGemma được điều hành bởi một trong những người tích trữ dữ liệu lớn nhất từ trước đến nay. Google chỉ mới bắt đầu phương pháp tiếp cận kết hợp RIG và RAG để điều hướng biểu đồ Data Commons có sẵn công khai. Nhưng họ cam kết chia sẻ nghiên cứu của mình để mang lại lợi ích cho toàn bộ ngành học máy, cung cấp quyền truy cập theo từng giai đoạn khi công việc tiến triển.
Không có nhóm nào khác có thể cạnh tranh với sự kết hợp giữa sức mạnh xử lý, lưu trữ và quản lý dữ liệu, và các nguồn lực kỹ thuật của Google. Vì vậy, dự án khổng lồ này có thể tạo ra sự khác biệt lớn về độ chính xác của LLM trong tương lai. Cho dù bạn nghĩ AI là vị cứu tinh của nhân loại hay là một bot dịch vụ khách hàng được thổi phồng quá mức (thực ra nó nằm ở đâu đó giữa hai khái niệm này), thì những phản hồi LLM trung thực hơn chỉ có thể mang lại lợi ích.
Thăm nom Bài đăng nghiên cứu DataGemma của Google để biết thêm giải thích chi tiết về RIG và RAG.