Google bị cáo buộc sử dụng người mới để kiểm tra thực tế câu trả lời AI của Gemini

Không thể phủ nhận rằng AI vẫn còn một số điểm không đáng tin cậy, nhưng người ta hy vọng rằng ít nhất những đánh giá của nó sẽ chính xác. Tuy nhiên, tuần trước Google bị cáo buộc đã hướng dẫn các nhân viên hợp đồng đánh giá Gemini không được bỏ qua bất kỳ lời nhắc nào, bất kể chuyên môn của họ, TechCrunch báo cáo dựa trên hướng dẫn nội bộ mà nó đã xem. Google đã chia sẻ bản xem trước của Gemini 2.0 vào đầu tháng này.

Theo báo cáo, Google đã chỉ thị cho GlobalLogic, một công ty gia công có các nhà thầu đánh giá sản phẩm do AI tạo ra, không được yêu cầu người đánh giá bỏ qua các lời nhắc ngoài chuyên môn của họ. Trước đây, các nhà thầu có thể chọn bỏ qua bất kỳ lời nhắc nào nằm ngoài chuyên môn của họ – chẳng hạn như hỏi bác sĩ về luật. Hướng dẫn đã nêu rõ: “Nếu bạn không có chuyên môn quan trọng (ví dụ: mã hóa, toán học) để xếp hạng lời nhắc này, vui lòng bỏ qua nhiệm vụ này.”

Giờ đây, các nhà thầu được cho là đã được hướng dẫn: “Bạn không nên bỏ qua các lời nhắc yêu cầu kiến ​​thức chuyên môn về miền” và họ nên “đánh giá các phần của lời nhắc mà bạn hiểu” đồng thời thêm ghi chú rằng đó không phải là lĩnh vực mà họ có kiến ​​thức. Rõ ràng, Các trường hợp duy nhất mà hợp đồng có thể bỏ qua hiện nay là nếu thiếu một lượng lớn thông tin hoặc nếu thông tin đó có nội dung độc hại cần có biểu mẫu chấp thuận cụ thể để đánh giá.

Một nhà thầu đã phản ứng một cách khéo léo với những thay đổi nói rằng: “Tôi nghĩ mục đích bỏ qua là để tăng độ chính xác bằng cách giao nó cho người khác tốt hơn?”

Ngay sau khi bài viết này được xuất bản lần đầu tiên, Google đã cung cấp cho Engadget tuyên bố sau: “Người xếp hạng thực hiện nhiều nhiệm vụ trên nhiều sản phẩm và nền tảng khác nhau của Google. Họ cung cấp phản hồi có giá trị không chỉ về nội dung của câu trả lời mà còn về phong cách, định dạng và các yếu tố khác. Xếp hạng mà họ đưa ra không tác động trực tiếp Các thuật toán của chúng tôi, nhưng khi được tổng hợp lại, sẽ là một điểm dữ liệu hữu ích giúp chúng tôi đo lường mức độ hoạt động của hệ thống.”

Người phát ngôn của Google cũng lưu ý rằng ngôn ngữ mới không nhất thiết dẫn đến những thay đổi về độ chính xác của Gemini vì họ đang yêu cầu những người đánh giá xếp hạng cụ thể các phần của lời nhắc mà họ hiểu. Điều này có thể cung cấp phản hồi về những vấn đề như vấn đề về định dạng ngay cả khi người xếp hạng không có chuyên môn cụ thể về chủ đề đó. Công ty cũng chỉ ra rằng điểm chuẩn FACTS Grounding trong tuần này có thể kiểm tra các phản hồi LLM để đảm bảo “điều đó không chỉ chính xác về mặt thực tế đối với các đầu vào nhất định mà còn đủ chi tiết để cung cấp câu trả lời thỏa đáng cho các truy vấn của người dùng”.

Cập nhật, ngày 19 tháng 12 năm 2024, 11:23 sáng theo giờ ET: Câu chuyện này đã được cập nhật với một tuyên bố từ Google và nhiều chi tiết hơn về cách hoạt động của hệ thống xếp hạng của nó.