Các mô hình AI thế hệ ngày nay, giống như các mô hình đằng sau Chatgpt và Gemini, được đào tạo về các dữ liệu trong thế giới thực, nhưng ngay cả tất cả nội dung trên internet cũng không đủ để chuẩn bị một mô hình cho mọi tình huống có thể.
Để tiếp tục phát triển, các mô hình này cần được đào tạo về dữ liệu mô phỏng hoặc tổng hợp, đó là các kịch bản hợp lý, nhưng không có thật. Các nhà phát triển AI cần phải làm điều này một cách có trách nhiệm, các chuyên gia cho biết trên một bảng điều khiển ở South by Southwest, hoặc mọi thứ có thể nhanh chóng trở nên nhanh chóng.
Việc sử dụng dữ liệu mô phỏng trong đào tạo các mô hình trí tuệ nhân tạo đã thu hút sự chú ý mới trong năm nay kể từ khi ra mắt Deepseek AI, một mô hình mới được sản xuất tại Trung Quốc được đào tạo sử dụng dữ liệu tổng hợp hơn các mô hình khác, tiết kiệm tiền và sức mạnh xử lý.
Nhưng các chuyên gia nói rằng nó không chỉ là tiết kiệm cho việc thu thập và xử lý dữ liệu. Dữ liệu tổng hợp-máy tính được tạo ra thường xuyên bởi chính AI-có thể dạy một mô hình về các kịch bản không tồn tại trong thông tin trong thế giới thực mà nó được cung cấp nhưng nó có thể phải đối mặt trong tương lai. Khả năng một trong một triệu đó không phải gây ngạc nhiên cho mô hình AI nếu nó thấy một mô phỏng của nó.
“Với dữ liệu mô phỏng, bạn có thể thoát khỏi ý tưởng về các trường hợp cạnh, giả sử bạn có thể tin tưởng nó”, Oji Udezue, người đã lãnh đạo các nhóm sản phẩm tại Twitter, Atlassian, Microsoft và các công ty khác. Ông và các thành viên tham gia hội thảo khác đã phát biểu vào Chủ nhật tại Hội nghị SXSW ở Austin, Texas. “Chúng tôi có thể xây dựng một sản phẩm hoạt động cho 8 tỷ người, về lý thuyết, miễn là chúng tôi có thể tin tưởng nó.”
Phần khó là đảm bảo bạn có thể tin tưởng nó.
Vấn đề với dữ liệu mô phỏng
Dữ liệu mô phỏng có rất nhiều lợi ích. Đối với một, nó chi phí ít hơn để sản xuất. Bạn có thể gặp sự cố thử nghiệm hàng ngàn chiếc xe mô phỏng bằng một số phần mềm, nhưng để có được kết quả tương tự trong cuộc sống thực, bạn phải thực sự phá vỡ những chiếc xe – chi phí rất nhiều tiền – Udezue nói.
Ví dụ, nếu bạn đang đào tạo một chiếc xe tự lái, bạn cần phải nắm bắt một số kịch bản ít phổ biến hơn mà một chiếc xe có thể trải nghiệm trên đường, ngay cả khi chúng không có dữ liệu đào tạo, Tahir Ekin, giáo sư phân tích kinh doanh tại Đại học bang Texas cho biết. Ông đã sử dụng trường hợp của những con dơi tạo ra sự nổi lên ngoạn mục từ cầu Đại hội của Đại hội Austin. Điều đó có thể không hiển thị trong dữ liệu đào tạo, nhưng một chiếc xe tự lái sẽ cần một số ý nghĩa về cách phản ứng với một đàn dơi.
Các rủi ro đến từ cách một máy được đào tạo bằng cách sử dụng dữ liệu tổng hợp đáp ứng với những thay đổi trong thế giới thực. Nó không thể tồn tại trong một thực tế thay thế, hoặc nó trở nên ít hữu ích hơn, hoặc thậm chí nguy hiểm, Ekin nói. “Bạn sẽ cảm thấy thế nào,” anh hỏi, “vào một chiếc xe tự lái không được đào tạo trên đường, điều đó chỉ được đào tạo về dữ liệu mô phỏng?” Bất kỳ hệ thống nào sử dụng dữ liệu mô phỏng cần phải “được đặt nền tảng trong thế giới thực”, ông nói, bao gồm cả phản hồi về cách lý luận mô phỏng của nó phù hợp với những gì đang thực sự xảy ra.
Udezue đã so sánh vấn đề với việc tạo ra các phương tiện truyền thông xã hội, bắt đầu như một cách để mở rộng truyền thông trên toàn thế giới, một mục tiêu mà nó đạt được. Nhưng phương tiện truyền thông xã hội cũng đã bị lạm dụng, ông nói, lưu ý rằng “bây giờ Despots sử dụng nó để kiểm soát mọi người và mọi người sử dụng nó để kể chuyện cười cùng một lúc.”
Khi các công cụ AI phát triển về quy mô và mức độ phổ biến, một kịch bản được thực hiện dễ dàng hơn bằng cách sử dụng dữ liệu đào tạo tổng hợp, các tác động trong thế giới thực tiềm năng của đào tạo không đáng tin cậy và các mô hình trở nên tách rời khỏi thực tế tăng lên quan trọng hơn. “Gánh nặng thuộc về các nhà xây dựng, nhà khoa học của Hoa Kỳ, để tăng gấp đôi, chắc chắn gấp ba, hệ thống đó là đáng tin cậy”, Udezue nói. “Đó không phải là một tưởng tượng.”
Cách kiểm tra dữ liệu mô phỏng
Một cách để đảm bảo các mô hình là đáng tin cậy là làm cho đào tạo của họ minh bạch, rằng người dùng có thể chọn mô hình nào sẽ sử dụng dựa trên đánh giá của họ về thông tin đó. Các thành viên tham gia hội thảo liên tục sử dụng sự tương tự của một nhãn dinh dưỡng, rất dễ dàng cho người dùng.
Một số tính minh bạch tồn tại, chẳng hạn như thẻ mô hình có sẵn thông qua nền tảng phát triển ôm mặt phá vỡ các chi tiết của các hệ thống khác nhau. Thông tin đó cần phải rõ ràng và minh bạch nhất có thể. “Những loại thứ đó phải được đặt ra,” ông nói.
Hollinger cho biết cuối cùng, nó sẽ không chỉ là nhà phát triển AI mà còn là người dùng AI, những người sẽ xác định các thực tiễn tốt nhất của ngành.
Ngành công nghiệp cũng cần ghi nhớ đạo đức và rủi ro, Udezue nói. “Dữ liệu tổng hợp sẽ làm cho rất nhiều thứ dễ thực hiện hơn”, ông nói. “Nó sẽ giảm chi phí xây dựng mọi thứ. Nhưng một số trong những điều đó sẽ thay đổi xã hội.”
Udezue cho biết khả năng quan sát, minh bạch và niềm tin phải được xây dựng thành các mô hình để đảm bảo độ tin cậy của chúng. Điều đó bao gồm cập nhật các mô hình đào tạo để chúng phản ánh dữ liệu chính xác và không phóng đại các lỗi trong dữ liệu tổng hợp. Một mối quan tâm là sự sụp đổ mô hình, khi một mô hình AI được đào tạo trên dữ liệu được tạo ra bởi các mô hình AI khác sẽ ngày càng xa cách với thực tế, đến mức trở nên vô dụng.
“Bạn càng ngại ngùng khi nắm bắt sự đa dạng của thế giới thực, các câu trả lời có thể không lành mạnh”, Udezue nói. Giải pháp là sửa lỗi, ông nói. “Những điều này không cảm thấy như những vấn đề không thể giải quyết nếu bạn kết hợp ý tưởng về niềm tin, tính minh bạch và sửa lỗi vào chúng.”
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.