Các nhà khoa học đã phát hiện ra rằng các máy tạo video AI không thể hiểu được các định luật vật lý chỉ bằng cách xem video.
Nổi bật sau chatbot và trình tạo hình ảnh, các trình tạo video AI như Sora và Runway đã mang lại kết quả ấn tượng. Nhưng một nhóm các nhà khoa học từ Bytedance Research, Đại học Thanh Hoa và Technion lại tò mò tìm hiểu xem liệu những mô hình như vậy có thể khám phá các quy luật vật lý từ dữ liệu trực quan mà không cần thêm bất kỳ sự can thiệp nào của con người hay không.
Trong khi ở thế giới thực, chúng ta hiểu vật lý thông qua toán học thì trong thế giới tạo video, một mô hình AI hiểu vật lý sẽ có thể xem một chuỗi khung hình và sau đó dự đoán khung hình nào sẽ xuất hiện tiếp theo. Điều này sẽ xảy ra cả khi hình ảnh là những hình ảnh mà mô hình AI đã thấy trước đây và cả những hình ảnh không quen thuộc.
Để tìm hiểu xem sự hiểu biết này có tồn tại hay không, các nhà khoa học đã tạo ra một mô phỏng 2D bằng cách sử dụng các hình dạng và chuyển động đơn giản, đồng thời tạo ra hàng trăm nghìn video nhỏ để mô hình của họ đào tạo và thử nghiệm. Họ phát hiện ra rằng các mô hình có thể “bắt chước” vật lý nhưng không hiểu được nó.
SORA có thực sự là một mô hình thế giới? – YouTubeXem tiếp
Ba định luật vật lý cơ bản để mô phỏng mà họ chọn để nghiên cứu là chuyển động tuyến tính đều của một quả bóng, sự va chạm hoàn toàn đàn hồi giữa hai quả bóng và chuyển động parabol của một quả bóng.
Dựa trên báo cáo in trước của nhóm, hóa ra là mặc dù các hình dạng hoạt động như bình thường đối với các mô phỏng dựa trên dữ liệu mà chúng đã được huấn luyện, nhưng chúng lại không hoạt động chính xác trong các tình huống mới, không lường trước được. Tốt nhất, các người mẫu cố gắng bắt chước ví dụ đào tạo gần nhất mà họ có thể tìm thấy.
Trong quá trình thí nghiệm, các nhà khoa học cũng quan sát thấy rằng trình tạo video thường thay đổi hình dạng này thành hình dạng khác (ví dụ: hình vuông ngẫu nhiên biến thành quả bóng) hoặc thực hiện các điều chỉnh vô nghĩa khác. Các ưu tiên của mô hình dường như tuân theo một hệ thống phân cấp rõ ràng, trong đó màu sắc có tầm quan trọng cao nhất, tiếp theo là kích thước và sau đó là tốc độ. Hình dạng nhận được ít sự nhấn mạnh nhất.
Họ đã tìm ra giải pháp chưa?
Các nhà nghiên cứu cho biết: “Thật khó để xác định xem liệu một mô hình video có học được một định luật hay không thay vì chỉ ghi nhớ dữ liệu”. Họ giải thích rằng vì không thể tiếp cận được kiến thức bên trong của mô hình nên họ chỉ có thể suy ra sự hiểu biết của mô hình bằng cách kiểm tra các dự đoán của nó về các tình huống không thể nhìn thấy.
Họ cho biết: “Phân tích chuyên sâu của chúng tôi cho thấy rằng việc khái quát hóa mô hình video phụ thuộc nhiều hơn vào việc tham khảo các ví dụ đào tạo tương tự hơn là học các quy tắc phổ quát”, đồng thời nhấn mạnh rằng điều này xảy ra bất kể lượng dữ liệu mà mô hình đào tạo.
Họ đã tìm ra giải pháp chưa? Chưa, tác giả chính Bingyi Kang đã viết trên X. “Thực ra, đây có lẽ là sứ mệnh của toàn bộ cộng đồng AI,” ông nói thêm.