Mô hình thế giới – thuật toán AI có khả năng tạo ra môi trường mô phỏng trong thời gian thực – đại diện cho một trong những ứng dụng ấn tượng hơn của học máy. Trong năm ngoái, đã có rất nhiều chuyển động trong lĩnh vực này và vì mục đích đó, Google DeepMind đã công bố Genie 2 vào thứ Tư. Trong khi người tiền nhiệm của nó bị giới hạn trong việc tạo ra thế giới 2D, thì mô hình mới có thể tạo thế giới 3D và duy trì chúng lâu hơn đáng kể.
Genie 2 không phải là công cụ trò chơi; thay vào đó, đó là một mô hình khuếch tán tạo ra hình ảnh khi người chơi (có thể là con người hoặc tác nhân AI khác) di chuyển qua thế giới mà phần mềm đang mô phỏng. Khi tạo ra các khung hình, Genie 2 có thể suy ra các ý tưởng về môi trường, mang lại cho nó khả năng mô hình hóa các hiệu ứng nước, khói và vật lý – mặc dù một số tương tác đó có thể rất mang tính trò chơi. Mô hình này cũng không bị giới hạn trong việc hiển thị các cảnh từ góc nhìn của người thứ ba, nó cũng có thể xử lý các góc nhìn của người thứ nhất và góc nhìn đẳng cự. Tất cả những gì nó cần để bắt đầu là một lời nhắc bằng hình ảnh, được cung cấp bởi mô hình Imagen 3 của chính Google hoặc hình ảnh của một thứ gì đó từ thế giới thực.
Giới thiệu Genie 2: mô hình AI của chúng tôi có thể tạo ra vô số thế giới 3D có thể chơi được – tất cả chỉ từ một hình ảnh. 🖼️
Những loại mô hình thế giới nền tảng quy mô lớn này có thể cho phép các tác nhân trong tương lai được đào tạo và đánh giá trong vô số môi trường ảo. →… pic.twitter.com/qHCT6jqb1W
— Google DeepMind (@GoogleDeepMind) Ngày 4 tháng 12 năm 2024
Đáng chú ý, Genie 2 có thể ghi nhớ các phần của cảnh mô phỏng ngay cả khi chúng rời khỏi tầm nhìn của người chơi và có thể tái tạo lại chính xác các phần tử đó sau khi chúng hiển thị trở lại. Điều đó trái ngược với những người mẫu thế giới khác như Oasis, ít nhất là trong phiên bản mà Decart trình chiếu trước công chúng vào tháng 10, đã gặp khó khăn khi nhớ cách bố trí của Minecraft mức độ nó đã tạo ra trong thời gian thực.
Tuy nhiên, thậm chí còn có những hạn chế đối với những gì Genie 2 có thể làm về mặt này. DeepMind cho biết mô hình này có thể tạo ra các thế giới “nhất quán” trong tối đa 60 giây, với phần lớn các ví dụ mà công ty chia sẻ hôm thứ Tư chạy với thời gian ít hơn đáng kể; trong trường hợp này, hầu hết các video đều dài khoảng 10 đến 20 giây. Hơn nữa, các hiện vật được giới thiệu và chất lượng hình ảnh giảm đi khi Genie 2 cần duy trì ảo ảnh về một thế giới nhất quán.
DeepMind không nêu chi tiết cách họ đào tạo Genie 2 ngoài việc nói rằng nó dựa vào “dựa trên tập dữ liệu video quy mô lớn”. Đừng mong đợi DeepMind sẽ sớm phát hành Genie 2 ra công chúng. Hiện tại, công ty chủ yếu coi mô hình này là một công cụ để đào tạo và đánh giá các tác nhân AI khác, bao gồm thuật toán SIMA của riêng họ và thứ mà các nghệ sĩ và nhà thiết kế có thể sử dụng để tạo nguyên mẫu và thử nghiệm các ý tưởng một cách nhanh chóng. Trong tương lai, DeepMind gợi ý rằng các mô hình thế giới như Genie 2 có thể sẽ đóng một vai trò quan trọng trên con đường hướng tới trí tuệ nhân tạo nói chung.
DeepMind cho biết: “Việc đào tạo các tác nhân được thể hiện tổng quát hơn theo truyền thống đã bị cản trở do có sẵn môi trường đào tạo đủ phong phú và đa dạng”. “Như chúng tôi đã trình bày, Genie 2 có thể cho phép các đặc vụ tương lai được đào tạo và đánh giá theo một chương trình giảng dạy vô hạn về các thế giới mới lạ.”