Google dự kiến sẽ công bố thế hệ tiếp theo của dòng mô hình AI Gemini vào đầu tháng 12, một năm sau khi hãng tiết lộ Gemini 1. Đây dự kiến sẽ là một thay đổi đáng kể hơn so với phiên bản Gemini 1.5 được phát hành vào tháng 5.
Theo The Vergemặc dù là một bước tiến lớn so với Gemini 1, nhưng mô hình mới này không mạnh mẽ như Google mong đợi. Điều này có thể là do Gemini 1.5 tốt hơn mong đợi hoặc có khả năng chúng ta đang đạt đến điểm chững lại khi các tính năng bắt đầu quan trọng hơn hiệu suất và khả năng tổng thể.
OpenAI đã chuyển hướng với các mô hình của mình, tạo ra một họ o1 mới giỏi lý luận nhưng không giỏi bằng các nhiệm vụ khác. Sau đó là các mẫu GPT-4o (Omni), linh hoạt hơn. Rất có thể với Gemini 2 Google sẽ đi theo con đường tương tự.
Các phòng thí nghiệm AI có thói quen đưa ra những thông báo lớn trước kỳ nghỉ lễ và sau đó giữ chúng cho đến năm mới. Điều này có thể xảy ra với Gemini 2. Tôi nghi ngờ Google sẽ tiết lộ các biến thể mới của Ultra và Pro nhưng chúng sẽ không xuất hiện trên ứng dụng Gemini cho đến năm 2025.
Chúng ta có thể mong đợi điều gì từ Song Tử 2?
Mỗi thế hệ mới của mô hình đều mang theo những khả năng mới, bộ dữ liệu đào tạo mới và thậm chí có thể có những cách mới để nhắc nhở so với các phiên bản trước. Dựa trên luật mở rộng AI, trong đó nói rằng tính toán + dữ liệu + thời gian = mô hình tốt hơn, mỗi thế hệ mới sẽ có nhiều trí thông minh hơn, có khả năng cao hơn và có lý luận tốt hơn.
Không rõ những tính năng mới sẽ có trong Gemini 2. Khi Gemini 1 được phát hành, chúng tôi đã thấy các khả năng đa phương thức, bao gồm khả năng hiểu hình ảnh hoặc video. Google có thể sẽ mở rộng vấn đề này và có khả năng bao gồm dữ liệu không gian, cung cấp cho nó kiến thức về thế giới và vật lý trong thế giới thực. Chúng tôi đã thấy gợi ý về điều này với Project Atlas (Gemini Live + Lens).
Tôi nghĩ có nhiều khả năng chúng ta sẽ thấy những cải tiến lớn về mặt lý luận và độ tin cậy. Chúng ta cũng có thể thấy một số khả năng “tư duy” này được mở ra trong mô hình rộng hơn. Sự thay đổi lớn nhất có thể đến ở hình thức đại lý.
Đây là những khả năng của mô hình cho phép nó tự thực hiện các nhiệm vụ mà không cần phải dựa vào đầu vào của con người ngoài lời nhắc ban đầu. Ví dụ: bạn có thể yêu cầu Gemini đặt chuyến bay đến Paris với một số thông số nhất định và nó sẽ thực hiện việc đó cho bạn và chỉ gửi vé cho bạn.
Các tác nhân hỗ trợ sẽ yêu cầu mô hình có khả năng suy nghĩ thấu đáo vấn đề trước khi hành động, tương tự như o1 của OpenAI. Vì vậy, đó có thể sẽ là một khả năng khác. Điều này cho phép phản hồi chi tiết hơn cũng như độ chính xác được cải thiện. Tôi cũng nghi ngờ Google sẽ cải thiện khả năng truy cập dữ liệu trực tiếp và tìm kiếm khi nó phải chịu sự cạnh tranh ngày càng tăng từ OpenAI.
Thông tin khác từ Hướng dẫn của Tom