Gemini 2.0 của Google có các tính năng và khả năng mới. Chúng bao gồm sự hiểu biết đa phương thức được cải thiện, AI tác nhân, tốc độ tăng lên, thời lượng pin tốt hơn (ngay cả đối với điện thoại có pin tốt) và tích hợp rộng hơn với các giải pháp khác của Google. Gemini 2.0 xử lý thông tin khác với phiên bản tiền nhiệm và đạt được các nhiệm vụ phức tạp hơn.
Tích hợp với các sản phẩm của Google như Tìm kiếm, Maps và Workspace là những lĩnh vực trọng tâm chính, mặc dù một số tính năng vẫn đang được triển khai. Gemini 2.0 đi kèm với một bản cập nhật giao diện người dùng lớn cho NotebookLM, kho thông tin AI do Gemini cung cấp của Google nhằm tận dụng các tài liệu nghiên cứu, liên kết và bộ dữ liệu của bạn.
Có liên quan
Google Gemini: Mọi thứ bạn cần biết về AI đa phương thức thế hệ tiếp theo của Google
Google Gemini đã có mặt, với cách tiếp cận hoàn toàn mới đối với AI đa phương thức
5 Xử lý hình ảnh và âm thanh gốc
Loại bỏ dịch hứa hẹn phản ứng tốt hơn
Nguồn: Grabster / Unsplash.com / Cảnh sát Android
Không giống như các mô hình trước đây yêu cầu chuyển đổi hình ảnh và âm thanh thành văn bản trước khi phân tích, Gemini 2.0 xử lý chúng. Mục đích là để loại bỏ sự mất mát thông tin liên quan đến dịch thuật. Quá trình xử lý trực tiếp cho phép hiểu biết phong phú hơn, nhiều sắc thái hơn về đầu vào, nắm bắt được những chi tiết tinh tế và tín hiệu ngữ cảnh mà nếu không sẽ bị mất. Gemini 2.0 hứa hẹn giải thích nội dung đa phương tiện chính xác và hiệu quả hơn bằng cách bỏ qua bước chuyển đổi văn bản trung gian.
Gemini 2.0 xác định các đối tượng trong hình ảnh và hiểu mối quan hệ của chúng cũng như bối cảnh khung cảnh. Tôi đã kiểm tra khả năng của nó và phản hồi rất chi tiết và chính xác. Nó thậm chí còn nhận ra vật liệu mà các đồ vật trên bàn cà phê của tôi được chế tạo. Tôi cũng đã chạy hình ảnh qua phiên bản 1.5 Pro. Mặc dù nó cung cấp một số thông tin tương tự nhưng phản hồi của nó lại ít chi tiết hơn. Mô hình Flash Gemini 2.0 vẫn từ chối xử lý hình ảnh có người.
Nếu Gemini 1.0 thiên về tổ chức và hiểu thông tin thì Gemini 2.0 hướng đến việc làm cho thông tin trở nên hữu ích hơn nhiều. – Sundar Pichai, Giám đốc điều hành Google
4 AI đặc vụ
Gemini 2.0 có thể làm được nhiều hơn với ít chi phí hơn
Nguồn: Alex Knight / Pexels
Agentic AI mô tả các mô hình AI tương tác tích cực với thế giới để đạt được các mục tiêu cụ thể. Gemini 2.0 hỗ trợ các tác nhân AI, cho phép chúng thực hiện các nhiệm vụ phức tạp, nhiều bước đòi hỏi phải lập kế hoạch, ra quyết định và tương tác với các hệ thống bên ngoài. AI tác nhân có thể đánh dấu một bước ngoặt trong đó AI trở thành người giải quyết vấn đề chủ động hơn.
Khả năng tác nhân của Gemini 2.0 dự kiến sẽ tích hợp với các công cụ bên ngoài như Google Tìm kiếm, Bản đồ và Ống kính. Ví dụ: tác nhân AI Gemini 2.0 có thể tận dụng Google Maps để lên kế hoạch cho một hành trình phức tạp liên quan đến nhiều điểm đến và phương thức vận chuyển. Tuy nhiên, chức năng này không khả dụng với tôi trên máy tính để bàn Flash 2.0 hoặc từ Maps. Google gần đây đã tung ra phiên bản 2.0 trong phiên bản tiền phát hành của ứng dụng dành cho thiết bị di động, đây là phiên bản mà chúng tôi mong đợi sẽ thấy một số khả năng này tỏa sáng.
Trong bài đăng trên blog của mình, Google thảo luận về cách mô hình mới liên quan đến hai sáng kiến chính của Google: Project Astra và Project Mariner. Project Astra tập trung vào các khả năng AI tự động được tích hợp với các dịch vụ như Tìm kiếm và Bản đồ. Project Mariner chạm vào các tính năng web tự động như điền biểu mẫu, đặt chỗ trước và thu thập thông tin từ nhiều trang web.
3 Tích hợp sâu hơn trên hệ sinh thái Google
AI đi khắp mọi nơi với Gemini 2.0
Nguồn: Google
Gemini 2.0 tích hợp sâu vào hệ sinh thái sản phẩm và dịch vụ của Google. Lời hứa mang lại trải nghiệm người dùng thống nhất và liền mạch hơn. Khả năng tích hợp mở rộng của Gemini 2.0 hướng tới chiến lược của Google trong việc sử dụng Gemini làm sợi dây chung xuyên suốt Workspace.
Google Tìm kiếm đang tích hợp sâu hơn với Gemini 2.0, tạo điều kiện thuận lợi hơn cho trải nghiệm tìm kiếm mang tính trò chuyện hơn và tận dụng Tổng quan về AI để có câu trả lời toàn diện cho các truy vấn phức tạp, như chúng tôi đã dự đoán vào đầu tháng 11. Trong Google Workspace, các tính năng hỗ trợ AI do Gemini 2.0 điều khiển đang được tích hợp vào các ứng dụng như Tài liệu, Trang trình bày và Meet để nâng cao năng suất và khả năng cộng tác. Trợ lý Android được thiết lập để nhận các khả năng mới được cung cấp bởi Gemini 2.0. Số dặm của bạn có thể thay đổi trong quá trình triển khai.
2 Phản hồi nhanh hơn và tuổi thọ pin tốt hơn
Gemini 2.0 Flash tăng gấp đôi tốc độ 1,5
Tên đầy đủ của phiên bản mới nhất là Gemini 2.0 Flash Experimental. Nó đã được sắp xếp hợp lý để tăng tốc độ và khả năng phản hồi. Gemini 2.0 Flash mang lại hiệu suất nâng cao đồng thời giảm độ trễ. Điều này định vị Gemini 2.0 Flash để hỗ trợ tốt hơn cho các tương tác đa phương thức trong thời gian thực.
Gemini 2.0 Flash tuyên bố có những cải tiến hiệu suất đáng chú ý. Google cho biết tốc độ của nó nhanh gấp đôi so với người tiền nhiệm. Trong thử nghiệm của tôi, phản hồi gần như ngay lập tức. Chúng nhanh hơn rõ rệt so với khi tôi cung cấp các truy vấn tương tự cho phiên bản 1.5 Pro. Thời gian phản hồi nhanh hơn giúp cho việc tương tác trở nên tự nhiên và trôi chảy hơn. Đối với các cuộc trò chuyện bằng âm thanh, độ trễ giảm có thể làm giảm độ trễ và tạo ra trải nghiệm hấp dẫn và chân thực hơn.
Gemini 2.0 Flash có thể kéo dài thời lượng pin cho các quy trình AI trên thiết bị di động như Google Pixel 9 hoặc điện thoại thông minh khác. Điều này có thể có nghĩa là sạc ít thường xuyên hơn, điều mà mọi người đều có thể đánh giá cao.
1 Giao diện người dùng được phát minh lại của NotebookLM
Gemini 2.0 đi kèm với việc thiết kế lại giao diện của NotebookLM và các tính năng mới
Nó không có trong Gemini 2.0, nhưng cả hai đều là những mặt khác nhau của cùng một đồng xu. Sự xuất hiện của Gemini 2.0 đánh dấu sự lặp lại song song của NotebookLM. Việc lặp lại vượt xa các khả năng AI cơ bản và đi vào giao diện người dùng. Cuộc đại tu nhằm mục đích giúp người dùng tương tác với ghi chú và tài liệu của họ một cách trực quan và hiệu quả hơn. Nó tập trung vào việc hợp lý hóa quy trình công việc, cải thiện điều hướng và cung cấp môi trường trực quan tinh tế hơn.
Có liên quan
Tôi đã thử nghiệm NotebookLM và nhận thấy hứa hẹn về điều gì đó tuyệt vời
NotebookLM có rất nhiều vấn đề, nhưng ý tưởng đằng sau nó rất có tiềm năng
Song Tử di chuyển nhanh và không chậm lại
Gemini 2.0 có những thủ thuật hay để đạt năng suất tối đa. Cùng với việc nhận dạng văn bản, nó còn hiểu được hình ảnh và âm thanh. Phiên bản này hứa hẹn sẽ làm được nhiều việc cho bạn, như sử dụng Google Search hoặc Maps để tìm thông tin hoặc hoàn thành các tác vụ phức tạp. Hơn nữa, nó có cửa sổ ngữ cảnh lớn hơn so với phiên bản trước. Google chốt Gemini 2.0 Flash ở mức 2 triệu mã thông báo, nghĩa là nó giữ lại và xử lý lượng thông tin gấp đôi so với Gemini 1.5 Pro.
Bằng cách tập trung vào sự hiểu biết đa phương thức, khả năng tác nhân, tích hợp sâu hơn với các ứng dụng của Google và cải tiến hiệu suất, Google đang biến Gemini trở thành nền tảng cho hệ sinh thái của mình. Khi AI chính thống tiếp tục phát triển, năm 2025 sẽ là một năm thú vị.