Microsoft vừa giới thiệu Magma, một mô hình trí tuệ nhân tạo mới được thiết kế để giúp robot nhìn, hiểu và hành động thông minh hơn. Không giống như các mô hình AI truyền thống, Magma xử lý các loại dữ liệu khác nhau cùng một lúc – một nỗ lực của Microsoft đang gọi một bước nhảy vọt lớn đối với “AI tác nhân”, “ hoặc các hệ thống có thể lập kế hoạch và thực hiện các tác vụ thay mặt cho người dùng.
Mô hình, sử dụng kết hợp tầm nhìn và xử lý ngôn ngữ, được đào tạo về video, hình ảnh, dữ liệu robot và tương tác giao diện để làm cho nó linh hoạt hơn so với các mô hình trước đó.
Trên trang GitHub của mình, nhóm nghiên cứu Microsoft đã phác thảo cách Magma có thể thực hiện các tác vụ, chẳng hạn như cách nó có thể thao tác với robot và điều hướng các giao diện người dùng như nhấp vào các nút.
Để phát triển công nghệ, công ty đã hợp tác với các nhà nghiên cứu từ Đại học Maryland, Đại học Wisconsin-Madison và Đại học Washington.
Sự ra mắt diễn ra khi các gã khổng lồ công nghệ đua để phát triển các đại lý AI có thể tự động hóa nhiều khía cạnh của cuộc sống hàng ngày. Google đã thúc đẩy các mô hình ngôn ngữ tập trung vào robot, trong khi công cụ vận hành của Openai được thiết kế để xử lý các tác vụ trần tục như đặt chỗ, đặt hàng tạp hóa và điền vào các biểu mẫu thông qua việc gõ, nhấp và cuộn trong trình duyệt chuyên dụng.
Jianwei Yang, nhà nghiên cứu chính của Microsoft trong dự án, nói với CNET về tương lai của AI không chỉ là phát triển các mô hình nền tảng đa phương thức cho chatbots.
“Chúng tôi tin rằng bước quan trọng tiếp theo đối với AI bản lề đối với các tác nhân phát triển có thể hiểu và tương tác liền mạch với cả môi trường kỹ thuật số và vật lý”, ông nói.
Ông cho biết tầm quan trọng của Magma nằm ở khả năng thu hẹp khoảng cách cho các tác nhân AI đa phương thức, vì các mô hình AI truyền thống vượt trội trong trí thông minh bằng lời nói nhưng thường đấu tranh với kế hoạch và hành động trong thế giới thực.
“Robot ngày nay thường dựa vào đào tạo cụ thể về nhiệm vụ về dữ liệu cụ thể của miền, dẫn đến khả năng hạn chế của chúng để xử lý các nhiệm vụ đơn giản hàng ngày, chứ đừng nói đến việc khái quát hóa các nhiệm vụ và môi trường mới”, ông giải thích. “Magma thay đổi điều này bằng cách tăng cường đáng kể trí thông minh bằng lời nói và không gian của chúng, cho phép robot đưa hành động của họ lên đầu môi trường, cả kỹ thuật số hoặc vật lý và thực hiện các hành động một cách chính xác và hiệu quả.”
Trong khi đó, Craig le Clair – một nhà phân tích chính tại Forrester và là tác giả của các hành vi tự động hóa ngẫu nhiên – cho biết tin tức phù hợp với dự đoán của công ty nghiên cứu thị trường rằng 25% trong số 2025 dự án robot sẽ kết hợp tự động hóa nhận thức và thể chất. Tuy nhiên, ông nói, cuộc tranh luận tiếp tục cho dù thông báo này và những người khác biểu thị một bước ngoặt thực sự hay chỉ là các mục lớn hơn.
“Microsoft đã cung cấp một khả năng phát triển quan trọng nhưng bây giờ cần thể hiện sự lãnh đạo trong việc hướng dẫn sự tương tác của con người sản xuất và an toàn,” Le Clair nói.
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.