Alibaba đã ra mắt Qwen3, thế hệ mới nhất của gia đình mô hình ngôn ngữ lớn (LLM) có nguồn gốc mở, thiết lập một chuẩn mực mới cho sự đổi mới của AI.
Sê-ri QWEN3 có sáu mô hình dày đặc và hai mô hình hỗn hợp (MOE), cung cấp cho các nhà phát triển linh hoạt để xây dựng các ứng dụng thế hệ tiếp theo trên các thiết bị di động, kính thông minh, xe tự trị, robot và hơn thế nữa.
Tất cả các mô hình QWEN3-bao gồm các mô hình dày đặc (0,6b, 1,7b, 4b, 8b, 14b và 32b Các mô hình) và MOE (30B với 3B hoạt động và 235b với hoạt động 22B)-hiện có nguồn gốc mở và có sẵn trên toàn cầu.
Lý do lai kết hợp tư duy và chế độ không suy nghĩ
Qwen3 đánh dấu các mô hình lý luận lai của Alibaba, kết hợp các khả năng LLM truyền thống với lý luận năng động, tiên tiến. Các mô hình QWEN3 có thể chuyển đổi liền mạch giữa chế độ suy nghĩ cho các tác vụ phức tạp, nhiều bước như toán học, mã hóa và suy luận logic và chế độ không suy nghĩ cho các phản hồi nhanh, đa năng.
Đối với các nhà phát triển truy cập QWEN3 thông qua API, mô hình cung cấp kiểm soát chi tiết trong thời gian suy nghĩ (mã thông báo lên tới 38k), cho phép cân bằng tối ưu giữa hiệu suất thông minh và hiệu quả tính toán. Đáng chú ý, mô hình MOE QWEN3-235B-A22B làm giảm đáng kể chi phí triển khai so với các mô hình tiên tiến khác, củng cố cam kết của Alibaba đối với AI hiệu suất cao, có thể truy cập được.
Đột phá về các kỹ năng đa ngôn ngữ, khả năng đại lý, lý luận và sự liên kết của con người
Được đào tạo trên một bộ dữ liệu khổng lồ gồm 36 nghìn tỷ mã thông báo – gấp đôi so với người tiền nhiệm QWEN2.5 – QWEN3 mang lại sự tiến bộ đáng kể về lý luận, hướng dẫn theo sau, sử dụng công cụ và các nhiệm vụ đa ngôn ngữ.
Khả năng chính bao gồm:
- Đa ngôn ngữ làm chủ: Hỗ trợ 119 ngôn ngữ và phương ngữ, với hiệu suất hàng đầu trong dịch thuật và theo hướng dẫn đa ngôn ngữ.
- Tích hợp đại lý nâng cao: Hỗ trợ tự nhiên giao thức bối cảnh mô hình (MCP) và gọi chức năng mạnh mẽ, các mô hình nguồn mở hàng đầu trong các tác vụ dựa trên tác nhân phức tạp.
- Lý luận vượt trội: Vượt qua các mô hình QWEN trước đó (QWQ ở chế độ tư duy và QWEN2.5 ở chế độ không suy nghĩ) trong toán học, mã hóa và điểm chuẩn lý luận logic.
- Tăng cường sự liên kết của con người: Cung cấp nhiều văn bản sáng tạo tự nhiên hơn, nhập vai và trải nghiệm đối thoại nhiều lần cho các cuộc trò chuyện tự nhiên, hấp dẫn hơn.

Nhờ những tiến bộ trong kiến trúc mô hình, tăng dữ liệu đào tạo và các phương pháp đào tạo hiệu quả hơn, các mô hình QWEN3 đạt được kết quả hàng đầu trong các tiêu chuẩn của ngành như AIME25 (lý luận toán học), liveCodeBench (thành thạo mã hóa), khả năng gọi công cụ và chức năng). Ngoài ra, để phát triển mô hình lý luận lai, một quy trình đào tạo bốn giai đoạn đã được thực hiện, bao gồm khởi động lạnh chuỗi dài (COT), học tập Củng cố dựa trên lý luận (RL), phản ứng tổng hợp chế độ tư duy và RL nói chung.
Mở truy cập để thúc đẩy đổi mới
Các mẫu Qwen3 hiện có sẵn miễn phí để tải xuống trên Face, GitHub và ModelsCope, và có thể được khám phá trên Chat.qwen.ai. Truy cập API sẽ sớm có sẵn thông qua nền tảng phát triển mô hình AI của Alibaba, Model Studio. Qwen3 cũng cung cấp năng lượng cho ứng dụng trợ lý AI Super của Alibaba, Quark.
Kể từ khi ra mắt, gia đình mô hình Qwen đã thu hút hơn 300 triệu lượt tải xuống trên toàn thế giới. Các nhà phát triển đã tạo ra hơn 100.000 mô hình phái sinh dựa trên Qwen trên Face Face, khiến Qwen trở thành một trong những loạt mô hình AI nguồn mở được áp dụng rộng rãi nhất thế giới.
Có liên quan
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.