Meta vừa tung ra phiên bản mới của họ Llama gồm các mô hình ngôn ngữ lớn. Llama 3.2 được cập nhật giới thiệu tính đa phương thức, cho phép hiểu hình ảnh ngoài văn bản. Nó cũng đưa hai mô hình 'nhỏ' mới vào họ.
Llama có ý nghĩa quan trọng – không hẳn vì nó mạnh hơn các mô hình từ OpenAI hay Google, mặc dù nó thực sự đáng gờm – mà vì nó là mã nguồn mở và hầu như bất kỳ ai cũng có thể dễ dàng sử dụng.
Bản cập nhật giới thiệu bốn kích thước mô hình khác nhau. Mô hình tham số 1 tỷ chạy thoải mái trên MacBook Air M3 với RAM 8GB, trong khi mô hình 3 tỷ cũng hoạt động nhưng chỉ vừa đủ. Cả hai đều chỉ là văn bản nhưng có thể chạy trên nhiều thiết bị hơn và ngoại tuyến.
Tuy nhiên, bước đột phá thực sự là với các phiên bản tham số 11b và 90b của Lạc đà không bướu 3.2. Đây là những mẫu Llama đa phương thức thực sự đầu tiên, được tối ưu hóa cho phần cứng và quyền riêng tư và hiệu quả hơn nhiều so với những mẫu tiền nhiệm 3.1 của chúng. Mẫu 11b thậm chí có thể chạy trên một máy tính xách tay chơi game tốt.
Điều gì làm cho Llama trở nên quan trọng đến vậy?
Tính khả dụng rộng rãi, khả năng tiên tiến và khả năng thích ứng của Llama khiến nó trở nên khác biệt. Nó hỗ trợ chatbot AI của Meta trên Instagram, WhatsApp, Facebook, kính thông minh Ray-Ban và tai nghe Quest, nhưng cũng có thể truy cập trên các dịch vụ đám mây công cộng, do đó người dùng có thể tải xuống và chạy cục bộ hoặc thậm chí tích hợp vào các sản phẩm của bên thứ ba.
Groq, dịch vụ suy luận đám mây siêu nhanh, là một ví dụ về lý do tại sao việc có một mô hình nguồn mở là một lựa chọn mạnh mẽ. Tôi đã xây dựng một công cụ đơn giản để tóm tắt một bài báo nghiên cứu AI bằng Llama 3.1 70b chạy trên Groq – nó hoàn thành bản tóm tắt nhanh hơn cả tốc độ tôi có thể đọc tiêu đề.
Một số thư viện mã nguồn mở cho phép bạn tạo giao diện giống ChatGPT trên máy Mac của mình được hỗ trợ bởi Llama 3.2 hoặc các mô hình khác, bao gồm khả năng phân tích hình ảnh nếu bạn có đủ RAM. Tuy nhiên, tôi đã tiến xa hơn một bước và xây dựng chatbot Python của riêng mình để truy vấn API Ollama, cho phép tôi chạy các mô hình này trực tiếp trong thiết bị đầu cuối.
Các trường hợp sử dụng Llama 3.2
Một trong những lý do quan trọng khiến Llama 3.2 trở thành một vấn đề lớn là tiềm năng của nó trong việc biến đổi cách AI tương tác với môi trường của nó, đặc biệt là trong các lĩnh vực như trò chơi và thực tế tăng cường. Khả năng đa phương thức có nghĩa là Llama 3.2 có thể “nhìn thấy” và “hiểu” các đầu vào trực quan cùng với văn bản, mở ra các khả năng như NPC năng động, được hỗ trợ bởi AI trong trò chơi điện tử.
Hãy tưởng tượng một trò chơi mà NPC không chỉ tuân theo lời thoại được lập trình sẵn mà còn có thể nhận thức thế giới trò chơi theo thời gian thực, phản ứng thông minh với hành động của người chơi và môi trường. Ví dụ, một NPC bảo vệ có thể “nhìn thấy” người chơi cầm một vũ khí cụ thể và bình luận về nó, hoặc một người bạn đồng hành AI có thể phản ứng với sự thay đổi trong môi trường xung quanh của trò chơi, chẳng hạn như sự xuất hiện đột ngột của một mối đe dọa, theo cách tinh tế và mang tính đối thoại.
Ngoài chơi game, công nghệ này có thể được sử dụng trong các thiết bị thông minh như kính thông minh Ray-Ban và tai nghe Quest. Hãy tưởng tượng bạn hướng kính vào một tòa nhà và yêu cầu AI cung cấp lịch sử kiến trúc hoặc thông tin chi tiết về thực đơn của nhà hàng chỉ bằng cách nhìn vào nó.
Những trường hợp sử dụng này rất thú vị vì bản chất mã nguồn mở của Llama cho phép các nhà phát triển tùy chỉnh và mở rộng các mô hình này cho vô số ứng dụng sáng tạo, từ giáo dục đến chăm sóc sức khỏe, nơi AI có thể hỗ trợ người dùng khiếm thị bằng cách mô tả môi trường của họ.
Ngoài việc sử dụng các mô hình do Meta xây dựng, việc là mã nguồn mở có nghĩa là các công ty, tổ chức và thậm chí cả chính phủ có thể tạo ra các phiên bản tùy chỉnh và tinh chỉnh của riêng họ cho các mô hình. Điều này đã diễn ra ở Ấn Độ để cứu các ngôn ngữ gần như tuyệt chủng.
Phương thức | Điểm chuẩn | Lạc đà không bướu 3.2 11B | Lạc đà không bướu 3.2 90B | Claude 3 – Haiku | GPT-4o-mini |
---|---|---|---|---|---|
Hình ảnh | MMMU | 50,7 | 60,3 | 50,2 | 59,4 |
Hình ảnh | MMMU-Pro, Tiêu chuẩn | 33.0 | 45,2 | 27,3 | 42,3 |
Hình ảnh | MMMU-Pro, Tầm nhìn | 23,7 | 33,8 | 20,1 | 36,5 |
Hình ảnh | Toán học Vista | 51,5 | 57,3 | 46,4 | 56,7 |
Hình ảnh | Biểu đồQA | 83,4 | 85,5 | 81,7 | – |
Hình ảnh | Biểu đồ AI2 | 91,1 | 92,3 | 86,7 | – |
Hình ảnh | Tài liệu VQA | 88,4 | 90,1 | 88,8 | – |
Hình ảnh | VQAv2 | 75,2 | 78,1 | – | – |
Chữ | MMLU | 73.0 | 86.0 | 75,2 | 82.0 |
Chữ | TOÁN HỌC | 51,9 | 68.0 | 38,9 | 70,2 |
Chữ | GPQA | 32,8 | 46,7 | 33,3 | 40,2 |
Chữ | MGSM | 68,9 | 86,9 | 75,1 | 87.0 |
Llama 3.2 11b và 90b có khả năng cạnh tranh với các mô hình nhỏ hơn từ Anthropic, chẳng hạn như Claude 3 Haiku và OpenAI, bao gồm GPT-4o-mini, khi nhận dạng hình ảnh và các tác vụ trực quan tương tự. Phiên bản 3B có khả năng cạnh tranh với các mô hình có kích thước tương tự từ Microsoft và Google, bao gồm Gemini và Phi 3.5-mini trên 150 điểm chuẩn.
Mặc dù không phải là chuẩn mực trực tiếp, nhưng các bài kiểm tra của riêng tôi về việc sử dụng mô hình 1b để phân tích bài viết của tôi và đề xuất những cải tiến gần như ngang bằng với hiệu suất của các công cụ viết của Apple Intelligence, chỉ không có quyền truy cập vào menu ngữ cảnh tiện dụng.
Hai mô hình tầm nhìn, 11b và 90b, có thể thực hiện nhiều chức năng giống như tôi đã thấy từ ChatGPT và Gemini. Ví dụ, bạn có thể cung cấp cho nó một bức ảnh về khu vườn của bạn và nó có thể đưa ra các cải tiến được đề xuất hoặc thậm chí là lịch trình trồng trọt.
Như tôi đã nói trước đây, hiệu suất tuy tốt nhưng không phải là điểm bán hàng quan trọng nhất của Llama 3.2; mà nằm ở tính dễ tiếp cận và khả năng tùy chỉnh cho nhiều trường hợp sử dụng.
Thêm từ Tom's Guide