Deepseek đang trên một cuộn. Không hài lòng với việc phát nổ giỏ hàng của Apple với mô hình R1 cạnh tranh TATGPT của mình, nó vừa phát hành một bản nâng cấp mô hình đa phương thức mới có tên Janus Pro.
Các mô hình 1B và 7B mới này có thể hoàn thành các thế hệ hình ảnh và cũng hiểu được hình ảnh, điều này đang trở thành một phần ngày càng quan trọng của AI hiện đại.
Tôi đã xem xét bản thân mình về sản phẩm mới nhất này từ những gì dễ dàng là công ty AI nóng nhất trên thế giới.
Nếu bạn tò mò muốn tự mình thử nó, bạn có thể truy cập mô hình tại HuggingFace tại đây.
Đây là thế hệ thứ hai của mô hình Janus và nó được cho là cung cấp chất lượng hình ảnh được cải thiện và khả năng xử lý văn bản.
Một sự khác biệt quan trọng khác là thực tế là mô hình mới kết hợp sự hiểu biết trực quan bên cạnh việc tạo hình ảnh – để nó có thể “xem” một hình ảnh được tải lên và hiểu nó.
Đây không phải là một sự kết hợp điển hình với các mô hình thông thường. Họ gọi nó là đa phương thức thống nhất.
Nhận quyền truy cập ngay vào tin tức mới, đánh giá nóng nhất, ưu đãi tuyệt vời và các mẹo hữu ích.
Thực tế (bây giờ)
Thật không may, tất cả các công nghệ này dường như đã theo cách tạo ra một sản phẩm loại trực tiếp.
Không phải là mô hình xấu quá nhiều, chỉ là thế hệ hình ảnh cảm thấy hai tuổi. Quên về việc tạo ra khuôn mặt của con người; Chúng bị bóp méo, xoắn và tồi tệ nhất của thế hệ hình ảnh AI sớm. Hãy suy nghĩ về sự khuếch tán ổn định như thế nào vào năm 2023 và bạn sẽ biết tôi đang nói gì.
Như thể tất cả chúng ta đã được đưa trở lại trong một cỗ máy thời gian cho kỷ nguyên của ba con người ngón tay, chỉ có bây giờ là toàn bộ cơ thể.
Thật là xấu hổ, nhưng tôi đoán sự đổi mới thường đi kèm với một mức giá. Tôi đã dành khá nhiều thời gian để cố gắng tạo ra một hình ảnh ở bất cứ nơi nào gần trạng thái hiện tại của nghệ thuật, và thất bại thảm hại. Bạn có thể thấy các ví dụ dưới đây.
(Tín dụng hình ảnh: Hướng dẫn của Janus Pro / Tom)
Tin tốt là tầm nhìn hình ảnh dường như hoạt động tốt. Tôi đã tải lên một cảnh quay của ai đó nhìn vào điện thoại di động của họ trong một quán cà phê và mô hình mô tả chính xác những gì trong hình ảnh.
(Tín dụng hình ảnh: Hướng dẫn của Janus Pro / Tom)
Nhưng điều này hầu như không phải là công cụ đột phá, về bất kỳ mô hình tầm nhìn, nguồn mở hoặc nguồn mở nào, có thể làm điều này vào lúc này. Ngay cả mô hình Llava thấp, đủ nhỏ để chạy trên máy tính gia đình, cũng có thể làm điều này.
Điểm mấu chốt
Vậy điều đó rời bỏ chúng ta ở đâu? Rõ ràng người Trung Quốc đã một lần nữa cố gắng đổi mới với thiết kế mô hình của họ, và trên mặt của nó một cách tốt. Kết hợp tạo hình ảnh với khả năng đọc hình ảnh là một tính năng hay.
Tuy nhiên, thẻ báo cáo về nỗ lực này phải đọc “có thể cố gắng hơn.”
Tôi không chắc làm thế nào hoặc ở đâu Deepseek có được hình ảnh demo từ trên trang web của nó và tôi hoàn toàn bị ảnh hưởng bởi các hình ảnh văn bản mà công ty đang tự hào.
Tất nhiên đây chỉ có những mô hình nhỏ ở các tham số 1b và 7b, nhưng ngay cả khi người ta hy vọng sẽ có đầu ra tốt hơn. Tôi không đến gần kết quả demo trên trang web của họ, mặc dù thử các cấu hình khác nhau, lời nhắc dài và lời nhắc ngắn. Đó là một bí ẩn hoàn toàn. Tôi đề nghị họ có thể thực hiện một chuyến đi trở lại bảng vẽ?
Thêm từ hướng dẫn của Tom
Thích điều này:
ThíchĐang tải...
Có liên quan
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.