Trí tuệ nhân tạo (AI) đã định hình lại nghệ thuật kỹ thuật số và thiết kế sáng tạo. AI thế hệ giúp bạn tạo ra các tác phẩm nghệ thuật tuyệt đẹp trên máy tính bảng và Chromebook của bạn. Hướng dẫn này kiểm tra Janus-Pro-7b (DeepSeek) và Dall · e 3 (TATGPT), so sánh tạo ra hình ảnh thực tế.
Có liên quan
AI tổng quát là gì?
Một tác nhân của ý chí con người, một bộ khuếch đại nhận thức của con người. Khám phá sức mạnh của AI thế hệ
Dall · e 3 sử dụng mô hình khuếch tán và chatgpt để tạo hình ảnh
Dall · E 3 là một mô hình tổng quát với bộ giải mã dựa trên khuếch tán được đào tạo trên các bộ dữ liệu đa phương thức rộng lớn. Điều này cho phép nó tạo ra hình ảnh chi tiết trên các phong cách nghệ thuật đa dạng. Một tiến bộ quan trọng trong Dall · e 3 là sự tích hợp chặt chẽ của nó với Chatgpt, xử lý ngôn ngữ và máy biến áp quy mô lớn.
Điều này cho phép nó phân tích các mô tả phức tạp với mức độ chính xác ngữ nghĩa cao hơn. Không giống như các kiến trúc đa phương thức hiểu và tạo hình ảnh, Dall · e 3 được tối ưu hóa cho các tác vụ chung và thiếu một đường ống xử lý hình ảnh. Chatgpt hiểu hình ảnh vì OpenAI triển khai các mô hình tầm nhìn bổ sung. Openai tích hợp các mô hình tầm nhìn riêng biệt quá trình và phân tích hình ảnh.
Janus-Pro-7B tách sự hiểu biết và tạo hình ảnh với thiết kế mã hóa kép
Janus-Pro-7b là một mô hình tổng quát của Deepseek với 7 tỷ thông số. Các mạng lưới thần kinh trong Janus-Pro-7B được đào tạo cho các đầu ra chính xác, có cấu trúc. Kiến trúc tách rời của nó phân tách sự hiểu biết trực quan với thế hệ văn bản sang hình ảnh. Không giống như Dall · E 3, chỉ tạo ra hình ảnh, các quy trình Janus-Pro-7B và tạo hình ảnh và văn bản.
Có hai bộ mã hóa chuyên dụng thay vì một. Bộ mã hóa Hiểu phân tích hình ảnh, xác định các đối tượng và diễn giải các mối quan hệ. Nó nhìn vào một bức tranh, phân tích những gì trong đó (đối tượng, con người hoặc cảnh) và biến nó thành văn bản có ý nghĩa. Bộ mã hóa thế hệ chuyển đổi một mô tả thành các yếu tố trực quan, cho phép mô hình tạo ra hình ảnh dựa trên lời nhắc văn bản.
So sánh chủ nghĩa hiện thực trong các hình ảnh do AI tạo ra từ Janus-Pro-7b và Dall · E 3
Nhắc nhở: Một bức ảnh thực tế của một cây xương rồng trong chậu và một chiếc xe đạp.
Hình ảnh đầu tiên được tạo ra bởi Dall · E 3 cho thấy ánh sáng được kiểm soát quá mức và thiếu sự không hoàn hảo tự nhiên cần thiết cho chủ nghĩa hiện thực. Ngay cả sau khi tinh chỉnh lời nhắc cho chủ nghĩa hiện thực hơn, Dall · e 3 cũng không phù hợp với chất lượng của Deepseek. Nó cũng thêm một nhà máy bổ sung và một máy ảnh cổ điển, không được chỉ định trong lời nhắc. Điều này cho thấy một xu hướng lấy tự do sáng tạo thay vì tuân thủ nghiêm ngặt chủ nghĩa hiện thực.
Trong khi đó, Janus-Pro-7B đã tạo ra một cây xương rồng trong chậu với nền mờ, tạo ra chất lượng nhiếp ảnh tự nhiên. Độ sâu của trường, ánh sáng và kết cấu trong hình ảnh Janus-Pro-7B cảm thấy xác thực. Nó có những phản ánh thực tế, đặc biệt là trên xe đạp. Nhìn chung, Janus-Pro-7B cung cấp chủ nghĩa hiện thực cao hơn bằng cách duy trì độ chính xác và độ trung thực cho lời nhắc.
So sánh định vị không gian trong Dall · E 3 và Janus-Pro-7b
Nhắc nhở: Một hình ảnh của một con chó đen bên trái, một con mèo ở giữa và một con chuột bên phải.
Hình ảnh đầu tiên được tạo ra bởi Chatgpt mô tả một cảnh ngoài trời với một con chó đen, mèo và chuột được định vị tự nhiên. Mặc dù lời nhắc chỉ định một sự sắp xếp từ trái sang phải có cấu trúc, hình ảnh lỏng lẻo theo cách bố trí.
Deepseek chính xác theo các hướng dẫn không gian của lời nhắc, định vị con chó đen ở bên trái, con mèo ở giữa và con chuột bên phải. Cả hai hình ảnh đều hoạt hình, nhưng sản lượng của Deepseek có độ phân giải thấp hơn và ít tinh tế hơn. Một lần nữa, Deepseek hoàn toàn tuân theo định vị không gian của lời nhắc, trong khi mô hình của Tuntpt giới thiệu các quyền tự do nghệ thuật sửa đổi bố cục.
So sánh Dall · E 3 và Janus-Pro-7b với nhiều yếu tố trong các lời nhắc phức tạp
Nhắc nhở: Một con mèo màu cam mịn với đôi mắt màu xanh lá cây nằm dài trên con đường bằng đá trong một khu vườn Nhật Bản.
Các mô hình xử lý các dấu nhắc dày đặc diễn giải nhiều yếu tố, ràng buộc và chi tiết kiểu để tạo hình ảnh. Trong bài kiểm tra điểm chuẩn, Janus-Pro-7B đã ghi được 84,19 trên băng ghế DPG và Dall-E 3 ghi được 83,50, cho thấy khả năng tương tự để tạo ra các cảnh phức tạp.
Tuy nhiên, so sánh chúng trên lời nhắc dày đặc này cho thấy sự khác biệt trong giải thích và sàng lọc. Dall-e 3 bao gồm gần như tất cả các yếu tố, bao gồm hoa anh đào, con đường bằng đá và một khu vườn Nhật Bản với chùa và cây cầu. Tuy nhiên, mặc dù có một sáng tác ấn tượng, con mèo thiếu chủ nghĩa hiện thực.
Deepseek bao gồm hầu hết các yếu tố nhưng bỏ lỡ các dấu hiệu văn hóa quan trọng. Ngoài ra, Deepseek có độ phân giải thấp hơn Dall-E 3. Mặc dù vậy, Deepseek lại thắng vì nó tuân thủ chặt chẽ hơn sự miêu tả thực tế của một con mèo màu cam mịn, ngay cả khi nó hy sinh một số phức tạp nền.
So sánh độ chính xác của Dall · E 3 và Janus-Pro-7b
Nhắc nhở: Một tác phẩm có một quả chuối màu vàng sáng, một quả táo màu đỏ đậm, một cốc gốm màu xanh phong phú và một quả lê màu xanh lá cây, tất cả được đặt trên một chiếc bàn bằng đá cẩm thạch màu trắng.
Độ chính xác màu sắc là một sự khác biệt chính giữa Deepseek (Janus-Pro-7B) và Dall-E 3. Chuối Deepseek cho thấy một tông màu vàng tự nhiên, cân bằng, màu vàng, trong khi Dall-E 3 có vẻ sáp. Cốc gốm của Deepseek hiển thị một màu xanh mềm mại, bị tắt tiếng, trong khi Dall-e 3 làm cho nó trong màu sắc sâu. Cả hai mô hình mô tả một quả táo đỏ có kết cấu tự nhiên. Đối với quả lê, Dall-E 3 giới thiệu sự thay đổi màu sắc với gợi ý về màu cam, trong khi Pear của Deepseek xuất hiện đồng đều hơn.
Ánh sáng ảnh hưởng đến nhận thức màu sắc. Deepseek sử dụng các hiệu ứng ánh sáng ban ngày mềm mại hơn, giữ cho màu sắc thực tế, trong khi Dall-E 3 sử dụng ánh sáng khắc nghiệt hơn và độ tương phản cao hơn, dẫn đến màu sắc sống động nhưng ít tự nhiên hơn. Deepseek (Janus-Pro-7B) thể hiện chủ nghĩa hiện thực màu sắc vượt trội, đặc biệt đối với cốc gốm, trong khi Dall-E 3 ưu tiên cho vẻ ngoài có độ tương phản cao, cách điệu làm biến dạng độ chính xác màu sắc.
Có liên quan
Tôi đã thử nghiệm 10 trình tạo hình ảnh AI và đây là yêu thích của tôi
Nhà sản xuất hình ảnh AI hàng đầu của tôi có thể đã có trên điện thoại của bạn
Phán quyết cuối cùng: Dall · e 3 cho sự sáng tạo, Janus-Pro-7b cho chủ nghĩa hiện thực
Lựa chọn giữa Dall · E 3 và Janus-Pro-7B phụ thuộc vào nhu cầu sáng tạo của bạn. Dall · E 3 cung cấp đầu ra tinh tế với màu sắc rực rỡ cho sự linh hoạt nghệ thuật. Nếu bạn ưu tiên chủ nghĩa hiện thực, định vị không gian chính xác và tuân thủ kịp thời, Janus-Pro-7B tạo ra một phong cách chụp ảnh tự nhiên.
Khám phá thêm từ Phụ Kiện Đỉnh
Đăng ký để nhận các bài đăng mới nhất được gửi đến email của bạn.