Công cụ AI mới của Google Whisk sử dụng hình ảnh làm lời nhắc

Google có thêm một công cụ AI khác để bổ sung vào danh sách này. Whisk là trình tạo hình ảnh của Google Labs cho phép bạn sử dụng hình ảnh hiện có làm lời nhắc. Nhưng đầu ra của nó chỉ ghi lại “bản chất” của hình ảnh ban đầu của bạn thay vì tạo lại nó với các chi tiết mới. Vì vậy, việc động não và hình dung nhanh chóng sẽ tốt hơn việc chỉnh sửa hình ảnh nguồn.

Công ty mô tả Whisk là “một loại công cụ sáng tạo mới”. Màn hình nhập bắt đầu bằng giao diện cơ bản với các đầu vào về kiểu và chủ đề. Giao diện giới thiệu đơn giản này chỉ cho phép bạn chọn từ ba kiểu được xác định trước: nhãn dán, ghim tráng men và thú nhồi bông. Tôi nghi ngờ rằng Google đã tìm thấy ba thứ đó được phép cho loại đầu ra phác thảo thô mà công cụ thử nghiệm lý tưởng nhất ở dạng hiện tại.

Như bạn có thể thấy trong hình trên, nó tạo ra hình ảnh rắn chắc của thú nhồi bông Wilford Brimley. (Điều khoản của Google cấm chụp ảnh những người nổi tiếng, nhưng Wilford đã lẻn qua cổng, dẫn theo Quaker Oats mà không báo cho lính canh.)

Whisk cũng bao gồm một trình chỉnh sửa nâng cao hơn (được tìm thấy bằng cách nhấp vào “Bắt đầu từ đầu” từ màn hình chính). Ở chế độ này, bạn có thể sử dụng văn bản hoặc hình ảnh nguồn theo ba loại: chủ đề, cảnh và phong cách. Ngoài ra còn có một thanh nhập để thêm văn bản để hoàn thiện. Tuy nhiên, ở dạng hiện tại, các điều khiển nâng cao không tạo ra kết quả giống bất kỳ truy vấn nào của tôi.

Ví dụ: hãy xem nỗ lực của tôi để tạo ra ông Brimley quá cố trong cảnh hộp đèn theo phong cách hình ảnh con hải mã nhồi bông mà tôi tìm thấy trên mạng:

Ảnh chụp màn hình của công cụ tạo AI tạo ra hình ảnh một người đàn ông trông hơi giống Wilford Brimley.Ảnh chụp màn hình của công cụ tạo AI tạo ra hình ảnh một người đàn ông trông hơi giống Wilford Brimley.

Google / Ảnh chụp màn hình của Will Shanklin cho Engadget

Whisk phun ra thứ gì đó trông giống như một diễn viên giống Wilford Brimley đang ăn bột yến mạch bên trong khung hộp đèn. Theo những gì tôi có thể nói, anh chàng đó không phải là thú nhồi bông. Vì vậy, rõ ràng là tại sao Google khuyên bạn nên sử dụng công cụ này nhiều hơn để “khám phá trực quan nhanh chóng” và ít sử dụng hơn cho nội dung sẵn sàng sản xuất.

Google thừa nhận rằng Whisk sẽ chỉ rút ra từ “một vài đặc điểm chính” của hình ảnh nguồn của bạn. Công ty cảnh báo: “Ví dụ: đối tượng được tạo có thể có chiều cao, cân nặng, kiểu tóc hoặc màu da khác nhau”.

Để hiểu lý do tại sao, hãy xem mô tả chi tiết của Google về cách thức hoạt động của Whisk. Nó sử dụng mô hình ngôn ngữ Gemini để viết chú thích chi tiết cho hình ảnh nguồn bạn tải lên. Sau đó, nó đưa mô tả đó vào trình tạo hình ảnh Imagen 3. Vì vậy, kết quả là một hình ảnh dựa trên Lời nói của Song Tử về hình ảnh của bạn – không phải hình ảnh nguồn.

Whisk chỉ có ở Mỹ, ít nhất là ở thời điểm hiện tại. Bạn có thể thử nó tại trang Google Labs của dự án.