谷歌推出了一款新的人工智能工具 Whisk,它可以使用其他图像作为提示来生成图像。与严重依赖长篇详细文本描述的旧工具不同,据报道,Whisk 允许用户上传图像来定义他们想要生成的主题、场景和风格。

该工具还支持为每项输入添加多张图片,为用户提供了极大的实验灵活性。如果您没有图片,Google 会提供一个骰子图标,可自动用视觉效果填充提示。

然而,这些占位符图像似乎也是AI生成的。用户也可以添加一些文本来微调输出,但文本框是可选的。根据公司介绍,Whisk仍然可以在没有它的情况下产生结果。

该工具随后生成一张图像和一个用于创建的相应文本提示。如果你喜欢结果,可以收藏或下载。如果不喜欢,可以通过编辑基础文本提示来进行调整或生成完全新的内容。

Imagen 3为谷歌的Whisk AI提供支持

谷歌表示Whisk是为“快速视觉探索而建,而不是像素完美的编辑。”因此,虽然使用起来灵活且有趣,但它不会每次都提供完美的结果。公司承认该工具可能“偏离目标”,这就是为什么他们允许快速编辑以提高准确性。

Whisk运行于谷歌最新的Imagen 3图像生成模型,谷歌也在推出该工具时宣布了这一点。Imagen 3为Whisk提供支持,以生成其AI生成的结果,底层技术据称提高了输出的整体质量。

除了Imagen 3,谷歌还推出了Veo 2,这是一款升级版的视频生成模型。Veo 2据报道对摄影有更好的理解,并修复了常见问题,比如虚构特征——例如,经典的AI错误多余的手指。

该模型首先在谷歌的VideoFX平台上推出,该平台仍在谷歌实验室进行有限测试。公司表示,Veo 2最终将在2025年扩展到YouTube Shorts和其他谷歌产品。

目前,该公司将Whisk定位为一种探索工具,而不是专业编辑解决方案。它是否能够与OpenAI的DALL-E等竞争对手抗衡还有待观察。

一步一步的系统,帮助你在90天内开启Web3职业生涯并获得高薪加密工作。