Binance Square
图像生成
441 次浏览
2 个内容
热门
最新内容
LIVE
LIVE
奔跑财经-FinaceRun
--
Nvidia 将 AI 图像生成方法缩小到 WhatsApp 消息的大小Perfusion,Nvidia 针对 AI 图像生成高存储需求的解决方案 英伟达研究人员开发了一种新的人工智能图像生成技术,可以实现高度定制的文本到图像模型,而存储需求却很小。 根据arXiv 上发表的一篇论文,所提出的名为“ Perfusion ”的方法可以将新的视觉概念添加到现有模型中,每个概念仅使用 100KB 的参数。 资料来源:Nvidia 研究部 正如该论文的作者所描述的,Perfusion 的工作原理是“对文本到图像模型的内部表示进行小幅更新”。 更具体地说,它对模型中将文本描述与生成的视觉特征连接起来的部分进行了仔细计算的更改,对交叉注意力层应用较小的参数化编辑允许 Perfusion 修改文本输入转换为图像的方式。 因此,Perfusion 并没有完全从头开始重新训练文本到图像模型。相反,它稍微调整了将文字转化为图片的数学转换。这使得它可以自定义模型以产生新的视觉概念,而无需太多的计算能力或模型重新训练。 灌注法仅需要100kb。 与竞争技术相比,灌注以少两到五个数量级的参数实现了这些结果。 虽然其他方法每个概念可能需要数百兆字节到千兆字节的存储空间,但 Perfusion 仅需要 100KB,与小图像、文本或 WhatsApp 消息相当。 这种大幅减少可以使部署高度定制的人工智能艺术模型变得更加可行。 据合著者盖尔·切奇克 (Gal Chechik) 称, “灌注不仅可以以模型大小的一小部分实现更准确的个性化,而且还可以使用更复杂的提示以及在推理时结合单独学习的概念。” 该方法可以使用分别学习的“泰迪熊”和“茶壶”的个性化概念来生成创造性的图像,例如“在茶壶中航行的泰迪熊”。 资料来源:Nvidia 研究部 高效个性化的可能性 Perfusion 具有独特的功能,每个概念仅使用 100KB 即可实现 AI 模型的个性化,从而开辟了无数潜在的应用: 这种方法为个人轻松地使用新对象、场景或样式定制文本到图像模型铺平了道路,从而消除了昂贵的重新训练的需要。Perfusion 每个概念 100KB 参数更新的效率允许在消费设备上实现使用该技术定制的模型,从而实现设备上图像创建。 这项技术最引人注目的方面之一是它为围绕人工智能模型的共享和协作提供了潜力。用户可以将他们的个性化概念作为小型附加文件共享,从而避免共享繁琐的模型检查点。 在分发方面,针对特定组织量身定制的模型可以更轻松地在边缘传播或部署。随着文本到图像生成的实践继续变得更加主流,在不牺牲功能的情况下实现如此显着的尺寸减小的能力将是至关重要的。 然而,值得注意的是,Perfusion 主要提供模型个性化而不是完整的生成能力本身。 限制和发布 虽然很有希望,但该技术确实有一些局限性。作者指出,训练期间的关键选择有时可能会过度概括一个概念。仍需要更多的研究来将多个个性化想法无缝地结合到单个图像中。 作者指出,Perfusion 的代码将在他们的项目页面上提供,表明有意在未来公开发布该方法,可能正在等待同行评审和官方研究出版物。然而,由于该作品目前仅在 arXiv 上发布,因此公开可用性的具体细节仍不清楚。在这个平台上,研究人员可以在正式同行评审和在期刊/会议上发表之前上传论文。 虽然 Perfusion 的代码尚未访问,但作者提出的计划意味着,这种高效、个性化的人工智能系统可能会在适当的时候落入开发人员、行业和创作者的手中。 随着 MidJourney、DALL-E 2 和 Stable Diffusion 等 AI 艺术平台的发展,允许更大用户控制的技术对于现实世界的部署可能至关重要。通过 Perfusion 等巧妙的效率改进,Nvidia 似乎决心在快速发展的环境中保持其优势。 #Nvidia  #图像生成

Nvidia 将 AI 图像生成方法缩小到 WhatsApp 消息的大小

Perfusion,Nvidia 针对 AI 图像生成高存储需求的解决方案

英伟达研究人员开发了一种新的人工智能图像生成技术,可以实现高度定制的文本到图像模型,而存储需求却很小。

根据arXiv 上发表的一篇论文,所提出的名为“ Perfusion ”的方法可以将新的视觉概念添加到现有模型中,每个概念仅使用 100KB 的参数。

资料来源:Nvidia 研究部

正如该论文的作者所描述的,Perfusion 的工作原理是“对文本到图像模型的内部表示进行小幅更新”。

更具体地说,它对模型中将文本描述与生成的视觉特征连接起来的部分进行了仔细计算的更改,对交叉注意力层应用较小的参数化编辑允许 Perfusion 修改文本输入转换为图像的方式。

因此,Perfusion 并没有完全从头开始重新训练文本到图像模型。相反,它稍微调整了将文字转化为图片的数学转换。这使得它可以自定义模型以产生新的视觉概念,而无需太多的计算能力或模型重新训练。

灌注法仅需要100kb。

与竞争技术相比,灌注以少两到五个数量级的参数实现了这些结果。

虽然其他方法每个概念可能需要数百兆字节到千兆字节的存储空间,但 Perfusion 仅需要 100KB,与小图像、文本或 WhatsApp 消息相当。

这种大幅减少可以使部署高度定制的人工智能艺术模型变得更加可行。

据合著者盖尔·切奇克 (Gal Chechik) 称,

“灌注不仅可以以模型大小的一小部分实现更准确的个性化,而且还可以使用更复杂的提示以及在推理时结合单独学习的概念。”

该方法可以使用分别学习的“泰迪熊”和“茶壶”的个性化概念来生成创造性的图像,例如“在茶壶中航行的泰迪熊”。

资料来源:Nvidia 研究部

高效个性化的可能性

Perfusion 具有独特的功能,每个概念仅使用 100KB 即可实现 AI 模型的个性化,从而开辟了无数潜在的应用:

这种方法为个人轻松地使用新对象、场景或样式定制文本到图像模型铺平了道路,从而消除了昂贵的重新训练的需要。Perfusion 每个概念 100KB 参数更新的效率允许在消费设备上实现使用该技术定制的模型,从而实现设备上图像创建。

这项技术最引人注目的方面之一是它为围绕人工智能模型的共享和协作提供了潜力。用户可以将他们的个性化概念作为小型附加文件共享,从而避免共享繁琐的模型检查点。

在分发方面,针对特定组织量身定制的模型可以更轻松地在边缘传播或部署。随着文本到图像生成的实践继续变得更加主流,在不牺牲功能的情况下实现如此显着的尺寸减小的能力将是至关重要的。

然而,值得注意的是,Perfusion 主要提供模型个性化而不是完整的生成能力本身。

限制和发布

虽然很有希望,但该技术确实有一些局限性。作者指出,训练期间的关键选择有时可能会过度概括一个概念。仍需要更多的研究来将多个个性化想法无缝地结合到单个图像中。

作者指出,Perfusion 的代码将在他们的项目页面上提供,表明有意在未来公开发布该方法,可能正在等待同行评审和官方研究出版物。然而,由于该作品目前仅在 arXiv 上发布,因此公开可用性的具体细节仍不清楚。在这个平台上,研究人员可以在正式同行评审和在期刊/会议上发表之前上传论文。

虽然 Perfusion 的代码尚未访问,但作者提出的计划意味着,这种高效、个性化的人工智能系统可能会在适当的时候落入开发人员、行业和创作者的手中。

随着 MidJourney、DALL-E 2 和 Stable Diffusion 等 AI 艺术平台的发展,允许更大用户控制的技术对于现实世界的部署可能至关重要。通过 Perfusion 等巧妙的效率改进,Nvidia 似乎决心在快速发展的环境中保持其优势。

#Nvidia  #图像生成
未经审查且“疯狂”:OpenAI 的秘密图像生成器一探究竟未发布的生成成像工具并不回避裸露和血腥,并引起了 MidJourney 的注意。 使用 AI创建的图像 过去几个月,OpenAI 一直在私下测试其生成人工智能 (AI) 成像模型的新版本,YouTube 用户 MattVidPro 泄露的早期样本显示,该模型的性能优于之前的图像生成器。 Matt在 YouTube 上发布的预览中表示:“非常令人兴奋,这让我们以前见过的任何东西都大吃一惊,太疯狂了。Midjourney 无法在这个级别上竞争,我什至不认为 Midjourney 第六版能够在这个级别上竞争。” 不过,不要指望很快就能尝试。访问权限极其有限。 未发布的模型可能是 DALL-E 2 的升级版,并且正在通过 ChatGPT-4 内的邀请预览进行测试。Matt 表示,全球只有大约 400 人可以使用这个新的 OpenAI 图像生成器。 虽然图像样本有限,但展示了人工智能的高级技能。它通过模仿真实照片的照明和反射生成清晰的图像,该模型再现了细致到可见笔触的绘画细节。它还在生成的产品上完美地重新创建了“士力架”等品牌名称和赛百味等知名品牌的徽标,并在渲染文本中实现了相当好的拼写。 虽然当前的图像生成器难以实现连贯的双手,但这些示例显示了真实且比例适当的双手,背景也比竞争的人工智能系统更有说服力。 OpenAI 显然删除了其安全过滤器以测试该模型的全部潜力。用户表示,它可以毫不犹豫地生成暴力内容和裸露内容。然而,考虑到 OpenAI 对 NSFW 内容的立场,按照这样的标准发布官方公开版本的可能性极小。 Matt观察到,“这是 OpenAI,所以你可以打赌,他们会像在发布之前对所有事情所做的那样,把它关掉。” 一些专家批评 OpenAI为了避免潜在的争议而“简化”其模型。一些研究甚至表明,OpenAI 训练的 ChatGPT在其输出中具有强烈的政治偏见。 尽管如此,样品中所显示的一致质量是一个飞跃,它强调了 OpenAI 为提高生成式人工智能能力所做的持续努力。该公司可能会在今年晚些时候透露更多进展情况,特别是如果图像识别和生成领域有助于提高其明星产品的稳健性:能够在一次提示中理解文本、图像和草稿的多模式 GPT-4 。 目前,该技术仍然仅限于极少数用户的封闭测试。 随着模型的不断改进,人工与真实之间的界限变得更加模糊。虽然这让很多人兴奋,但对滥用的担忧仍将持续存在,负责任地构建这项技术仍然是一项紧迫的挑战。 #OpenAI  #图像生成

未经审查且“疯狂”:OpenAI 的秘密图像生成器一探究竟

未发布的生成成像工具并不回避裸露和血腥,并引起了 MidJourney 的注意。

使用 AI创建的图像

过去几个月,OpenAI 一直在私下测试其生成人工智能 (AI) 成像模型的新版本,YouTube 用户 MattVidPro 泄露的早期样本显示,该模型的性能优于之前的图像生成器。

Matt在 YouTube 上发布的预览中表示:“非常令人兴奋,这让我们以前见过的任何东西都大吃一惊,太疯狂了。Midjourney 无法在这个级别上竞争,我什至不认为 Midjourney 第六版能够在这个级别上竞争。”

不过,不要指望很快就能尝试。访问权限极其有限。

未发布的模型可能是 DALL-E 2 的升级版,并且正在通过 ChatGPT-4 内的邀请预览进行测试。Matt 表示,全球只有大约 400 人可以使用这个新的 OpenAI 图像生成器。

虽然图像样本有限,但展示了人工智能的高级技能。它通过模仿真实照片的照明和反射生成清晰的图像,该模型再现了细致到可见笔触的绘画细节。它还在生成的产品上完美地重新创建了“士力架”等品牌名称和赛百味等知名品牌的徽标,并在渲染文本中实现了相当好的拼写。

虽然当前的图像生成器难以实现连贯的双手,但这些示例显示了真实且比例适当的双手,背景也比竞争的人工智能系统更有说服力。

OpenAI 显然删除了其安全过滤器以测试该模型的全部潜力。用户表示,它可以毫不犹豫地生成暴力内容和裸露内容。然而,考虑到 OpenAI 对 NSFW 内容的立场,按照这样的标准发布官方公开版本的可能性极小。

Matt观察到,“这是 OpenAI,所以你可以打赌,他们会像在发布之前对所有事情所做的那样,把它关掉。”

一些专家批评 OpenAI为了避免潜在的争议而“简化”其模型。一些研究甚至表明,OpenAI 训练的 ChatGPT在其输出中具有强烈的政治偏见。

尽管如此,样品中所显示的一致质量是一个飞跃,它强调了 OpenAI 为提高生成式人工智能能力所做的持续努力。该公司可能会在今年晚些时候透露更多进展情况,特别是如果图像识别和生成领域有助于提高其明星产品的稳健性:能够在一次提示中理解文本、图像和草稿的多模式 GPT-4 。

目前,该技术仍然仅限于极少数用户的封闭测试。

随着模型的不断改进,人工与真实之间的界限变得更加模糊。虽然这让很多人兴奋,但对滥用的担忧仍将持续存在,负责任地构建这项技术仍然是一项紧迫的挑战。

#OpenAI  #图像生成
浏览最新的加密货币新闻
⚡️ 参与加密货币领域的最新讨论
💬 与喜爱的创作者互动
👍 查看感兴趣的内容
邮箱/手机号码