近年来,随着人工智能技术的快速发展,文本生成图片(Text-to-Image)技术也取得了重大突破。目前 Midjourney
和 Stable-Diffusion
是两款最受欢迎的文生图软件。
Midjourney 通过简单的文本描述就能生成具有独特艺术风格的图像,可用于创作海报、插画等。而 Stable Diffusion 则以其精细纹理和细节而闻名,更贴近照片般的效果。尽管这两者已可根据文字创作出惊艳的视觉效果,但仍存在可控性有限、难以处理抽象概念等问题。此外,这两款都需要使用者了解很多精巧的 Prompt 技巧,比如指定风格,特效等。
最近,OpenAI 宣布将在 ChatGPT 中融合最新的文生图模型 DALL·E 3,预计 10 月份上线。不过放出了一个效果视频,从视频看,真的很值得期待。先来看一下官网放出的片段吧:
玩过 Midjourney 和 Stable Diffusion 的都知道,这两个需要很专业的 Prompt 技巧才能生成想要的图片。通过直白的文字描述,可能也会生成精美的图片,但不一定是你想要的“场景”。Midjourney 有专门的提示教程来教你生成想要的图片,
而 DALL·E 则直接打破这点,不需要专业的提示词,只用文字描述想要的场景即可。
DALL·E 3 is now in research preview, and will be available to ChatGPT Plus and Enterprise customers in October, via the API and in Labs later this fall.
Modern text-to-image systems have a tendency to ignore words or descriptions, forcing users to learn prompt engineering. DALL·E 3 represents a leap forward in our ability to generate images that exactly adhere to the text you provide.
官方也专门提供了一个例子:
可以看到描述中的很多关键细节,在图片中都有不错的体现。考虑到 OpenAI 在文本理解上的绝对实力,DALL·E 3 有这个绘图能力也是可以解释的通的。
在 ChatGPT 中,DALL·E 3 的能力得到了原生的融合。当您提出一个创意或想法时,ChatGPT 会自动为 DALL·E 3 生成精心定制的详细提示,从而精准地将您的创意转化为视觉图像。如果生成的图像在某些方面稍有不符,您只需用简短的几句话指示,ChatGPT 就能迅速进行微调,以满足您的具体需求。
演示视频中,先是生成了一个厉害的向日葵刺猬,然后想给它起一个名字 Larry ,这里其实没有很好的生成名字。不过接着提示:
Can you show me Larry! ‘s house?
于是加了一个房子,并且邮箱上有一个名字了!
这种能力在其他的文生图 AI 里是没有的,之前就一直想对生成的图片接着做一些修改,但是效果都很差。不止可以修改图片,ChatGPT 还可以接着聊天,让 AI 给你提供一些图片相关的灵感。比如可以接着让 ChatGPT 解释为啥 Larry 如此可爱,会知道原来 Larry 有一颗善良的心,很喜欢助人为乐。接着让它继续画图,来表现 Larry 的助人为乐,提示词:
Awwww.. can you show me Larry being “kind hearted”?
于是来了一个能表现 Larry 友好的图片了:
根据放出来的视频,这里的生成速度也是很快的,几乎是秒生成。另外,Plus 用户可以直接使用,不用额外花钱。相比 Midjourney 的订阅费,OpenAI 的 20$ 一个月可真是太划算了。
其他文生图一般只有英文效果很好,这里得益于 ChatGPT 强大的语言能力,可以用任何语言来描述想生成图片的内容,真的是太方便了。
ChatGPT 和 DALL·E 3 强强联合后,可以用在很多地方了。我能想象到的有:
随着这种多模态技术的不断发展,一些传统的职业,如美工和设计师,可能需要重新思考他们的角色和价值了。
最后,十分期待 10 月份(2023年)能在 ChatGPT 上用到 DALL·E 3!