冯唐在《成事心法》中提到过这样一个观点:「只要你把这 100 个相关的关键词搞清楚,而且每个关键词,你都能给出合理的答案,那么你也可以成为这个领域的专家」。
想要快速了解 AIGC 文生图,从了解下面的 15 个关键词开始吧。
AI,Artificial Intelligence,人工智能
人工智能这个词在大众想象中常常会勾起有关自主思考的机器人和智能机器的画面。但核心上,AI 是关于创建智能算法的学科,目的是执行通常需要人类智慧才能完成的任务。人工智能的概念自 20 世纪中叶以来就已存在,但它是在 1956 年的达特茅斯会议上,由约翰·麦卡锡正式提出的术语。
从那时起的几十年里,AI 已经从理论概念演变成一个涵盖机器学习、神经网络和深度学习等的强大领域。如今,AI 不仅仅是一个研究领域;它已成为我们日常生活中不可或缺的一部分,改变着行业并创造出曾经只存在于科幻小说中的新可能性。
AGI,Artificial General Intelligence,人工通用智能,也称为强人工智能或全能 AI
AGI 指一种具有普遍的认知能力的机器智能,它能在各种领域和任务中表现出与人类相当或更高的效能。与目前的人工智能系统(被称为弱 AI 或专用 AI )不同,这些系统通常设计用来解决特定问题或执行特定任务,AGI 将能够像人类一样学习、理解、推理和应用知识于新的和多样化的情境中。
AGI 的概念和 AI 一起发展,但成为独立研究的重点是在 21 世纪初
AIGC,AI Generated Content,AI 生成内容
AIGC 指的是通过人工智能算法自动创建的内容,这些内容可以包括文字、图像、音频、视频和其它多媒体格式。
现在主要是利用了像生成对抗网络(GANs)和 Transformer 模型等技术,这些工具能够生成逼真和具有创造性的输出。
在文本领域,AIGC体现在自动撰写新闻、小说创作、营销文案编写等;在视觉艺术领域,AIGC 则能够创作出新的图像作品、动画和视频。
AIGC 技术的优势在于其高效性和能够处理大量内容的能力,从而在一定程度上减轻了人类内容创作者的负担,并为他们的工作提供辅助。例如,新闻机构可以利用 AIGC 生成初稿或基于数据的报告,艺术家可以使用 AI 来生成新颖的素材或灵感,而企业可以通过 AIGC 定制个性化的广告内容或提供客户支持。
然而,AIGC 也带来了一些挑战和风险。在版权和创意归属方面,AIGC 生成的内容可能引起版权所有者的争议。此外,AIGC 产生的内容可能被滥用,例如制作虚假新闻或所谓的深度伪造内容,这些都可能对公众信息的真实性和信任造成影响。
尽管存在挑战,AIGC 的未来发展前景依然被广泛看好。随着算法的不断进步和创作工具的日益智能化,AIGC 有望在提高内容创作效率、降低成本以及驱动创新方面发挥重要作用。同时,它也将促进新的艺术形式和娱乐方式的产生,为人类文化和创意表达开辟新的可能性。
图形处理单元 (GPU) 是一种专门设计来处理计算机图形和图像处理任务的芯片。
GPU 的历史可以追溯到 1990 年代初,但是它作为通用计算设备在 21 世纪初开始流行。NVIDIA 在 1999 年推出了市场上第一个真正的GPU,名为 GeForce 256。
GPU 最初是为了加速电脑游戏中的图形渲染而设计的,但它也已经成为现代人工智能和深度学习领域的核心硬件组件。
GPU 的设计理念是处理成千上万的并行任务,这使得它在执行大规模且复杂的计算时特别高效。与 CPU 的少量核心相比,GPU 拥有大量的小核心,它们可以在同一时间处理大量的数据。
GPU 内部的核心可以分为不同的类型,包括着色器核心、纹理单元和渲染输出单元等,共同执行复杂的图形处理操作。这些核心特别适合执行深度学习所需的高度并行的矩阵和向量运算。此外,GPU 的高内存带宽允许快速的数据读取和写入,这对于处理大型深度学习模型和数据集是必需的。
在 AI 应用中,GPU 显著加速了深度学习模型的训练和推理过程。训练过程涉及到数据的前向传播和反向传播算法,用以计算损失函数并且更新网络的权重。这些计算步骤需要重复进行,并且每一步都要处理大量的数据。GPU 可以同时执行这些步骤中的多个操作,从而大大减少了训练时间。
除了硬件上的优势,GPU 制造商还提供了专门优化的软件工具和库,如 NVIDIA 的 CUDA 和 cuDNN,这些工具为深度学习任务提供了额外的加速。这些软件库简化了在 GPU 上编程的过程,使研究人员和开发人员能够更容易地利用 GPU 进行大规模并行计算,而不需要深入了解其底层硬件架构。
无论是在科学研究、游戏渲染、多媒体内容创作还是 AI 和机器学习的推进中,GPU 都已经成为不可或缺的计算工具。它的并行处理能力、高速内存带宽和专用软件库共同推动了当今最前沿技术的发展,使得AI的训练和部署更加快速和高效。随着技术的进步,GPU 在现代计算生态系统中的作用将继续扩大。
DALL-E 是一个由 OpenAI 研发的人工智能系统,能够根据文本描述生成相应的图像。这个名字是对艺术家萨尔瓦多·达利(Salvador Dalí)和动画片《WALL-E》的致敬。
DALL-E 于 2021 年 1 月 5 日由 OpenAI 首次发布;2022 年 4 月,OpenAI 宣布了新版本的DALL-E 2,声称它可以从文本描述中生成照片般逼真的图像,另外还有一个允许对输出进行简单修改的编辑器。2023 年 9 月份发布 DALL・E 3,与 2 相比,它可以利用 ChatGPT 生成提示,然后让模型根据该提示生成图像。
DALL-E 能够生成各种风格的图像,从照相写实主义图像到绘画和表情符号。它还可以「操纵和重新排列」图像中的对象。其创作者指出DALL-E 的一项能力是在没有明确指示的情况下将设计元素正确放置在新颖的作品中
DALL-E 使用了 Transformer 架构,这种架构最初是为了处理自然语言处理任务而设计的。OpenAI 通过将 Transformer 与生成对抗网络(GANs)等图像生成技术结合,使 DALL-E 能够理解文本提示并创造出新颖的、与文本内容相符的图像。
DALL-E 的技术架构基于 GPT-3 的多模态版本,它具备 120 亿个参数,并通过网络上收集的大量文本-图像对进行训练。这种训练使得 DALL-E 能够进行零样本学习,即在没有额外训练的情况下根据描述生成图像。生成的图像随后由 CLIP 模型进行评分和筛选,以提供最高质量的输出。CLIP 自身是一个强大的图像识别系统,它使用了超过 4 亿对图像和文本对进行训练,从而能够将图像与大量文本相关联,并识别出训练集之外的图像内容。
Midjourney 是由 Midjourney 公司开发的一种基于扩散模型的图像生成平台,于 2022 年 7 月进入公测阶段,面向大众开放。
Midjourney 的绘画能力很强,几乎无需 prompt 能力即可得到效果很不错的图,人像、细节方面尤为突出。
与大部分同类服务不同,Midjourney 选择在 Discord 平台上运行,用户无须学习各种烦琐的操作步骤,也无须自行部署,只要在Discord 中用聊天的方式与 Midjourney 的机器人交互就能生成图片。这一平台上手门槛极低,但其生成的图片效果却不输于 DALL·E 和 Stable Diffusion ,于是很快赢得了大量用户。据 Midjourney 的创始人大卫·霍尔兹(David Holz)介绍,仅在发布一个月之后,Midjourney 就已经盈利。
在 2022 年 9 月 5 日,在美国科罗拉多州博览会的年度美术比赛中,一张名为《太空歌剧院》的画作获得了第一名,然而这幅画并非出自人类画家之手,而是由游戏设计师杰森·艾伦(Jason Allen)使用 Midjourney 生成,再经 Photoshop 润色而来。它是首批获得此类奖项的人工智能生成图像之一。
Midjourney 创始人 David Holz 在说到关于 Midjourney 背后的理念时有说到:
MJ 的目标是成为新的人类基础设施,这样才能支撑更多人构建新事物。所以 MJ 的主题是反思、想象和协调。反思自己是谁,想要什么;想象会是什么;协调大家如何抵达。同时也会思考其人性的一面,例如人类通过计算机来想象就能像汽车旅行一样,这意味着什么;又或者人类在想象的过程中以什么方式互动等。
MJ 其实是水。人们误解了人工智能是什么,就像认为其是一只老虎,会吃掉我们。但其实水也很危险,能淹死我们,但流动的河水和老虎完全不同,水是危险的,但是你可以在其中游泳,造船,建造发电站等。水虽然是危险的,但却是文明的驱动力,作为知道如何与水共处的人类,我们能过的更好。水没有意志,也没有恶意,你可以淹死在其中,但并不能应该因此惧怕并禁止水。所以 MJ 试图弄清楚的是,我们如何将其用于人们?我们如何教人们游泳?我们如何造船?我们怎么把它堵起来?我们如何从害怕溺水的人变成未来冲浪的孩子?我们正在制造冲浪板而不是制造水。这才是一些深刻的意义。
困难和有趣是事情的两面,MJ 面临的许多问题无法量化。比如什么是一张「好的狗狗照片」,这很难回答,但也因此有趣。类似的问题还有「什么是好的图像」「人们想从图像中得到什么」「他们是如何沟通的」「他们如何通过文字描绘出他们想要的东西」 —— 这些问题几近哲学,但却很让人喜欢。
关于愿景,希望能以某种方式创造一个更有想象力的世界。因为今天世界最大的问题是信仰崩溃,包括对自己的,对未来的信念。而造成这种问题的主要愿意那就是缺乏想象力,缺乏自己可以成为什么人的想象力,缺乏对未来的想象力。所以想象力才是我们在世界上所需要的东西的重要支柱。所以我想通过 MJ 来将其变成一种可以「扩展人类想象力的力量」
当计算机比 99% 的人类更善于视觉想象时,这意味着什么?这并不意味着我们将停止想象。汽车比人类快,但这并不意味着我们停止步行。当我们远距离运输大量物品时,我们需要发动机,无论是飞机、轮船还是汽车。我们将这项技术视为想象力的引擎。所以这是一个非常积极和人性化的事情。
https://midjourney.com/showcase/
Stable Diffusion 是由 CompVis、Stability AI 和 LAION 的研究人员实现并开源的。从 Stable Diffusion 模型应用用户的角度来看,其核心是根据文本生成图像,可以通过一些技巧,或通过调整用户参数,来改变文本生成图像的过程,从而达到优化最终生成图像的目的。
得益于其卓越的图片生成效果、完全开源的特点以及相对较低的配置需求(可在消费级GPU上运行),在推出后不久它就流行开来,大量开发者以及公司加入它的社区参与共建,同时,还有很多公司基于 Stable Diffusion 推出了自己的 AI 绘画应用。
Stable Diffusion 是 AI 绘画最为重要的开源力量,创业生态的基石
Stable Diffusion 在多个方面表现出色,尤其是在图像质量和生成速度方面。它能够根据复杂的文本描述生成高分辨率和高质量的图像,这在以前的模型中往往难以实现。Stable Diffusion 还能够处理多样化的艺术风格和主题,从现实主义到超现实主义,从肖像画到风景画,甚至是科幻和奇幻的主题。用户可以通过详细的文本提示,引导模型创造出各种各样的视觉内容。
Stable Diffusion 的核心技术包括变分自编码器(VAE)和转换器网络。它通过大规模的图像和文本对数据集进行训练,学习了如何解释文本提示并将其转换为相应的图像。这种结合了自编码器和转换器的架构,不仅使得图像生成过程更为高效,而且还有助于保持生成图像的多样性和创造性。此外,Stable Diffusion 的模型训练采用了强调数据质量和多样性的方法,以确保生成的图像既准确又引人入胜。
OpenAI 成立于 2015 年 12 月,由埃隆·马斯克、萨姆·奥特曼、格雷格·布罗克曼、伊莱亚·萨斯克、约翰·舒尔茨菲尔德等科技行业领袖共同发起。OpenAI 的初衷是作为一个非营利组织,旨在推动和发展友好的人工智能,确保人工智能的发展能够惠及全人类。
在成立之初,OpenAI 提出了一系列雄心勃勃的目标,包括在人工智能领域进行开创性的研究,并且将研究成果公开分享,以促进整个领域的发展。OpenAI 迅速在人工智能研究领域崭露头角,特别是在强化学习和深度学习的应用上取得了显著的成就。
OpenAI 原本是以非营利组织的身份成立的,但在 2019 年初,OpenAI 宣布将采取一种新的「有限利润」公司结构,即 OpenAI LP,这是为了吸引更多的投资以支持其研究和开发。这个结构允许外部投资者投资,但限制了投资回报率。OpenAI LP 的创始投资者包括 Kholsa Ventures、Reid Hoffman 的基金、微软等。
所以,OpenAI 这个美国人工智能研究实验室由非营利组织OpenAI Inc,和其营利组织子公司 OpenAI LP 所组成。
OpenAI 已经推出了多个影响深远的产品和技术,其中包括 GPT 系列、DALL-E 系列、CLIP、Codex等。
除了这些产品,OpenAI 还在多个领域进行研究,包括机器人、强化学习、游戏(如Dota 2中的AI)、自然语言理解和生成等。
Stability AI 是由首席执行官 Emad Mostaque 创立的初创公司。Mostaque 毕业于牛津大学,拥有数学和计算机科学硕士学位(据福布斯的爆料说,其仅为学士学位)。他曾在多家对冲基金担任分析师,后来转向更加公众化的工作。Mostaque 在 2020 年创立了 Stability AI,旨在解决开源人工智能社区中的「组织」问题。
Stability AI 拥有超过 4,000 个 Nvidia A100 GPU 的集群,用于训练 AI 系统,包括 Stable Diffusion。然而,维护这个集群非常昂贵,据报道,Stability AI 的运营和云计算支出超过了 5000 万美元。但是,Mostaque 反复表示,公司的研发将使其能够更高效地训练模型。
除了 Stable Diffusion,Stability AI 还可能提供包括自然语言处理工具、数据分析服务以及 AI 模型定制和咨询服务在内的多种产品和解决方案。公司倡导开源精神,通过提供开源工具和资源,鼓励技术社区的参与与合作,以促进人工智能技术的创新和发展。
为了支持更大规模的用户定制版本的 Stable Diffusion,并投资更多的超级计算能力,Stability AI 在最近一轮融资中筹集了1.01 亿美元。这笔资金还将用于招聘更多员工,Mostaque 预计在未来一年内将员工规模从 100 人增加到 300 人。此外,Stability AI 还计划开发其他可商业化的项目,包括用于生成音频、语言、3D 和视频的 AI 模型。
VAE,Variational Auto-Encoder,变分自编码器
VAE 是一种深度学习模型,用于学习输入数据的概率分布,并生成新的数据样本。它由两大部分组成:编码器将输入数据转换为潜在表示,解码器则将这些潜在表示转换回原始数据空间。VAE 的目标是通过最小化重构误差和正则化潜在空间来训练模型,从而能够生成与训练数据相似的新样本。
VAE 是在自编码器的基础上发展而来,它引入了概率图模型的概念,使得生成的数据能够具有多样性和连续性。自从 2013 年由 Kingma 和 Welling 提出以来,VAE 成为了无监督学习和生成模型领域的一个重要里程碑,催生了一系列相关研究和更复杂的模型变种。
VAE 模型是一个经典的生成式模型,在传统深度学习时代,GAN 的风头完全盖过了 VAE,但 VAE 简洁稳定的 Encoder-Decoder 架构,以及能够高效提取数据 Latent 特征和 Latent 特征像素级重建的关键能力,让其跨过了周期,在 AIGC 时代重新繁荣。
VAE 在 AIGC 领域中非常有用,尤其是在图像生成、文本生成、音乐创作等创造性任务中。它的特点是能够创建一个平滑且连续的潜在空间,使得我们可以通过遍历这个空间来生成具有细微变化的数据样本。此外,VAE 的正则化特性也使其在处理复杂数据分布时具有鲁棒性,并且能够有效防止过拟合。
技术上,VAE 的核心是基于神经网络的编解码器架构。编码器网络将数据映射到潜在空间的参数(均值和方差),而解码器网络则从潜在空间中采样点并重构数据。这个过程中,VAE 使用变分推断来逼近真实数据的概率分布,并通过一种特殊的损失函数(结合重构损失和KL散度)来训练网络。
CLIP,Contrastive Language-Image Pre-training,对比图文预训练模型
CLIP 是 OpenAI 开发的一种多模态深度学习模型,设计用来理解图像内容及其对应的文本描述。通过将图像与文本匹配,CLIP 学会了识别图像中的物体、场景和动作,并理解相关的自然语言描述,如标签、说明和标题。
CLIP 包含两个主要部分:一个图像编码器和一个文本编码器。这两部分编码器在一个统一的向量空间内进行对比学习,以便最小化匹配文本和图像对之间的距离。这种方式允许 CLIP 在视觉和语言任务上表现出色。
CLIP 通过对比学习的方法进行预训练,学习了大量图像和文本对的共同表示。它超越了传统的图像分类模型,因为它不仅能够识别图像内容,还能理解与之相关的复杂文本信息。
CLIP 的主要特点是其对抗学习方式,类似于生成对抗网络(GAN)。在训练过程中,图像编码器致力于最小化匹配的文本和图像之间的距离,而文本编码器则尝试最大化它们之间的距离。这种方法有助于模型学习到更丰富、更准确的图像和文本表示。CLIP 在各种图像分类任务上都表现出色,并能够理解图像中的复杂概念,这使得它在多种视觉应用中非常有用。
CLIP 的应用非常广泛,包括但不限于图像检索、视觉问答、视觉导航以及图像生成。此外,基于 CLIP 的原理,OpenAI 还开发了 DALL-E 模型,该模型能够根据文本描述生成相应的图像。
Diffusion 模型是一种生成模型,用于在人工智能生成内容(AIGC)中创建高质量的图像、音频或其他数据形式。
Diffusion Model 的灵感来自 non-equilibrium thermodynamics (非平衡热力学), 理论首先定义扩散步骤的马尔可夫链,缓慢地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声中构造所需的数据样本。
与传统的生成模型如 GANs 不同, Diffusion 模型通过模拟数据的概率分布来生成新的实例。这些模型从一个随机噪声分布开始,逐渐引入结构,最终生成与训练数据类似的样本。扩散模型是通过固定过程学习,并且隐空间具有比较高的维度。
Diffusion模型建立在去噪自编码器等前期工作的基础上,并因其在生成高质量样本方面的卓越性能而受到关注。与容易出现训练困难和模式崩溃的生成对抗网络(GANs)相比,Diffusion模型的训练过程更加稳定,能够更可靠地生成多样化的高质量内容。
技术上,Diffusion模型包含正向扩散过程和逆向扩散过程。正向过程逐步加入噪声,直至数据完全随机化;而逆向过程则是学习如何从随机噪声中重建数据,这是通过训练一个神经网络来实现的,它能够在每一步预测并减少噪声,逐渐恢复出清晰的数据。
Diffusion 模型在过去几年中得到了快速发展,部分原因是它们在生成高质量样本方面的能力,尤其是在图像和音频生成上。它们在质量和多样性方面逐渐超过了 GANs,这是因为 Diffusion 模型在训练过程中更加稳定,并且它们生成数据的方式更加符合数据的内在分布。
Diffusion 模型在多种场景下都有应用,例如在图像生成领域,可以创造出不存在的逼真物体、场景和人物图像;在文本到图像的合成中,可以根据文本描述生成相应的图像;还可以用于音频合成,生成音乐和语音;或用于数据增强和图像超分辨率等领域。
Disco Diffusion 是一个开源项目,它是一种结合了多种人工智能技术的扩散模型,旨在将文本描述转换为详细的图像。它通过理解语言提示,并将这些提示映射到丰富的视觉表现上,实现了从抽象概念到具体图像的创造性转换。该模型可以接受复杂的文本输入并生成与之相匹配的高质量图像,使用户能够直观地表达和实现他们的创意构想。
Disco Diffusion 的发展是建立在深度学习和生成模型领域的一系列创新之上的。最初的扩散模型在生成逼真图像方面已经取得了突破,但当结合了理解文本和图像关系的 CLIP 模型时,这些生成模型的能力得到了极大的扩展。Disco Diffusion 是这一进展的产物,它不仅继承了先前模型生成高质量图像的能力,还加入了对文本的理解,从而实现了更为直观和创造性的图像生成。
Disco Diffusion 的技术架构是基于扩散模型的,这是一种逐步引入并去除噪声以生成数据的方法。在这个基础上,Disco Diffusion 集成了 OpenAI 的 CLIP 模型,后者训练用于理解图像内容与自然语言描述之间的关联。该模型可能还结合了类似于生成对抗网络(GANs)的组件来提升最终图像的质量,以及变分自编码器(VAEs)来增强图像的多样性和创意表达。
Disco Diffusion 的主要特点是其能够将文本描述转化为高分辨率、高质量的图像。它通过灵活地理解和应用文本提示,结合了随机性和算法控制,生成独一无二的艺术作品。与传统的生成模型相比,Disco Diffusion 在保留图像真实感的同时,提供了更丰富的细节和更深层的创造性探索,使其成为 AIGC 领域中的一个创新和有影响力的工具。
Disco Diffusion 在艺术创作、媒体制作、设计和教育等多个领域都有广泛的应用。艺术家可以使用它来将他们的诗歌或故事变成视觉艺术作品;设计师可以通过它快速生成设计概念图;媒体制作者可以利用它为视频或游戏创造复杂的背景;教育者可以用它来激发学生的创造力并解释抽象概念。
Imagen 是 2022 年 5 月 Google Brain 团队研发的一个先进的文本到图像生成系统,它通过深度学习模型将文字描述转换为视觉图像。这种模型的核心功能是捕捉和解析人类语言中的复杂概念,并将这些概念以图像的形式表现出来,生成与文本描述高度一致且视觉上引人入胜的图像。
根据发布在 arXiv 的研究论文中,Imagen 使用了 Transformer 语言模型将文本转换成嵌入向量序列,三个连续的扩散模型将这些向量转换成高清图片。研究团队还开发了 U-Net 改进型扩散模型(Efficient U-Net)以及新的评估工具 DrawBench。Imagen 在 COCO 基准上取得了 7.27 的 FID 分数,优于 DALL-E 2。
与使用图像-文本数据集训练不同,Imagen 仅使用文本编码器(如T5)来处理输入文本。然后,扩散模型将嵌入向量转换为图像,通过迭代去噪过程生成高质量图片。
在 2023 年底 Google 发布 Imagen 2。Imagen 2 最与众不同之处在于,它能够以惊人的准确性,理解复杂抽象的概念,然后把这个概念可视化,细腻之程度令人惊叹!
Imagen 2 的核心,还是复杂的神经网络架构。经过微调的 Transformer 模型,在文本理解和图像合成上,都表现出了无与伦比的性能。
SDXL,Stable Diffusion XL,该模型是在 2022 年 AIGC 元年后推出的。其开发历程包括从 0.9 测试版到基于用户反馈的1.0正式版的逐步迭代,不断优化以提高图像质量。
SDXL 是 Stable Diffusion 模型的进阶版,由 Stability AI 发布。这个模型通过双阶段扩散过程,即 Base 和 Refiner 模型,提供了高分辨率的图像生成和精细化处理。SDXL 特别适用于要求高细节图像的应用场景,如 AI 绘画和高级设计任务。
与原版 Stable Diffusion 相比,SDXL 引入了多项技术优化。其 U-Net 参数量显著增加,达到 2.6B,显著提高了模型的学习和图像细节处理能力。Refiner 模型的加入进一步提高了图像的精细度,而新的训练技巧,如多尺度训练,优化了整体模型性能。
当输入是图片时,Stable Diffusion XL 和 Stable Diffusion 一样,首先会使用 VAE 的 Encoder 结构将输入图像转换为Latent 特征,然后 U-Net 不断对 Latent 特征进行优化,最后使用 VAE 的 Decoder 结构将 Latent 特征重建出像素级图像。除了提取 Latent 特征和图像的像素级重建外,VAE 还可以改进生成图像中的高频细节,小物体特征和整体图像色彩。
当 Stable Diffusion XL 的输入是文字时,这时我们不需要 VAE 的 Encoder 结构,只需要 Decoder 进行图像重建。
Stable Diffusion XL 使用了和之前 Stable Diffusion 系列一样的 VAE 结构(KL-f8),但在训练中选择了更大的 Batch-Size(256 vs 9),并且对模型进行指数滑动平均操作(EMA,exponential moving average),EMA 对模型的参数做平均,从而提高性能并增加模型鲁棒性。