GPT-4 于 2023 年 3 月 14 日发布。目前 GPT-4 没有免费版本,仅向 ChatGPT Plus 的付费订阅用户及企业和开发者开放。
如比尔盖茨在 reddit 回答网友提问时回答时说的:「AI is the big one. I don’t think Web3 was that big or that metaverse stuff alone was revolutionary but AI is quite revolutionary」,我们可能又到了一个历史性的转折点。
现在各家企业,包括 Google、微软,以及国内的 BAT 等大厂都在大量投入,一些中小厂也在垂直的应用赛道拔城攻寨,作为一个技术管理者一定会面对这样一个洪流,在洪流之中我们需要注意什么呢?
如果你所在企业要上线 AIGC 的产品,或者已经上线 AIGC 的产品,以下的五个重要事项需要特别注意。
安全是产品的生命线,特别是对于 AIGC 产品来说,没有安全守护,不仅仅是产品玩完,甚至会连累其它产品甚至公司存续。
这里内容安全的定义是指 AIGC 生成内容影响产品本身存在的领域。
在国内与内容安全相关的场景包括涉政、色情、性感(性感和色情在内容安全中是不一样的)、暴恐、违禁、恶心、涉价值观等。其中每一项都需要检测,部分项出现问题甚至会关站和约谈。
在 chatGPT 大火后,网络上有各种和 chatGPT 相关的段子,特别是一些场景下,对输入措辞的调整或多次尝试相同的提示很敏感,只要稍作改写,就可以以另一种方式回答出来。
据最新发布的 GPT-4 的 OpenAI 工程师们们说,GPT-4 的训练在去年 8 月完成,剩下的时间都在进行微调提升,以及最重要的去除危险内容生成的工作。由此可见内容安全是一个多么重要且复杂的事情。
GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由 GPT-4 的零样本分类器提供的,它判断安全边界和安全相关 prompt 的完成方式。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)。这是 OpenAI 的工程师在训练 GPT-4 时做的一些努力。
GPT-4 现在是闭源的,模型本身我们做不了什么。
除了 GPT-4 ,还有许多的 AIGC 的模型,并且更多的人只是作为一个应用开发方来实现一些功能。
除了在训练时对模型本身危险内容生成的去除,在技术应用侧,我们可以考虑如下一些方面:
在互联网行业,内容安全一直面临着挑战,各内容平台不断提升对于内容安全的治理能力,随着 AIGC 的发展,内容爆炸式的增长,内容安全的挑战将会更大。
在对 chatGPT 深度体验后,往往会生成一种「一本正经的胡说八道」的感觉,甚至它会编造一些事实或者不存在的东西出来回答。对于模棱两可的问题,chatGPT 通常会猜测用户的意图,而非让用户澄清问题。
举个例子,我在 chatGPT-3.5 中问: 「有没有什么现成的库可以检测图片清晰度,对原图和 avif 图进行清晰度检测」,它回答了三个库可以,Sharp、ImageJS和 Pica
我接着问:「 Pica 的什么方法可以检测」,它告诉我 quality 方法可以,并给出了详细的示例,从代码上来看,像那么回事,并且代码前面的引入,输入的格式转化都没有问题,有问题的只是没有 quality 方法而已。
又或者你随便取一个书名,问他是谁写的,比如我的问题是: 「《不想开车的夜晚,我在听歌》这本书是谁写的」,它的回答是:「 “不想开车的夜晚,我在听歌” 这本书的作者是中国作家韩寒。这本书是一本散文集,收录了韩寒的一些散文作品,其中包括《像少年啦飞驰》、《三重门》、《我所理解的生活》等等。这本书出版于2002年,是韩寒的第一本散文集。韩寒是中国当代著名的作家、音乐人、导演和投资人,他的作品包括小说、散文、音乐和电影等多个领域,深受年轻读者和网民的喜爱和追捧。」
除了 chatGPT 以外,图片或视频生成领域有更多的虚假信息,如诈骗团队利用 DeepFake,通过截取马斯克在 TED 采访的视频,并为其配音,为的就是推出 BitVex 比特币诈骗平台。诈骗分子还伪造了方舟投资(Ark Invest)CEO 凯瑟琳·伍德、以太坊联合创始人查尔斯·霍斯金森等多位币圈名人推荐BitVex的视频。另外,2021 年初光是靠 DeepFake 技术换脸马斯克喊出「给我一个币,我给你两个」的骗局在一周内就达到 24.3 万美元,诈骗总额高达 3000 万美元(约人民币2亿)。
诈骗团伙以及不法份子使用 AIGC 恶意使用,甚至滥用,引发新型的诈骗、色情、诽谤、假冒身份等违法犯罪行为。 AIGC 让其效率更高,鉴别难度更大。这样可能会引发人们对于个人身份的盗用,冒用,以及在网络上,或在元宇宙中数字身份安全的担忧。
以上是在 GPT-4 出现之前,在 GPT-4 出来后,情况有所改变,如前面个问题:「《不想开车的夜晚,我在听歌》这本书是谁写的」,GPT-4 的回答是:「很抱歉,我无法找到与《不想开车的夜晚,我在听歌》这本书相关的作者信息。这本书可能不存在,或者没有足够的知名度。如果您能提供更多信息,我会尽力帮助您找到相关内容。」
技术在进步,会越来越好,但是我们仍然需要结合实名制、内容安全检测等手段,我们只能尽量减少虚假信息在平台的产生和传播。
现在 AIGC 内容生成对于我们来说是一个黑盒子,我们无法完全预知其过程和结果。我们所能做的是控制模型的参数和模型的数据输入,这里可能会导致安全问题。
算法的公正性和透明度。AI 系统的决策往往是基于其算法的结果,但是,如果这些算法存在偏见或不公平的因素,将会对用户的权利和利益造成损害。因此,AIGC 需要确保 AI 算法的公正性和透明度,避免对用户造成不公平的影响。
除了模型本身的安全问题,对于模型衍生的个人隐私保护,数据安全和标准,甚至后面可能会出现的模型病毒等等都需要持续关注起来。
AIGC 产品在面对大量用户使用时,可能会面临以下容量问题:
在应对容量问题时,AIGC 产品需要全面优化和规划系统架构、数据处理和存储、计算和运维等方面,以实现产品的高可靠性和高性能。同时,需要持续跟进技术发展和创新,以保持 AIGC 产品的竞争力和创新性。
基于这些考虑我们在应用开发过程中需要考虑以下系统的实现:
对于大模型,一般的企业是没有能力开发的,这种情况我们一般是接第三方的接口。
以 OpenAI 为例,3.1 日,OpenAI 开放了 ChatGPT 的 API 接口,成本优化了 90%,百万 token 只需要 2 美元,并且提炼 otken 能力也大幅优化。新上的 GPT-4 要贵一个数量级,从 0.002 到 0.06,涨了 30 倍。
此外,OpenAI 还提供了图像生成和编辑的服务,如 DALL·E。这些服务的价格取决于图像的分辨率。例如,1024×1024 的图像每张 0.02 美元,而 256×256 的图像每张 0.016 美元。
更多详情见官网: https://openai.com/pricing
在国内也有一些厂商的提供了完整方案报价,大概是 0.1 到 0.13 每张图。
除了接入 API,有时我们也会基于开源的模型微调后上线自己的服务,这部分成本主要是训练的算力成本和上线后的 GPU 机器。以 ControlNet 模型为例,在公有云上,一台带有 v100 显卡的机器也就能跑一个大模型,且单台机器只能同时为一个用户提供服务。而这样一台 v100 的机器一个月的原价为 7000 多。
不管是调用第三方的 API 还是自行构建模型服务,对于创业公司来说,成本都挺高的。
如果想在 AIGC 中创业,从一开始就需要想好商业模式和变现手段,并且对于免费用户需要从一开始就限制其试用频率,以控制成本。
从应用工程角度,我们大概可以做以下的一些事情:
以上主要是应用开发领域的成本,除了这些,其数据成本也是非常大块的成本。而数据是人工智能的基础,没有数据就没有模型。AIGC 需要大量的高质量的数据来训练模型,比如文本、图像、音频、视频等。这些数据的获取和处理是一个巨大的挑战,需要投入大量的时间和金钱。
一方面,数据的来源可能不容易找到或者不免费。比如想要生成游戏场景或者角色,就需要收集各种类型和风格的游戏素材;想要生成影视剧本或者小说,就需要收集各种类型和风格的文学作品;想要生成音乐或者歌曲,就需要收集各种类型和风格的音乐素材。这些数据可能涉及版权问题,需要付费购买或者授权使用。
另一方面,数据的质量可能不够高或者不一致。比如想要生成逼真的人脸图像,就需要收集各种角度和表情的人脸照片;想要生成流畅的语音或者歌声,就需要收集各种语言和口音的语音样本;想要生成合理的对话或者故事情节,就需要收集各种场景和情感的对话或者故事文本。这些数据可能存在噪声、错误、重复、缺失等问题,需要进行清洗、标注、对齐等处理。
因此,在 AIGC 中使用现有数据是一种常见而有效的方法。通过利用公开可用或者自行采集整理好了格式统一且质量较高且数量较多且符合目标任务需求且无版权争议(例如:Common Crawl) 的数据集来训练模型可以节省很多时间和金钱。
2022 年 11 月 25 日,国家网信办、工信部、公安部联合发布《互联网信息服务深度合成管理规定》(以下简称《规定》)。其中提出,深度合成服务提供者和技术支持者提供人脸、人声等生物识别信息编辑功能的,应当提示深度合成服务使用者依法告知被编辑的个人,并取得其单独同意。《规定》自 2023 年 1 月 10 日起施行。
该规定的第五章第二十三条,对「深度合成技术」做了规定:「利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术。」,这也就是我们所说的 AIGC 的范畴了。
在《规定》的第六条、第七条、第十一条等对服务提供主体责任进行了明确的定义,具体包括:
将上面的条文翻译成技术上的点就是要构建以下的系统或服务
AIGC 的版权一直存在争议,其根源在于 AIGC 模型的形成和完善依赖于大量的数据训练,而用于训练的数据往往包含受版权法保护的内容。AIGC 这种不同于传统的创作方式,目前尚未有明确的法律规定和司法裁定来界定其版权归属和保护范围。
2023 年 1 月 23 日,美国三名漫画艺术家针对包括 Stability AI 在内的三家 AIGC 商业应用公司,在加州北区法院发起集体诉讼,指控 Stability AI 研发的 Stable Diffusion 模型以及三名被告各自推出的、基于上述模型开发的付费 AI 图像生成工具构成版权侵权。
这应该算是全球首例知名的 AIGC 商业化应用领域,算法模型及训练数据版权侵权案。其主要争议点在于当前国内外对于 AIGC 获取与利用版权作品进行算法训练是否合法存在诸多争议,尚无立法和司法层面的明确共识,并且对于模型训练过程中利用版权作品的方式、利用行为的版权定性仍有待分析明确。
在中国,计算机软件和作品的著作权属于开发者或者相关机构,而现行的《著作权法》框架难以直接认定人工智能或电脑算法为作品的作者。但是现阶段各界对于人工智能技术创作物的著作权保护整体上呈现积极的态度,主流的司法实践持相似的立场。AIGC 版权保护的是使用 AI 系统的人,不是 AI 本身,其保护的前提还是使用 AI 创作的人,在创作过程中付出了智力或创造性的劳动。
目前,一些机构和个人在使用 AIGC 作品时,通常会尽力寻找并遵守相应的版权规定和道德准则,尊重原作者的知识产权,同时也会尝试探索 AIGC 版权的可行性和保护方式。
我们需要持续的关注版权方面的进展。
对于版权保护我们可以做如下的一些事情:
现在大家常用到的 AIGC 技术的核心都是在大规模数据集上预先进行训练的模型,大多数的使用者都是在特定领域或垂直场景下进行微调。这种预训练模型,对比完全由人工规则控制的专家系统来说,预训练模型就像一个黑盒子。没有人能预知其生产出来的内容是什么。
预训练模型的偏见性通常来自训练数据集中的样本分布不均或者存在系统性的偏差。比如:
除了以上的例子,还有在性别、地域、文化等的偏见性,这些都是因为训练得到的模型并不是非常可控的,模型可以看做对训练集分布的一个拟合。那么反馈到生成模型中,训练数据的分布便是影响生成内容的质量最重要的一个因素。于我们可以采取一些措施来规避将模型的偏见展示给用户。
我们在上线 AIGC 产品时一定需要深刻的理解其偏见性,及时使用一定的措施规避或者减少其偏见性。
想起网上看到的一句话:「在这个历史性的转折点,只能向前走,不能往后看,过往都被冲得看不着了。」