在这篇文章中,作者分享了他们在领英上开发生成式AI产品的经验。他们通过构建一个基于大语言模型的系统,实现了对用户问题的智能回答。然而,这个过程并非一帆风顺,他们遇到了许多挑战,包括评估输出质量、调用内部API、保持统一质量等。尽管如此,他们还是取得了显著的成果,并计划继续优化和完善这个产品。
在过去的六个月里,在领英我们的团队一直致力于开发一种新的 AI 驱动的产品体验。我们想重新构想会员们进行求职和浏览专业内容的方式。
生成式人工智能的爆发让我们停下脚步,思考现在能够实现而一年前还无法实现的事情。我们尝试了许多想法,但都不怎么灵。最终以信息流和招聘启事切入找到了释放AI强大力量的方法,它可以帮助用户:
那么,这活容易么?哪些进展顺利,哪些不好搞?在生成式人工智能的基础上构建应用其实很麻烦的。我们遇到了一堆难题。
我们希望揭开这活的的神秘面纱,分享具体哪些部分好搞,哪些部分不好搞,以及接下来还需要搞定什么。
让我们通过一个真实场景来展示这个系统是如何工作的。
想象一下,你正在浏览领英的动态,偶然发现了一篇关于产品设计中确保残障人士可访问性(注:就是那种系统里可以把字体放大好多倍的功能)的有趣帖子。在帖子旁边,你看到了几个入门问题,以便你更深入地了解这个主题。你感到好奇,点击了“有哪些例子说明确保残障人士可访问性可以推动科技公司的商业价值?”
这时候,在幕后发生了以下事情:
作为用户你可能会接着问“我如何将自己的职业转向这个领域?”,然后我们会重复上面这三个步骤,但这次会将你路由到职业和工作的AI智能体。只需点击几下,你就可以深入了解任何主题,获得可操作的见解或找到你下一个大好机会。
这一切在很大程度上得益于大语言模型(LLMs)的出现,我们认为进一步分享我们在构建这些功能时面临的挑战和幕后故事会很有趣。
图1:简化的用户查询过程。
KSA代表“知识共享智能体”,是数十个能够处理用户查询的智能体之一
大家可能已经注意到,我们的流程遵循了检索增强生成(RAG),这是生成式AI系统中常见的设计模式。构建这个流程比我们预期的要容易得多。在短短几天内,我们就搭建好了基本框架并使其运行起来:
鉴于“路由”和“检索”的分类性质,微调它们相对顺畅:我们构建了开发测试集,并使用提示词工程和内部模型进行优化。然而,“生成”则是一个完全不同的故事。它遵循80/20法则;很快可以达到80%的准确度,但剩下的20%却耗费了我们大部分人的所有工作时间。当你的产品期望99%以上的答案都非常出色时,即使使用最先进的模型,每一个1%的进步也仍然需要大量的工作和创造力。
对我们而言好使的招数是:
我们希望多个团队并行快速推进,因此决定将任务拆分为由不同人员开发的独立智能体(即AI智能体):岗位评估、理解公司、帖子要点提取等智能体分别由不同团队负责。
这种方法带来了显著的不良影响(compromise)。通过并行处理任务,我们在速度上取得了优势,但这却以碎片化为代价。当与智能体的交互可能由不同的模型、提示词或工具管理时,保持统一的用户体验变得极其具有挑战性。
为了解决这个问题,我们采用了一个简单的组织结构:
1)一个小型“横向”工程小组,负责处理公共组件并专注于整体体验。这包括:
2)多个“纵向”工程小组,各自对其智能体拥有自主权,例如:
3)那些东西对我们有用:
评估我们回答的质量比预期的要困难得多。这些挑战大致来自三个方面:制定指南、扩展标注和自动评估。
图2:我们执行的评估步骤。
工程师进行快速、粗略的评估以获得方向性度量和判断。标注者提供更详细的反馈,但大约需要1天的时间。测试成员是最终的评判者,并为我们提供规模性的反馈,但单个更改的某些度量可能需要3天以上的时间。
还在死磕的事:端到端自动评估流程,以实现更快的迭代。
领英拥有大量关于人、公司、技能、课程等的独特数据,这些数据对于构建具有独特和差异化价值的产品至关重要。然而,大语言模型(LLMs)并未经过这些信息的训练,因此无法直接用于推理和生成响应。为了解决这个问题,一个标准的做法是设置检索增强生成(RAG)流程,通过该流程调用内部API,并将它们的响应注入到后续的大语言模型提示词中,以提供额外的上下文来支持生成响应。
这些独特的数据中有很多是通过各种微服务中的远程过程调用(RPC)API在内部公开的。这些API虽然这对于人类通过编程方式调用非常方便,但对于大语言模型来说并不友好。我们通过把这些API“包装”成技能来解决这个问题。每个技能(Skill)都包含以下组件:
大语言模型友好的输入和输出schema:
业务逻辑:用于在大语言模型友好的schema与实际RPC schema之间进行映射。
(注:schema是个编程术语,也许可以翻译成模式,拿excel表作类比,表头是schema)
这样的技能使大语言模型能够执行与我们的产品相关的各种任务,如查看个人资料、搜索文章/人员/职位/公司,甚至查询内部分析系统。同样的技术也用于调用非LinkedIn API,如Bing搜索和新闻。
图3:使用技能调用内部API
我们编写了提示词,要求大语言模型(LLM)决定使用哪种技能来解决特定任务(通过规划来完成技能选择),然后输出调用该技能所需的参数(函数调用)。由于调用参数必须与输入schema匹配,我们要求LLM以结构化的方式输出它们。大多数LLM都经过YAML和JSON的结构化输出训练。我们选择YAML是因为它更简洁,因此消耗的tokens比JSON少。
我们遇到的一个挑战是,虽然大约90%的时间里,LLM的响应包含了正确格式的参数,但有大约10%的时间,LLM会出错(注:经常说的幻觉),并且经常输出不符合要求的数据,或者更糟糕的是,甚至不是有效的YAML。虽然这些错误对人类来说微不足道,但会导致解析它们的代码出错。由于10%的比例足够高,我们不能忽视这些微不足道的错误,因此我们着手解决这个问题。
解决这个问题的标准方法是检测到错误,然后重新发提示词给大语言模型,要求它在这些额外指示下纠正错误。虽然这种方法有效,但它增加了不小的延迟,并且由于额外的LLM调用而消耗了宝贵的GPU算力。为了绕过这些限制,我们最终编写了一个内部防御性YAML解析器。
通过对各种调用参数(payload)的分析,我们确定了LLM常犯的错误,并编写了代码来在解析之前检测和适当修补这些错误。我们还修改了提示词,以便在这些常见错误周围注入提示词,以提高我们修补的准确性。最终,我们将这些错误的发生率降低到了约0.01%。(注:这其实是用规则补足模型的不足,降低成本)
还在死磕的事是:构建一个统一的技能注册机制,以便在我们的生成式AI产品中动态发现和调用封装为LLM友好技能的API/智能体。(注:可以想象是个技能商店,智能音箱那种能够动态添加天气、音乐技能的机制)
团队在首月内实现了我们目标体验的80%,随后又额外花费了四个月时间,致力于将我们的全面体验完成度提升至95%以上——我们勤勉地工作,对各个方面进行精细化调整、优化和改进。然而,我们低估了检测和减轻幻觉现象的挑战,以及质量评分提升的难度(注:原文是速度应该是笔误)——起初迅速攀升,随后便迅速达到瓶颈期。
对于那些容忍一定错误率的产品而言,采用生成式AI进行构建无疑是一种令人耳目一新的直接方法。但这也带来了不切实际的期望,初期的快速进展营造了一种“即将达成”的错觉,而随着后续每1%提升的改进速度显著放缓,这种快速改进的错觉变得令人沮丧。
构建该助手感觉像是偏离了“原则性”的机器学习,而更像是在专家系统中调整规则。因此,尽管我们的评估变得越来越复杂,但我们的“训练”却主要是提示词工程,这更像是一门艺术而非科学。
还在死磕的事:对大语言模型(LLMs)进行微调,以使我们的流程更加数据驱动。(注:其实是肯定会出问题,所以修的要快)
容量和成员感知到的延迟始终是我们最关心的问题。以下是一些维度:
这些因素之间有时会产生有趣的相互作用。举个例子,我们最初只限制了首个Token响应时间(TimeToFirstToken, TTFT),因为这对于我们初期产品延迟有直接影响。然而,随着我们解决幻觉问题,并且思维链(Chain of Thought, CoT)在我们的提示词中变得突出,如果我们忽略了Token间响应时间(TimeBetweenTokens, TBT)会对我们造成更大的伤害,因为任何“推理”token都会增加产品的延迟(例如,对于一个200个tokens的推理步骤,即使是10毫秒的TBT增加也意味着额外的2秒延迟)。这会导致我们公共平台上的某些任务突然发出超时警告,我们不得不迅速增加算力以缓解这一问题。
还在死磕的事:
我们说的够多了,为什么不让产品自己说话呢?
这还不错!特别是后续的建议中让产品可以像维基百科那样带你进入一个充满好奇心的“知识黑洞”的功能。
随着我们不断提高质量、开发新功能并优化流程以加快速度,我们很快就会向更多用户推出上述功能。
能够走到这一步,离不开一群优秀人士的巨大努力,我们将继续学习并很快分享更多技术细节。敬请期待!
注:这里的产品、工程实践其实和琢磨事之前分享的各种内容基本全部吻合,参见
原文链接:https://www.linkedin.com/blog/engineering/generative-ai/musings-on-building-a-generative-ai-product
原作者是:Juan Pablo BottaroandCo-authored byKarthik Ramgopal
专栏作家
琢磨事,微信公众号:琢磨事,人人都是产品经理专栏作家。声智科技副总裁。著有《终极复制:人工智能将如何推动社会巨变》、《完美软件开发:方法与逻辑》、《互联网+时代的7个引爆点》等书。
本文原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议