wireless_com
发表于
2025-01-27 04:06:38

大模型应用的10个架构挑战

[引] 在英国，时差有点乱。拾起年初的文字，迎接新春大吉！ChatGPT从正式发布到拥有1亿用户仅仅用了5天的时间，基于大型语言模型（简称大模型，或基础模型）的应用给软件行业乃至整个社会带来巨大的影响。作为一名软件系统的架构师，除了传统的软件系统质量属性约束之外，还要面对由于大模型应用的自身特点所带来的新约束，面对更多的权衡，也面临着更多的挑战。基于笔者近年来的探索与实践，这里列举了面向大模型应用... ...继续阅读 (10)

wireless_com
发表于
2025-01-19 20:26:01

性能优化之动态加载

在过去近三十年的职业生涯里，有几年专注于运行时环境的开发与实现。在runtime中，动态加载技术是其中的基石之一。动态加载技术是指在系统运行过程中，根据需要把程序和数据从外存或网络加载到内存中的过程。其中，lazy loading（懒加载），也被称为延迟加载，是动态加载技术的一种常见实现方式。1. 什么是动态加载所谓动态加载，指的是程序在运行期间需要调用某一模块的功能时，由加载器将该模块即时载入内... ...继续阅读 (6)

wireless_com
发表于
2025-01-12 20:26:04

性能约定：API 限速

速率限制是一种关键的控制机制，用于管理 API 的请求流，非常类似于调节器。速率限制不仅仅是控制请求的总数，它还关系到如何以及在哪里应用这些限制。根据 API 的需要，可以根据各种因素(如用户 ID、 IP 地址或特定类型的 API 调用)来实现速率限制。例如，一个社交平台可能实施严格的速率限制，以防止发布垃圾邮件，同时允许更频繁的请求阅读内容。类似地，服务可以对来自已知用户和匿名流量的请求应用不... ...继续阅读 (13)

wireless_com
发表于
2025-01-05 20:25:48

微秒级高性能网络初探

如果我们的预期是将网络延时从10ms 降低到1ms，那么应该先分析这些时延的具体构成，很有可能瓶颈并不是网络传输；如果目标是将网络延时降低到微秒级或者百微秒级，那么我们才可能使用到高性能网络，例如RDMA技术。1. TCP/IP 协议栈的局限数据中心内部服务器的接入带正在由万兆（10G）接入升级为25G，在某些用于机器学习的服务器上甚至使用了100G的接入带宽。量变引起质变，增大的接入带宽让传统的... ...继续阅读 (15)

wireless_com
发表于
2024-12-29 15:39:30

2024年，老骥伏枥

【引】周末的冬日午后，一杯清茶也换做了一碗梨汤，习惯驱使着感冒初愈的我坐在书桌前，回首2024这一年。时光，悄悄地，从指尖溜走，只留下回忆的碎片。拾起那些散落在角落里的记忆碎片，将收获和喜悦任性地拼接起来，将蹉跎和烦恼扔进垃圾桶，于是，就形成了这一篇关于2024年的年终文字。工作作为一名首席架构师，自己在联想诺谛智能已经工作一年多了，除了AI方面，最大的收获或许就是对“需求工程”的理解又进了一步... ...继续阅读 (22)

wireless_com
发表于
2024-12-22 20:24:47

大模型应用系列：从MLOps到LLMOps

【引子】在IT领域中，DevOps 是软件工程效能的重要方法论以及工具集，在人工智能领域同样如此。MLOps 和 LLMOps 都是管理机器学习系统的方法。MLOps 致力于解决机器学习生命周期的生产问题，促进数据科学家和运营专家之间的合作，提高机器学习系统的效率和质量。LLMOps 通过结合“终身”学习扩展了 MLOps，使机器学习模型能够随着时间的推移不断地从新数据中学习和改进，从而使数据快... ...继续阅读 (18)

wireless_com
发表于
2024-12-15 20:24:55

WEB语义化的新探索：浅析LLMs.txt

【引】有人迷恋使用大模型生成各种有趣的内容，有人沉醉于大模型相关技术的探索，没有对错，只在于你的乐趣所在。一项名为 llms.txt 的新提案标志了一些非同寻常的东西的出现: 一个Web网站不仅为人类读者服务，而且为人工智能提供服务。这不仅仅是一种新的技术标准，而是我们对数字基础设施的看法发生根本性转变的开始。robots.txt 和 sitemap.xml 是为搜索引擎设计的，而 LLMs.t... ...继续阅读 (19)

wireless_com
发表于
2024-12-08 20:24:10

浅析面向场景的大模型应用框架选择

【引】人们经常用“具体问题具体分析”来适应不确定性，工匠的思维是对问题进行分类，然后尝试是否存在通用的解法，可能不是最优的解，但肯定是一个可用的解。对于大模型应用而言，也是如此。从demo到产品之间存在着鸿沟，大模型应用也是如此。在工程实践的时候，产品/服务提供的功能与性能及成本之间存在着大量的权衡，面向场景来选择大模型的应用框架，则是一种具体的权衡方法。例如，什么时候使用Agent？当任务太... ...继续阅读 (18)

wireless_com
发表于
2024-12-01 20:24:50

解读小模型——SLM

【引】如果希望从文献途径了解一个新的领域，该领域的相关survey 论文可能是一个较好的切入点，对于日新月异的AI领域尤其如此。”Small Language Models: Survey, Measurements and Insights”一文（https://arxiv.org/pdf/2409.15790）或许可以帮助我们更好地了解SLM。大模型的世界几乎每天都在发生变化。一方面，人们越来... ...继续阅读 (28)

wireless_com
发表于
2024-11-24 20:24:37

解读GraphRAG

RAG 结合了大型语言模型和信息检索模型的力量，允许它们用从大量文本数据中提取的相关事实和细节来补充生成的响应。事实证明，这种方法在提高模型输出的实际准确性和总体质量方面是有效的。然而，随着 RAG 系统得到更广泛的采用，它们的局限性开始浮出水面，具体而言：平面检索: RAG 将每个文档作为一个独立的信息。想象一下，阅读单独的书页，却不知道它们之间是如何连接的。这种方法错过了不同信息片段之间更深层... ...继续阅读 (27)

wireless_com
发表于
2024-11-17 20:24:50

初探Ranking系统的离在线满意度评估

【引子】在上周发布了《大模型应用系列：从Ranking到Reranking》之后，有AI 产品经理问我，如何评估Ranking 系统的性能呢？再进一步，如何评估RAG系统的性能呢？老码农整理了一下在搜索引擎方面的感受，遂成此文。如何确保RAG系统在实际应用中表现良好呢？RAG本质上具有生成能力的一个信息检索系统，Ranking/Reranking 在其中的作用非常重要。测量该系统的有效性需要... ...继续阅读 (35)

wireless_com
发表于
2024-11-10 20:24:17

大模型应用系列：从Ranking到Reranking

【引子】Ranking 和Reranking又是一个NLP 处理中的传统技术，那么在大模型应用中又起到怎样的作用呢？每个搜索引擎背后都隐藏着一个至关重要却往往被忽视的组成部分——Reranking（重新排名）。那么，什么是Rerank呢？简而言之，这一过程旨在优化并调整搜索结果的顺序，使之更加精准地匹配用户的查询需求。值得注意的是，不同情况下采用的Rerank策略差异极大，因为针对每一个具体问题... ...继续阅读 (47)

wireless_com
发表于
2024-11-03 20:24:24

大模型应用系列：Query 变换的示例浅析

【引】NLP中的经典组件在大模型应用中还有效么？大模型对自然语言处理中的典型任务有什么影响么？RAG应用通过分割文档、嵌入向量化并检索高语义相似性的块来响应用户问题，但面临文档块不相关、用户用词不当及结构化查询需求等问题。若RAG无法找到必要信息，则无法正确回答。对此，可采用Query变换技术，包括Query改写以提高检索准确性、后退提示以获取背景信息及子查询分解以全面检索。这些方法常利用大模型生... ...继续阅读 (24)

wireless_com
发表于
2024-10-27 20:24:56

初探大模型压缩

【引】感谢大家对联想AIPC的关注！大模型在智能终端上应用使AI更方便地服务于我们的工作和生活，《从苹果智能看端上大模型应用》为我们提供了参考。一般地，语言模型越大越好，改进LLM的方式非常简单: 更多的数据 + 更多的参数 + 更多的计算 = 更好的性能。但是，使用100B + 参数模型存在着明显的挑战。例如，使用 FP16的100B 参数模型仅存储空间就需要200GB！大多数消费设备(如手机、... ...继续阅读 (27)

wireless_com
发表于
2024-10-20 20:24:57

解读向量索引

向量嵌入是从图像、文本和音频等数据源转换而来的数字表示，旨在通过为每个项目创建一个数学向量来捕捉其语义或特征。这种表示方式使得计算系统更容易理解这些数据，并且与机器学习模型兼容，从而能够识别不同项之间的关系和相似性。通常，用于存储这些向量嵌入的专门数据库被称为向量数据库。这些数据库利用了嵌入的数学特性，即能够将相似的项聚集在一起存储。向量数据库采用不同的向量索引技术，可以将相似的向量放置在一起，而... ...继续阅读 (29)

wireless_com
发表于
2024-10-13 20:24:16

雕虫：如何确定Java线程池的大小

在 Java 中，创建线程会产生显著的成本。创建线程消耗时间，增加请求处理的延迟，并且涉及 JVM 和操作系统的大量工作。为了减轻这些开销，需要使用线程池。本文将深入探讨确定理想线程池大小的技巧。1. 使用线程池的原因性能上，创建和销毁线程在Java中代价较高，而线程池通过重用线程减少了这种开销。在可伸缩性方面，线程池能根据应用程序需求进行扩展，如重负载时处理更多任务。此外，线程池有助于资源管理，... ...继续阅读 (23)

wireless_com
发表于
2024-10-07 20:24:25

解读知识图谱的自动构建

‍‍【引】在AI领域，知识系统过时了么？在《大模型应用的10种架构模式》中，知识图谱与大模型的结合是一种重要的应用方式。知识图谱可以辅助大模型应用的推理，大模型也可以辅助知识图谱的构建，二者是可以相辅相成的。在国庆假期中，读了一篇论文“A comprehensive survey on Automatic Knowledge graph Construction”（https://arxiv.... ...继续阅读 (37)

wireless_com
发表于
2024-09-28 20:24:17

解读文本嵌入：语义表达的练习

【引子】近来在探索并优化AIPC的软件架构，AI产品经理关于语义搜索的讨论给了自己较多的触动，于是重新梳理嵌入与语义的关系，遂成此文。文本转换成机器可理解格式的最早版本之一是 ASCII码，这种方法有助于渲染和传输文本，但不能编码单词的意义，其标准的搜索技术是关键字搜索，寻找包含特定单词或 N-gram的所有文档。如今，我们可以计算单词、句子甚至图像的嵌入。嵌入也是数字的向量，但它们可以捕捉意义。... ...继续阅读 (59)

wireless_com
发表于
2024-09-22 20:22:33

如何识别低水平的程序员

【引】作为一个老码农，非常不想评价一名软件工程师的水平高低，认为通过思维实验、刻意练习等方式，每个工程师都可以成为高水平的程序员。但是，如何认识自己的不足，需要自我发现，自我成长。在软件开发的动态世界中，软件工程师的能力可以决定一个项目的成败。虽然有很多杰出的开发人员，但重要的是要意识到，一些迹象可以表明这是一个不太出色的工程师。无论你是招聘新员工还是面对现在的合作伙伴，及早发现这些危险信号可以... ...继续阅读 (32)

wireless_com
发表于
2024-09-15 19:59:59

少年远行

渐渐地，渐渐地，日子近了。今天，少年远行了。作为一个父亲，心中有一丝的激动、一丝的不安、一丝的焦虑、一丝的眷恋，一丝的伤感，还有那些个莫名的情绪交织在一起，百味杂陈。孩子在父母眼中永远是个孩子，一个大小伙子在我眼中仍是少年。20年前，两岁的他要去幼儿园了，眼中充满了好奇，望向窗外，外面的世界该是怎样？殊不知，这或许才是磨砺的开始。刚入幼儿园的时候，他还不会拿筷子吃饭，用手抓。当小朋友们用剪刀... ...继续阅读 (38)

wireless_com
发表于
2024-09-08 20:24:17

大模型微调：RHLF与DPO浅析

大模型应用性能的提升不仅在于其预训练，而微调的作用也非常显著。对于多数从事大模型应用领域的团队而言，微调是一个核心的工作之一，为专门任务完善大模型并确保其产出符合我们的预期。1. 关于微调微调涉及调整预训练的LLM ，以更有效地执行特定的功能，提高其在不同应用程序中的效用。尽管LLM通过预训练获得了广泛的知识基础，仍需要定制以在特定领域或任务中表现出色。例如，对一般数据集上训练的大模型进行微调，以... ...继续阅读 (54)

wireless_com
发表于
2024-09-01 20:22:26

知识图谱与向量数据库的相遇

在《大模型应用的10种架构模式》一文中，知识图谱是RAG系统中的一种重要的技术，基于知识图谱的大模型应用也成为一个典型的架构模式。但是，在一般的RAG系统中，都会用到向量数据库，那么，当知识图谱与向量数据库相遇后，会是怎样的场景呢？1.关于知识图谱知识图谱是一种结构化的信息表示形式，用于说明不同概念之间的关系。它充当一张地图，连接各种数据，并以易于理解的方式表示这些关系。知识图谱经常被用来存... ...继续阅读 (65)

wireless_com
发表于
2024-08-30 21:31:38

一个和Bob大叔聊天的机会

编程界的传奇人物Robert C. Martin（Bob大叔）将于9月2日18点开启一场前所未有的直播分享。这位世界著名的编程大师、设计模式革命者将与你分享那些不为人知的编程秘籍，颠覆你对代码的所有认知！在软件开发的世界里，面向对象编程（OOP）以其易于理解和维护的特性，长久以来占据着主导地位。它像是建筑师手中的蓝图，将现实世界抽象成一个个独立的“对象”，每个对象承载着自己的数据和能对这些数据进行... ...继续阅读 (60)

wireless_com
发表于
2024-08-25 20:24:34

从苹果智能看端上大模型应用

将生成式人工智能集成到边缘设备本身就是一个重大挑战，我们需要在智能手机和计算机有限的计算能力和内存范围内高效地运行高级模型。确保这些模型运行迅速，而不会耗尽电池寿命或使设备过热，端上的局限增加了大模型应用的复杂性。此外，保护用户隐私至关重要，需要 AI 在不依赖云服务器的情况下在本地处理数据。今年，苹果已经通过引入苹果智能来应对这些挑战。这个新系统将复杂的人工智能直接带到设备上，同时保持高隐私标准... ...继续阅读 (39)

wireless_com
发表于
2024-08-20 20:24:58

实时流分析：一个案例

【引子】本文根据《实时分析实战》一书的第3章提炼而成，旨在通过一个具体案例来了解实时流分析面对的具体场景以及潜在的技术实现。我们将深入探讨一家名为“All About That Dough”（简称AATD）的比萨外卖企业，该企业致力于提供融合印度风味的比萨配送服务。AATD已历经近二十载的风雨，成功打造了一个能够承受每分钟数千次点击并处理高达50个订单的网络平台基础设施。AATD的业务涉及三种核心... ...继续阅读 (56)

wireless_com
发表于
2024-08-18 20:24:27

《实时分析实战》译者序

【引子】在老码农带产研团队的时候，一直想致力于打造学习型组织。通俗而言，就是希望PM成为有调性的产品经理，希望研发成为有追求的工程师。内部分享固然不错，但有其局限性，尤其是当项目紧张的时候。作为尝试，开始建立“工匠译者团队”，提升我们自身的学习愿望，持续学习。于是，有了《语音优先》智能语音技术驱动的交互界面设计与语音机器人设计（译者序），这是第二本。很荣幸可以向你介绍《构建实时分析系统》一书的中... ...继续阅读 (49)

wireless_com
发表于
2024-08-11 20:24:11

部署一个大模型应用

【引子】“千里之行，始于足下”，边走边记，这是大模型系列文字的第38篇文字了。部署是大模型应用从开发环境迁移到生产环境的最后一步。这一步至关重要，因为任何应用都要最终为用户提供服务，除非你坐而论道，弄的是实验室里的玩具。大模型应用的部署关注点如下：可伸缩性: 可伸缩性指的是系统处理不断增加的工作量的能力，或者为了适应这种增长而扩大其潜力的能力。在生产环境中，大模型应用必须能够处理来自用户的潜在的大... ...继续阅读 (78)

wireless_com
发表于
2024-08-04 20:24:32

Chunking：基于大模型RAG系统中的文档分块

【引】“枯萎，无法回避，如人之生老病死；荒芜，无法接受，如碌碌无为一生。” 这是周六回乡下除草的感受。有所得，有所感，对工程技术也是如此。将大文档分割成较小的分块是一项关键而复杂的任务，对RAG系统的性能有着重大的影响。一般地，RAG系统旨在通过将基于检索的方法和基于生成的方法相结合，提高产出的质量和相关性。有多种框架提供了文档分块方法，每种方法都有自己的优点和典型用例。或许，利用主题感知的句子嵌... ...继续阅读 (50)

wireless_com
发表于
2024-07-28 20:24:24

“提示工程”的技术分类

尽管大模型非常强大，但仍然有着自身的局限。大模型可以生成看起来非常值得信赖的内容并引用外部资源，但是，大模型本身并不能直接访问互联网也不能访问互联网的资源。偏见往往会使大模型产生某些定型的内容。当被问到一个不知道答案的问题时，大模型有时会产生“幻觉”或者产生错误的信息, 很多时候，即使是最简单的数学或常识的问题, 大模型仍然要挣扎一番。另外，通过操纵提示词，以忽略开发人员的指令并生成特定的内容。大... ...继续阅读 (47)

wireless_com
发表于
2024-07-21 20:24:41

解读：基于图的大模型提示技术

【引子】大模型的兴起，使得读论文成为了学习中的一种常态。如果一篇论文没有读懂，不用担心，可以再读一篇该领域内容相近的论文，量变可能会产生质变。就像编程语言一样，你永远无法精通一门编程语言，除非，精通两种。像思维链和思维树这样的提示技术，已经大大提高了大模型解决复杂的、基于推理的任务能力。从高层抽象来看，通过强制 LLM 构造对问题的逐步响应，我们可以大大提高其解决问题的能力。然而，这些技术都假设... ...继续阅读 (66)