当然,为了让体验更加流畅,我们会在用户上传文档的同时预先处理好所有的嵌入信息,并对常见的查询设置缓存,从而进一步减少等待时间。接下来,这些找到的信息会被加入到原本的问题描述中,形成一个更丰富、更有针对性的提问,最后才交给大模型处理。这样做的好处显而易见:不仅减少了模型产生的“幻觉”,还允许我们在不重新训练整个模型的情况下更新知识库,特别适合客服系统等需要频繁更新领域知识的应用场景。它的好处在于,并不是每次请求都要跑完整个模型,而是根据问题类型激活对应的“专家模块”,只动用必要的参数,大大减少计算开销。