在AI+产品的开发中,数据漂移(Data Drift)因其隐蔽性和普遍性,成为一个绕不开的话题。这篇文章就来聊聊关于数据漂移的特点、影响和应对措施。
先来看一个案例:产品经理小明,被公司要求上线一个AI客服问答的功能。这是他第一次接触AI类的产品开发,小明根据以往产品开发的经验,设计功能、与开发团队对接、验收通过之后,成功为公司上线了能回答客户常见问题的AI客服。
但是上线没多久,出乎小明意料的情况发生了:越来越多的用户开始抱怨这个AI客服的回答不准确,甚至有时完全答非所问。小明非常惊讶:明明模型和产品设计都没有发生变化,为什么上线前非常“聪明”、对答如流的大语言模型,上了线之后就变得“迟钝”了呢?
这涉及到我们今天要讨论的主题:数据漂移(Data Drift)。
什么是数据漂移(Data Drift)?
从机器学习开始,数据漂移的现象就为研究者发现。它指的是在AI模型训练时,(随着时间的变化)训练时的数据和实际应用场景中的新数据之间产生了显著变化,而且这种变化会导致模型性能下降,表现为输出的准确性下降、相关性下降或预测效果的减弱。
数据漂移通常会表现为两种形式:特征漂移和目标漂移。
数据漂移在不同的行业中表现不同,但它们的共同点都会影响产品的准确性和用户体验。
回到上面产品经理小明的案例,由于小明上线前所采用的用户提问训练集(训练数据)比较老旧,并没有覆盖真实用户的所有问题类型,所以才导致训练集和上线后真实用户提问(新数据)之间存在明显的差异。这就是一个典型的由特征漂移引发的问题。
数据漂移还有以下三种特点,让人不得不防:
既然数据漂移普遍又隐蔽地存在于各类AI产品之中。那么,产品经理在面对数据漂移时,能够做什么呢?
我们团队在刚刚接触AI产品之初,也倍受“数据漂移”的困扰。不过研究和处理这个技术现象的过程,也让我们对如何做好AI产品有了更多的反思,总结并分享如下:
1. 接受AI产品的不确定性
和传统互联网产品相比,AI产品的动态变化和不确定性都要高得多,往往在上线需要持续优化并适应动态数据环境。产品经理需要学会面对和管理这种不确定性。
2. 破除“上线即完成”的行为惰性
其实,无论是互联网产品还是AI产品,“上线”都应该只是起点,而非终点。尤其是AI产品中,运营迭代的重要性不言而喻。持续地做好用户数据的监测、反馈机制以及优化要贯穿于整个产品的生命周期之中。
3. 产品经理是一个跨职能、高延展的岗位
数据漂移的解决并不只是有技术改造一个方式,业务理解、知识团队的协作都可以解决这个问题。但这也要求产品经理自身对业务需求、用户反馈和技术实现都有充分的理解。在AI产品中,对产品经理跨界的学习和协作能力提出了更高的要求。
本文由 @AI 实践干货 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自 Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务