在AI+产品的开发中,数据漂移(Data Drift)因其隐蔽性和普遍性,成为一个绕不开的话题。这篇文章就来聊聊关于数据漂移的特点、影响和应对措施。先来看一个案例:产品经理小明,被公司要求上线一个AI客服问答的功能。这是他第一次接触AI类的产品开发,小明根据以往产品开发的经验,设计功能、与开发团队对接、验收通过之后,成功为公司上线了能回答客户常见问题的AI客服。但是上线没多久,出乎小明意料的情况发生了:越来越多的用户开始抱怨这个AI客服的回答不准确,甚至有时完全答非所问。小明非常惊讶:明明模型和产品设计都没有发生变化,为什么上线前非常“聪明”、对答如流的大语言模型,上了线之后就变得“迟钝”了呢?这涉及到我们今天要讨论的主题:数据漂移(Data Drift)。一、数据漂移:AI产品“独一份”什么是数据漂移(Data Drift)?从机器学习开始,数据漂移的现象就为研究者发现。它指的是在AI模型训练时,(随着时间的变化)训练时的数据和实际应用场景中的新数据之间产生了显著变化,而且这种变化会导致模型性能下降,表现为输出的准确性下降、相关性下降或预测效果的减弱。数据漂移通常会表现为两种形式:特征漂移和目标漂移。特征漂移(Feature Drift)指的是模型输入数据的统计特性发生变化。比如,某个字段的数值分布变了,或者输入数据的结构发生了变化。比如零售行业中某AI推荐系统在假期期间表现下降
...
继续阅读
(19)