如何做好模型的性能评估?我们不妨从两个关键阶段来切入探讨。这篇文章里,作者就做了对应的解读,并阐述了在训练过程中可能遇到的数据泄露问题和相关解决方案,一起来看一下吧。
在机器学习的世界里,模型的性能评估是至关重要的。本文将深入探讨评估模型性能的两个关键阶段,并揭示在训练过程中可能遇到的数据泄露问题及其解决方案。
在这个阶段,可能会尝试不同的机器学习算法,或者对选定的算法进行超参数调整(即调整模型的“表盘”,这里的表盘是一个比喻,指的是模型的内部参数,如学习率、树的深度等)。在每次尝试或调整后,都需要评估模型性能,以便了解这些变化是否提高了模型的预测能力。
这通常在验证集上进行评估来实现。验证集是从原始训练数据中分离出来的,用于在模型训练过程中评估模型性能的数据集。这样做的目的是确保在优化模型时,实际上是超者提高性能方向前进,而不是让模型过拟合或性能下降。
一旦确定了模型的参数和结构(即模型“最终确定”),需要在完全独立的测试集上评估模型的性能。测试集包含了模型在训练过程中从为见过的数据,有助于评估模型在实际应用中的泛化能力。这个阶段的性能评估是为了验证模型在面对新数据时的表现, 确保模型不仅在训练数据上表现良好,也能在实际应用中准确预测。
在模型开发和调整阶段,模型进行训练之前,就需要从测试集中分离出一份验证集,这样做的目标就是为了确保验证集数据在整个模型训练过程中不会被模型接触到,从而保证验证集能够提供一个独立的评估环境。即使在模型进行参数或结构调整,优化模型性能的多轮迭代中,使用的也是同一份验证集。
但是在交叉验证中,则不成立。在交叉验证中,训练集被划分成若干分相同的数据量的数据集,每个部分轮流作为验证集,其他作为测试集。
上文也提了在模型优化多轮迭代中,使用同一份验证集的问题。这在传统的机器学习中,会存在一个潜在问题,即在多轮迭代优化中使用同一份验证集可能会导致模型“记住”验证集的数据,这被称为信息泄露(Information Leakage)。
为了避免这种情况,通常会在每次迭代中使用不同的验证集,或者采用交叉验证的方式(小数量集数据训练模型时选择交叉验证更优)。
下面说说数据集的一般步骤:
而在训练模型阶段会产生一个比较严重的问题-数据泄露(Data Leakage)。它指的是在训练模型的过程中,模型意外接触到了本应该在测试阶段才出现的数据或信息。而这种情况的出现一般发生在数据准备和预处理阶段,训练集和测试集数据之间的界限被破坏时。
数据泄露的具体表现可能包括:
以下补充说明一些特征泄露示列:
1)时间戳泄露
假设你有一个包含过去几年房产交易数据的数据集,其中每个交易记录都有一个时间戳(日期)。如果你在训练模型时,不小心将这些时间戳作为特征输入,并且这些时间戳包含了未来房价变动的信息,那么模型可能会学习到这些未来信息,从而在训练集上表现得很好。
这并不意味着模型真正理解了房价变动的内在规律,因为它依赖的是未来信息,而不是基于当前和过去的数据来预测未来。
2)未来数据泄露
如果是预测明天的天气,在训练模型时,你不小心将后天的天气预报作为特征输入。模型可能会学会基于后天的天气来预测明天的天气,这显然是不合理的,因为模型在实际应用中无法预知未来几天的天气。
3)数据清洗错误
在处理数据时,可能会发现某些异常值或错误数据,并决定将它们从数据集中移除。然而,如果这些异常值在测试集中仍然存在,而模型在训练时已经“学会”了忽略这些值,那么在测试集上模型可能会表现不佳,因为它没有学会如何处理这些真实的异常情况 。
4)第三方信息
假设正在构建一个预测用户是否会购买某个产品的模型。在训练过程中,不小心将用户在社交媒体上的活动数据(如点赞、分享等)作为特征。这些数据可能包含了用户购买意愿的线索,但这些信息在用户实际购买行为发生之前是不可用的。这样,模型在训练集上的表现可能会很好,但在实际应用中,由于缺乏这些社交媒体数据,模型的预测能力会下降。
总结一下,为了解决这些问题,我们需要确保数据集的正确划分,并且在训练和验证过程中严格遵守这些划分。此外,交叉验证和定期更换验证集也是预防数据泄露的有效策略。
本文由 @陶培林 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议