商业领域的数据科学家其实和侦探有着异曲同工之处,就是要去探索未知。不过在这过程中可能一不小心就会坠入“陷阱”,所以这就需要去了解和避免这些“陷阱”。
爱尔兰小说家James Joyce 提到过 “错误是探索的入口”,这句话在大部分情况下这是无可厚非的。
对于数据科学家而言,犯错可以帮他们发现新的数据趋势和找到更多数据模式。话虽如此,对于数据科学家而言,允许的误差范围往往非常小。数据科学家是通过大量考察才被高薪聘请的,而企业也担不起由于忽略失败案例和重复犯错所产生的严重后果。因此,这些错误有可能会毁掉一个数据科学家的职业生涯。因此对数据科学家来说,追踪所有数据实验、从错误中吸取经验教训、以及避免在未来的项目中出错是至关重要的。
夏洛克·福尔摩斯以下的这句话很好的诠释了数据科学家在商业领域中扮演的角色:
“我是夏洛克·福尔摩斯,去了解别人不知道的事是我的使命”
而对于企业而言,如果想在商业中保持竞争力,并不仅仅要依靠大数据分析。如果不事先评估数据质量以及他们希望达到的目标和利润,就很难判断出哪个数据分析项目会带来盈利。出现第一次失误是可以接受的,但反复地在同一个地方摔倒,就会造成商业运营中的重大损失。
应用Python语言去学习数据科学,并成为企业数据科学家
以下来分享该如何避免常见的数据科学错误:
对于任何数据科学家而言,把相关性和因果性混淆都会造成损失。《魔鬼经济学》里提到了伊利诺伊州的一个案例,由于分析显示每个家庭的书籍数量和学生考试分数有直接联系,导致了伊利诺伊州给每个学生都发了书。而进一步的研究显示,家里有书的学生可能从未翻阅过这些书,但他们的学术水平表现的更为优秀。因为那些经常买书的父母更能提供给孩子更加好的学习氛围,而这个观点则是在原来的假设上做了修正。
大量数据科学家在处理大数据时会假设相关性,直接映射因果关系。虽然用数据来衡量两个变量之间的相关性没错,但是总用“起因和影响”来类推,可能会导致错误的预测和低效的决定。为了利用大数据去呈现最好的结果,数据科学家需要去弄清相关性和因果本质区别。相关性是指X与Y通常会被放在一起观察,而因果关系是指X引起了Y。这在数据科学中是完全两种不同的概念,但这些差别经常被数据科学家忽视。在不知道起因的情况下,仅根据相关性所作出的决定的成效,完全取决于企业的数据类型和想解决的问题。
每个数据科学家必须明白:“在数据科学中,相关性不代表因果关系”,如果两个事物互相关联,这不代表一个是由另一个引起的。
大部分数据科学家都致力于学习分析技术,但忽略了用可视化路径去更好地展现和分析数据的方式。如果数据科学家没有选择合适的可视化工具去研发模型、监控未知数据或展现结果,那么再好的机器学习模型,价值也会因此被削弱。
另外一个常见的误区就是,很多数据科学家选择可视化图表类型不是基于数据集的特征,而是他们自身的审美爱好。为了避免这种情况,第一步就是要定下可视化主要目的。
仅仅一个优秀的机器学习模型并不能立刻分享和传达重要的数据信息。数据科学家需要结合有效的可视化工具来解释数据规律以应用到实际工作中。常言道“一图胜千言”,数据科学家不仅要熟练运用可视化工具,并且还要了解其中的原理,用更直观和易于理解的方式,对数据分析的结果进行分享和沟通。
因此,解决任何数据科学问题的关键一步就是深入了解数据,通过丰富直观的可视化,了解分析的基础和搭建相应的模型。
有部分数据科学家认为,建立出优秀的机器学习模型之后就胜券在握了,但实际上,确保模型能够维持相应的预测能力也相当重要。所以这需要数据科学家在一定时间内,反复验证自己的模型。而这一点往往很容易被忽略。他们习惯性地认为,如果预测模型和观测数据相吻合,该预测模型就是理想的。
然而,已建立的模型的预测效果,往往会随模型关系不断变化而改变。因此,为了避免这种情况,最好的解决方法是:每个小时都用新数据对模型进行评分,或者基于模型中的关系变化快慢逐日逐月评分。
由于不同因素影响,模型的预测能力往往会变弱,因此数据科学家需要确定一个常数,用以确保模型的预测能力不能低于可接受的水平。实际工作中,数据科学家有时需要重建数据模型。而且通过多个数据模型来解释变量的分布要远优于依靠单个模型。
同时,为了保留模型的预测效果和有效性,选择迭代周期是非常重要的,如果无法做这点,那最后结果也会差强人意。
数据科学协会主席Michael Walker提出:“在数据科学中,最极致的方法之一就是设计实验、根据科学的标准去提出好的问题、收集合适的数据集、收集并解释你所得到的结果。”
数据科学是一个结构化的过程,以明确的目标和问题为始,随后提出假设,最终找到答案。然而,数据科学家有时会直接分析数据,而没有事先考虑,“我需要去解决一个什么样的问题?”对于任何数据科学家来说,设定一个项目目标和模型目标都是必不可少的。如果不知道自己想要解决什么问题,那最后结果往往也是不尽如意。
很多数据科学项目最终是为了回答“是什么”的问题,因为数据科学家无法时刻攒问题在手,所以也无法根据这种理想的路径进行数据分析。然而,数据科学应该是利用大数据去回答“为什么”的问题。数据科学家应该采用新的方式去整合已知的数据集,去探讨一个未曾有过答案的问题。为了改善现状,数据科学家应该关注在:“如何获得正确的分析结果。”这可以通过明确的实验设计,变量和数据准确性,并且清晰明白他们想在数据中获取什么信息。这也将简化以往通过满足假设的统计方法来回答商业问题的过程。就像Voltaire说的那样,“判断一个人,是通过他提出的问题,而不是他所给的答案。”这对于任何企业来说,首先明确好研究问题对于达到研究目标是至关重要的。
博思艾伦咨询公司的首席数据科学家Kirk Borne曾说过,“人们往往忽略了关于数据使用、数据保护、还有统计方面的伦理问题。再者,人们忽略了如果用足够长的时间去处理数据,便可以从中挖掘很多信息。如果能收集大量数据,便会发现其中的关联性。现在人们认为如果他们拥有大数据,他们会相信他们所看到的任何事情。”
数据科学家经常会对来自多个数据源的数据感到兴奋,然后在没有考虑加强商业意识的情况下,开始创建图表和可视化处理来做分析报告。这种行为能把任何企业推向危险边缘。数据科学家通常赋予数据太多决策权力,但他们不够重视培养自己的商业意识,不够了解如何才能使企业受益。数据科学家不仅仅要只让数据说话,而且还要善用自己的智慧和商业意识。数据是可以影响项目的决策,但绝不是判定决定权的最终因素。企业可以聘请那些能把各领域知识和专业技术相结合的数据科学家,这也是为了避免此类错误的解决方案。
有时候,数据科学家往往会忽略了方案的可能性,更容易导致失败的决策。数据科学家常常犯一些主观性错误,比如他们认为,企业采取了X操作就一定会实现Y目标。然而,某些特定问题是没有唯一答案的,因此数据科学家要理解,从不同可能性中所做的选择。某些特定问题都存在一个以上的可能性,而其中每种都有一定程度的不确定性。情景规划和概率理论是数据科学两个不可忽视的基本核心,它们可以加大决策正确性的概率。
如果某个项目的目标是建立一个影响客户选择因素的模型,那么,仅仅考虑高影响力客户行为的数据并不完善。该模型还需要考虑到那些影响虽然不大,但却具有潜在影响力的客户的行为数据。低估任何一组的预测能力都可能导致模型歪斜或者一些重要变量被弱化。
End.