IT博客汇 | 数据科学家最常用的十种算法和方法

数据科学家最常用的十种算法和方法

新智元发表于 2016-10-12 14:54:50

来源：新智元(微信号AI_era)

英文来源：kdnuggets.com
作者：Gregory Piatetsky
译者：刘小芹
原文链接：数据科学家最常用的十种算法和方法
本文为新智元授权转载，严禁二次转载。

最近KDnuggets针对数据科学家最常使用的算法作了一个调查，有一些意外的发现，包括最学术向的算法和最产业向的算法。

下面是调查结果，总调查人数是 844 人。

数据科学家最常用的Top 10种算法和方法，以及投票比例：

表1：数据科学家最常用的Top 10算法&方法。所有算法和方法的列表在文末。

说明：这个投票的本意是找出数据科学家最常用的工具，但“工具”这个词含义不明确，所以为了简便我最初把这个表成为top 10“算法”。当然，正如有读者指出的，“统计学”或“可视化”以及其他几个都不是算法，更好的描述应该是“方法”。所以我把这个表更名为Top 10算法和方法。

投票者平均使用的算法/方法数是8.1中，比2011年的类似调查增加了很多。

在2011年的调查“数据科学/数据挖掘的常用算法”中，我们提到最常用的方法是回归、聚类、决策树/决策规则，以及可视化。两次调查中投票数增加最多的是：

2016年新增的回答有：

投票数减少最多的有：

下面的表格表示不同算法类型的应用：监督、无监督、元，及其他，以及投票者职业类型的占比。在职业类型中，我们排除了“未回答”（4.5%）和“其他”（3%）。

我们发现，几乎所有人都使用监督式学习算法。

政府和产业数据科学家比学生或学术研究人员使用更多不同类型的算法。

产业数据科学家更喜欢元算法。

接下来，我们分析了不同职业人士最常用的10中算法深度学习：

为了让结果更清晰，我们计算了职业类型和平均算法使用的偏差，即偏差（ALG，类型）=使用（ALG，类型）/使用（ALG，所有）。

图2：按职业类型分的算法使用偏差

我们发现，产业数据科学家更喜欢用回归、可视化、统计、随机森林和时间序列。政府/非营利机构用得更多的是可视化、PCA和时间序列。学术研究者更常用的是PCA和深度学习。学生普遍上使用的算法较少，常用的是文本挖掘和深度学习。

接下来我们分析了能代表 KDnuggets 整体用户的具体地区参与人数：

投票参与者的地区分布：

在2011年的投票中，我们把产业/政府和学术研究者/学生分别合并成一个组，并用以下公式计算产业/政府的算法“亲和度”：

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

——————————- – 1

N(Ind_Gov) / N(Aca_Stu)

因此，亲和度为0的算法表示它在产业/政府和学术研究者或学生中的使用情况一致。IG值越高，表示这个算法越“产业向”，越低，表示算法越“学术向”。

2011年的调查中，最“产业向的算法”是：

在最新的调查中，增量建模（uplift modeling）是最“产业向的算法”，令人惊奇的发现是使用它的人非常少——只有3.1%，是这个调查中得票数最少的算法。

最“学术向的算法”是：

下面的图表列出了所有的算法和它们的产业/学术亲和度。

图3：数据科学家最常用的算法：产业 vs 学术

下面的表格列出了所有算法的细节，%表示两次调查中该算法的得票数占比，以及比重的变化（%2016/%2011 -1）。

表3：KDnuggets 2016调查：数据科学家使用的算法

N：按投票数的排序

Algorithm：算法名称

Type: S – 监督（Supervised）, U – 无监督（Unsupervised）, M – 元（Meta）, Z – 其他

2016 % ：2016年该算法的得票率

2011 % ：2011年该算法的得票率

change (%2016 / %2011 – 1)：得票率变化

Industry affinity：如上文解释。

原文链接：http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html