数据科学(Data Science)被评为二十一世纪最性感的职业,本文将为大家揭示什么是数据科学,它与现有的BI,统计学和机器学习有什么区别和联系。本文的内容编译自Coursera的Data Science课程(Bill Howe讲授)。
首先,让我们来看一下Drew Conway的数据科学维恩图。
[caption id="attachment_1950" align="aligncenter" width="344"] data science venn diagram[/caption]
这张图形象的说明了数据科学的三类必备知识。编程技巧,数学统计学知识和专业领域知识三者缺一不可。同时,也体现了数据科学与传统研究和机器学习的区别。传统研究需要精通数据统计学知识和专业领域知识,而相对欠缺编程技巧;机器学习对编程技巧和数学统计知识的要求较高,而对专业领域知识的要求相对低一些。同时,Drew Conway也提醒,没有数学和统计学知识支撑,而只是编程技巧和专业领域知识的结合是一个危险区域,可能会得出无益而有害的结论。
接下来,我们看一下数据科学家的三个任务:
1、数据清洗(建模前的准备)
解析、抓取、数据格式化
2、数据建模
运用统计学知识对结构化的数据进行建模
3、沟通结果
用可视化的手段展现结果。
Bill在这里特别强调数据科学的产物是数据产品,而不仅仅是回答问题。数据科学可以给予他人使用数据的能力。这里的数据产品包括三类:数据驱动的应用(比如拼写检查器,机器翻译),可交互的可视化(Google flu application),线上的数据库。
最后我们,再来看一下传统的数据工作者想要转型成为数据科学家需要补充哪方面的知识。
如果你是数据库管理员(DBA),那么你需要学习如何处理非结构化数据;
如果你是统计学家,那么你需要学习如果处理无法在内存中处理的数据;
如果你是软件工程师,那么你需要学习统计建模和如果沟通结果;
如果你是商业分析师,那么你需要学习算法和规模权衡。