Hunter
发表于
2017-05-22 02:30:29

从底层到应用，大数据工程师成长之路必备技能汇总

目前很火，数据源头，各种炫酷新技术，搭建hadoop、Hive、Spark、Kylin、Druid、Beam~，前提是你要懂Java，很多平台都是用Java开发的。1、大数据平台目前很火，数据源头，各种炫酷新技术，搭建hadoop、Hive、Spark、Kylin、Druid、Beam~，前提是你要懂Java，很多平台都是用Java开发的。目前很多企业都把数据采集下来了，对于传统的业务数据，用传统的数据是完全够用的，可是对于用户行为和点击行为这些数据或者很多非结构化的数据，文本、图像和文本类的，由于数据量太大，很多公司都不知道怎么进行存储。这里面要解决的是实时、近实时和离线的大数据框架如何搭建，各数据流之间如何耦合和解耦，如何进行容灾、平台稳定、可用是需要重点考虑的。我的感觉是：最近两三年中，这块人才还是很稀缺的，因为大数据概念炒作的这么厉害，很多企业都被忽悠说，我们也来开始进入大数据行业吧。进入的前提之一就是需要把数据存储下来，特别是很多用户行为方面的数据，对于业务的提升比较明显的，如果你能很好的刻画用户，那么对你的产品设计、市场营销、开发市场都是有帮助的。现阶段，很多公司都要做第一步：存储更多的数据。这也是这块人员流动性比较高的原因，都被高薪挖走了。和传统的SQL不同的是，针对大数据量的非结构式数据，我们所想的就是：用最廉价的成本存储数据同时能够达到容灾、扩展性高、高性能、 ...继续阅读 (32)

Hunter
发表于
2017-05-22 01:11:55

Google CEO亲笔信：我们要让AI 触手可及

Google I O 2017首日的Keynote刚刚结束，毫无疑问，AI已经成长为Google 各项产品、服务最为核心的竞争力。与此同时，Google CEO Sundar Pichai 也亲自撰文，向大众阐释了 Google「AI-first」战略更大的「野心」。Google I/O 2017首日的Keynote刚刚结束，毫无疑问，AI已经成长为Google 各项产品、服务最为核心的竞争力。与此同时，Google CEO Sundar Pichai 也亲自撰文，向大众阐释了 Google「AI-first」战略更大的「野心」。本文编译自Google(http://t.cn/RaECH99)，原文标题「Making AI work for everyone」。我进 Google 已经13年了。这么多年来，Google 的使命仍然没有变，那就是整合全球信息，使人人皆可访问并从中受益。自创立之初起，Google 一直努力用深奥的计算机技术和独有的洞察力来解决各种难题。与此同时，科技也带来了翻天覆地的变化。最复杂的问题往往和人们的日常生活相关，看到 Google 成了很多人生活的一部分，我很兴奋——Android 设备月活跃用户刚刚突破20亿;YouTube 不仅有10 亿用户，更有长达10 亿小时的日播放时长;Google 地图日导航里程超 10 亿公里。计算机向移动设备转变的大潮流 ...继续阅读 (59)

Hunter
发表于
2017-05-20 23:00:51

为什么AlphaGo不是真正的人工智能

文章作者 Jean-Christophe BAIllie，是 Novaquark 的创始人兼总裁，他提出了这个观点：「没有机器人，就没有 AI」。在这篇文章中，他强调了什么是 AI 以及为什么 AlphaGo 不是人工智能。图 1：AlphaGo什么是 AI，什么不是 AI?毫无疑问，由 Google DeepMind 设计的围棋人工智能 AlphaGo 是一个很智能的系统。在击败世界冠军李世石后，类似的深度学习技术被用来解决工业领域中的特别难以计算的问题。因为 AlphaGo，人工智能再一次成为焦点话题。然而，作者并不赞同 AlphaGo 就是人工智能，因为它不能让我们在人工通用智能 (AGI) 上达到完全地智能。为了创建一个 AGI，其中一个关键问题就是它不能受到设计者的限制。它会自己理解这个世界。就像人类所做的一样，它对自己所遇到的、听到的、说出的以及所做的每一件事都做出自己的内在解释。而与之相反的是，如今的 AI 程序基本上不会理解正在发生的事情，也不会处理其他领域的问题。所以，到底 AI 的定义是什么呢？也许这就是关于 AI 最基本的问题。1990 年，认知科学家史蒂文·哈纳德（Steven Harnad）在他一篇关于「符号接地问题 (The Symbol Grounding Problem)」[1] 的论文中表达了意义的问题——即系统内部存在的任何表征与实际外部世界之间 ...继续阅读 (21)

Hunter
发表于
2017-05-19 23:00:13

神经网络：比原来更容易学习了

随着黑客、学生、研究人员以及企业数量的增加，神经网络越来越流行。最近一次复苏是在80、90年代，当时几乎没有网络，也没有神经网络相关的工具。本次复苏始于2006年左右。从一个黑客的角度来看，在那个时候都有哪些可用的工具和资源？现在又有哪些？我们对将来的期望又是怎么样的呢？对我个人来说，树莓派上的GPU正是我所期盼的。80、90年代阅读本文的年轻人可能想知道，在互联网没有发明之前，我们这些老家伙是如何接触到新知识的。其实，纸质杂志在当时起到了相当大的作用。比如，《科学美国人》杂志在1992年9月的心灵与大脑特刊便让我第一次接触到了神经网络，既是在生物学上，也是在人工智能学上。在当时，你既可以自己从头编写神经网络程序，也可以从其他地方订购一套包含源代码的软盘。我就曾经在《科学美国人》杂志的《美国科学家》专栏订购了这么一套软盘。当然，你也可以购买一套能够开发低级别的、复杂的数学神经网络开发库。比如，在多伦多大学，就有一个名叫Xerion的免费的模拟器。如果你经常关注书店里科学类书刊的话，你有时候也会发现这方面的书籍，最经典的就是曾经出版过两卷的《并行分布式处理探索》，作者是Rumelhart、 McClelland等人。我最喜欢的一本书是《神经计算与自组织映射导论》，如果你对利用神经网络来控制机械臂感兴趣，这本书对你来说将会受益匪浅。当然，你也可以参加一些短期的课程和会议。我在1994年 ...继续阅读 (31)

Hunter
发表于
2017-05-19 09:00:41

大数据的发展，伴随的将是软件工程师的渐退，算法工程师的崛起

大数据在人类历史长河的各个时期一直存在着，只是要等到技术发展到一定阶段，它才开始崭露头角。而它的未来又在哪里?来自 Intercom 的工程师 Cathal Horan 表达了他对大数据的看法，他认为，未来属于算法，而不是代码。“大数据时代”的称号并不能为当今世界所独享，数据充斥着人类文明历史长河的各个时期。纵观这些历史时期，通过从离散到抽象的转换，我们就会明白为什么算法比代码重要。说到大数据……如果我们把整个人类历史看成一天，那么我们只能从晚上 11 点 7 分开始说起。这是安静的一天。但是在随后的一丁点时间里，我们积攒了很多知识和故事，并打算将它们传达给其他人。你可以想象最开始人类通过对话的形式将知识代代相传，从父辈传给子辈，从老师传给学生。但是整个社会的知识量增长迅速，以至于最初的对话形式无法传达这么多的信息。我们需要将这些信息编撰成册进行保存和传播。通过书写的方式将知识编撰成册代表着这些时期在技术上的重大转变。事实上，苏格拉底(柏拉图“斐德罗篇”里的角色)认为这种技术转变比不上最初的对话形式，担心它会降低我们开发智慧和知识的能力。所以很自然地，我不认为苏格拉底会喜欢电视。问题的核心是，对话代表了一种离散的沟通手段。你知道你的交谈对象是谁，而且参与对话的人通过论证和反证的方式进行直接的互动。反过来，书本是一种抽象的沟通手段，作者和读者之间不存在直接的互动。作者并不知道谁读了他 ...继续阅读 (28)

Hunter
发表于
2017-05-19 07:45:08

R 和 Python 中的文本挖掘：8 个入门小贴士

你希望学习文本挖掘，却发现大多数教程难度跨度很大?或者说你找不到心仪的数据集?本文将会通过 8 个小贴士帮助你走进文本挖掘之门。对文本保持好奇在数据科学世界中，凡事的第一步都是“感到好奇”，文本挖掘也不例外。就像 StackOverflow 的数据科学家 David Robinson 在他的博客中说的那样，“当我看到一个假设 […] 我就迫不及待地想要用数据验证它”。你也应该像他那样对文本保持好奇心。David Robinson 看到的假设是：即使你并不打算真的去验证它，你也应该对自己看到的词云图感到好奇，并且有想要自己动手复现一遍的想法。如果你还未能感受到文本挖掘的魅力，那就来看看这些最近在媒体上广受关注的文本挖掘应用案例吧，比如 South Park dialogue, film dialogue 等等，你会从中得到启发。掌握你所需要的知识和技能当你拥有了好奇心，是时候去学习关于文本挖掘的知识和技能了。你可以通过完成一些教学课程轻松地做到这一步。在这些教程中你需要格外关注的是数据科学工作流中的基本步骤，比如数据预备和预处理，数据探索，数据分析等等。推荐阅读：Ted Kwartler: Text Mining in R: Are Pokémon GO Mentions Really Driving Up Stock Prices?Ted Kwartler: Text Mining ...继续阅读 (34)

Hunter
发表于
2017-05-19 06:30:47

做数据分析时，R 用户如何学习 Python？

本文是帮助 R 用户增强技能和为数据科学进阶而学习 Python (从零开始)。毕竟，R 和 Python 是数据科学从业者必需掌握的两门最重要的编程语言。Python 是一门功能强大和多用途的编程语言，在过去几年取得惊人发展。它过去用于 Web 开发和游戏开发，现在数据分析和机器学习也要用到它。数据分析和机器学习是 Python 应用上相对新的分支。作为初学者，学习 Python 来做数据分析是比较痛苦的。为什么？在谷歌上搜索“Learn Python ”，你会搜到海量教程，但内容只是关于学习 Python 做 Web 开发应用。那你如何找到方法？在本教程，我们将探讨 Python 在执行数据操作任务上的基础知识。同时，我们还将对比在 R 上是如何操作的。这种并行比较有助于你将 R 和 Python 上的任务联系起来。最后，我们将采用一个数据集来练习我们新掌握的 Python 技能。注意：阅读这篇文章时最好具备一定的 R 基础知识。内容概要为什么学习 Python（即使你已经懂 R ）理解 Python 的数据类型和结构（与 R 对比）用 Python 写代码（与 R 对比）用一个数据集实践 Python为什么学习 Python（即使你已经懂R）毫无疑问，R 在它自身的领域是极其强大的，实际上，它最初是用来做统计计算和操作。强大的社区支持使得初学者可以很快掌握 R .但是， Py ...继续阅读 (31)

Hunter
发表于
2017-05-19 04:30:35

大数据洞察报告的变现困境，到底要怎么走出

作者：傅一平“虽然我也如一个囚徒，正寻找着大数据洞察报告的光明”，这是我上篇《为什么没人愿意为大数据洞察报告买单》的结尾词。无独有偶，本周参加了一个大数据研讨会，兄弟公司在这方面的探索让我眼前一亮，特将我的理解分享于你。1、客户现实的大数据洞察报告需求在哪里?KPI是当前大多企业数据运营的核心，如何将KPI指标进行层层分解，直至一线执行末端，然后通过指标的跟踪和评估，及时发现运营中的问题，从而实施改进，这是当前主流的市场运营监控体系要解决的核心问题。KPI这种运作模式助推了BI的发展，因为有了KPI导向，企业一线管理人员才有了取数、报表、指标的需求，进而产生了更高阶的分析和可视化的需求。KPI中的用户发展、业务发展及收入等指标，依赖于企业自己产生的数据，但有一些核心指标，却是无法直接获取的，比如竞品数据，中立的对标数据等，在激烈的市场竞争中，理解竞争对手的发展是任何一家企业KPI分析的重中之重，这类数据也变得弥足珍贵。诸如运营商有各类KPI指标，市场份额是老大最为关注的数据之一，在很多饱和的市场，这种态势尤为明显，企业要发展更多的用户，只有从竞争对手那里获取。在移动互联网时代，寡头效用尤为明显，让这类竞品数据成为了稀缺资源，成为每一个企业KPI需要重点获取和分析的对象。比如联通推出大小王卡，移动当然想知道其发展的态势，优酷会想要了解爱奇艺，淘宝会想要了解京东，熊猫直播会想了解虎牙直 ...继续阅读 (31)

Hunter
发表于
2017-05-19 02:30:46

电商价格大战，亚马逊有一个神秘的“机器人军团”

【AI世代编者按】今年初，沃尔玛商店负责追踪竞争对手商品售价的工程师惊奇地发现，他们每天用来追踪亚马逊网站上商品价格数百万次的技术突然失灵了。无法捕捉亚马逊网站的数据和信息可不是小事。正如多数大型零售商一样，沃尔玛非常依赖电脑程序来扫描竞争对手网站上各种商品的价格，以便能够对自己销售的商品价格进行相应的调整。要知道，同样的商品，如果出现50美分的价格差异，销售结果就如同两重天，贵的一方就会失去很多销售收入。但是，在沃尔玛商店的此类攻势之下，亚马逊并非无动于衷。这不，亚马逊就施展了一个新策略来阻击沃尔玛的这些电脑程序，即著名的机器人技术。相比较而言，亚马逊的机器人技术让沃尔玛的电脑程序相形见绌。据一位不愿意公开姓名的知情人士透露，几周以来，沃尔玛的技术部门——代号为“@WalmartLabs”——一直未能突破亚马逊的上述新技术，为此，该部门不得不通过其它渠道来获取亚马逊的相关数据和信息。如今，作为全球最大的零售网站，亚马逊也因快速送货、庞大的产品类型、以及进军原创电视节目之类的宏伟行动而被消费者熟知。但有一点不可忽视，那就是——支撑亚马逊现代电子商务的背后神秘技术也对该公司的成功起到了至关重要的作用。总而言之，熟练掌握了机器人技术让亚马逊不仅能够看到竞争对手的所作所为，而且也极大地让竞争对手无计可施，无法及时地掌握该公司悄然调整商品价格的信息。对此，亚马逊前经理、现任Boomeran ...继续阅读 (27)

Hunter
发表于
2017-05-18 23:00:45

从淘宝到云端，阿里高可用架构演进实战

写在前面大家好，我今天分享的题目是《高可用实践：从淘宝到上云的差异》，取这个标题是因为会涉及到两个方面内容，一方面以淘宝为例子，传统的 IDC 的时候，我们稳定性是怎么做的，另外在云计算背景下，有很多创业公司是基于阿里云这样的公有云基础设施做研发，在公有云的环境下怎么做好我们系统的高可用。我的花名叫沐剑，2011 年加入淘宝做评价系统，2012-2015 年在店铺平台，负责店铺的前台浏览系统和后台的 RPC 服务，以及一些性能优化、双 11 保障的事情。到了 2015 年开始到了 TAE 团队，开始负责云端架构及整体高可用方案，TAE 的升级版 EWS 现在也在聚石塔上面帮大量 ISV 和创业公司解决运维部署、自动化监控和性能分析等等问题。去年我是作为阿里商家事业部双 11 作战项目研发的 PM。2017 年我开始接手商家营销团队。在阿里五六年的经验，其实就做了几件事，比如连续五年参加了双十一的核心备战，然后像去 IOE、异地多活，全链路压测、安全混合云、容器服务等项目参与设计和实施。首先我会从淘宝店铺角度分享，以前在店铺是怎么样做双 11 保障的，后面是一些公有云相关的内容。淘宝店铺稳定性体系建设这是一个淘宝的店铺系统，这套系统是一个非常典型的高并发的浏览系统，在前几年的双 11 峰值有 20 万次的 Web 页面请求，平均一个页面对应了 20 次的 RPC 调用，这个时候对于整 ...继续阅读 (30)

Hunter
发表于
2017-05-18 09:00:01

你以为人工智能真能超越人类？大错特错！

美国《连线》杂志创始主编凯文-凯利（Kevin Kelly）日前撰文，阐述了当今社会对人工智能的五大误解，并对背后的逻辑和理论展开了详细论述。以下为文章全文：我听到这样一种说法：未来，计算机主导的人工智能将比我们聪明得多，甚至会夺走我们所有的工作和资源，人类则会走向灭亡。果真如此吗？每每谈起人工智能，我总是难免听到这样的问题。提问者都很认真，他们的担忧一定程度上源自各路专家的自问自答，其中包含很多当今世界上最聪明的人，例如史蒂芬-霍金（Stephen Hawking）、伊隆-马斯克（Elon Musk）、麦克斯-泰格马克（Max Tegmark）、山姆-哈里斯（Sam Harris）和比尔-盖茨（Bill Gates）。他们都相信，这番场景很有可能变成现实。而在最近的一场关于人工智能问题的研讨会上，一个由9位大咖组成的委员会一致认同，这种超人类人工智能已经不可避免，而且并不遥远。然而，那些认同超人类人工智能最终将会接管世界的人，内心其实都有5个假设。然而，如果对这5个假设展开细致分析就会发现，这其实都是“无稽之谈”。这些说法未来或许会成为现实，但目前还没有获得证据支撑。关于超人类智能将快速崛起的5大基本假设如下：1、人工智能已经开始超越人类，而且正在以指数级速度发展。2、我们可以开发出像自己一样的通用人工智能。3、我们可以把人类的智能集成在硅片上。4、智能可以无限强化。5、一旦开发 ...继续阅读 (28)

Hunter
发表于
2017-05-18 06:00:35

Google I/O 2017现场手记：挺牛，但真的有点小失望

当地时间2017年5月17日上午10点，2017年Google I/O大会如期在美国山景城海岸线圆形剧场举办。如果老杨没有听错Google CEO的英文发言，约7000名来自85个国家的开发者参加了大会；而且这个大会，在全球多个国家进行了直播，据说观看直播的人超过一亿——所以无论从哪个角度，今天都堪称全球开发者的节日。本届Google I/O已经是第十届了。在过往的历届大会上，我们每每获得了惊喜，Google用它的创新和积累，总能为我们奉上一道技术的盛宴。Android、Chrome、Google Class、Google Play、Google Wear、Google Home……这些现在耳熟能详的名词，都是在这里走向世界。所以，当我第一次可以坐在现场参加发布会的时候，还的确是有点小激动的。距离Keynote开始前20分钟的时候，我甚至用微博发了一个我的预判——或者说，我的期待。但是2个半小时以后，当我随着数千名全球的开发者一起去领午餐的时候，我的感受就是：挺牛，但是真的有点小失望。开场震撼：我们真的进入AI时代了Google I/O大会主论坛的主角当然是Google CEO Sundar Pichai，中国人总是拿他的名字开玩笑，因为发音太像“劈柴”了。但这位出生在印度的大哥可是用Chrome改变了“世界秩序”的大牛，据说当年有意进入Twitter，被谷歌付给5000万美元来阻 ...继续阅读 (34)

Hunter
发表于
2017-05-18 04:33:23

我分析了6.5W字的歌词看到了这样的周杰伦

作者：冬鑫前一段时间分析民谣歌词的那边文章特别火，刚好在研究使用python处理数据，就也想弄个类似东西练练手。于是乎，拉上自己亲妹妹就开始分工。一、准备歌词素材歌词选择：杰伦至今的所有专辑（从最开始的到最新的<周杰伦的床边故事>）由于爬虫木有学会，就只能手动收集歌词。经过一系列的 google、baidu，终于找到别人整理好的歌词全集。ok，就这样歌词文件搞定了，一共也没多大，也就207K（想想周董这么多年唱的歌词大半都在这207K的txt文件里就不免有些感慨）。二、对歌词文件完成分词这是最难的部分，产品汪只会跟程序猿们相爱相杀，哪会写代码呀！！！没办法，硬着头皮也要写。网上goolge各种关键字，看博客，花了半天的时间，连蒙带猜，勉勉强强看懂了网上的代码示例，比着葫芦画瓢写了一点点写。千难万险，终于写完调通，最终主要的部分一共也就12行，没有任何注释（简直乞丐版代码，根本看不出来哪里sexy ~~~~(>_<)~~~~）三、对分词的结果进行分析好,我们终于到了正文，以上都是废话，下边才是重要结论。（如果以这种方式写邮件一定会被老板打死 ?(^?^*) ）结论一：杰伦最喜欢的唱的主题 — 情歌（我自己也知道这是废话 O(∩_∩)O）拉了下出现频率 top20 的词语，满满的都是文艺、伤感、爱情：我们 / 怎么 / 没有 / 微笑 / 离开 / 爱情 / 回忆 / 不要 / 开 ...继续阅读 (26)

Hunter
发表于
2017-05-18 04:30:43

干货！24页PPT读懂基础机器学习算法

本篇内容主要是面向机器学习初学者，介绍常见的机器学习算法，当然，欢迎同行交流。哲学要回答的基本问题是从哪里来、我是谁、到哪里去，寻找答案的过程或许可以借鉴机器学习的套路：组织数据->挖掘知识->预测未来。组织数据即为设计特征，生成满足特定格式要求的样本，挖掘知识即建模，而预测未来就是对模型的应用。特征设计依赖于对业务场景的理解，可分为连续特征、离散特征和组合高阶特征。本篇重点是机器学习算法的介绍，可以分为监督学习和无监督学习两大类。无监督学习算法很多，最近几年业界比较关注主题模型，LSA->PLSA->LDA为主题模型三个发展阶段的典型算法，它们主要是建模假设条件上存在差异。LSA假设文档只有一个主题，PLSA假设各个主题的概率分布不变(theta都是固定的)，LDA假设每个文档和词的主题概率是可变的。LDA算法本质可以借助上帝掷骰子帮助理解，详细内容可参加Rickjin写的《LDA数据八卦》文章，浅显易懂，顺便也科普了很多数学知识，非常推荐。监督学习可分为分类和回归，感知器是最简单的线性分类器，现在实际应用比较少，但它是神经网络、深度学习的基本单元。线性函数拟合数据并基于阈值分类时，很容易受噪声样本的干扰，影响分类的准确性。逻辑回归(Logistic Regression)利用sigmoid函数将模型输出约束在0到1之间，能够有效弱化噪声数据的负面影响，被广泛应用于互联网广告点击 ...继续阅读 (27)

Hunter
发表于
2017-05-18 02:30:46

一文贯通python文件读取

作者：老曹不论是数据分析还是机器学习，乃至于高大上的AI，数据源的获取是所有过程的入口。数据源的存在形式多为数据库或者文件，如果把数据看做一种特殊格式的文件的话，即所有数据源都是文件。获得数据，就是读取文件的操作，文件有各种各样的格式即数据的组织形式，如何方便快捷地获取文件中的内容呢？还是那句名言，life is short， just use python。操作基础在python 中，文件的操作分为面向目录和面向文件的，本质都是一样的。面向目录的常见操作见下表：方法作用方法作用os.getcwd()得到当前目录os.listdir()列出所有文件和目录os.removedirs（ xxx）删除多个目录os.chdir(“xxx”)切换路径os.path.isdir（）是否是目录os.path.isabs()是否是绝对路径os.path.exists（）路径是否存在os.path.sep路径分隔符shutil.copytree（）复制目录os.rmdir（）删除目录os.mkdir（“xxx”）创建目录os.mkdir是（）创建多级目录os.path.split()返回路径的目录名和文件名os.path.splitext()分离扩展名os.path.dirname()获取路径名os.path.basename()获取文件名os.getenv()获取环境变量os.putenv() ...继续阅读 (44)

Hunter
发表于
2017-05-18 01:57:45

继谷歌、Facebook之后，亚马逊开源的深度学习工具又能带来什么？

新智元：亚马逊也被吹上“flow”的风口：继Facebook公开其深度学习训练平台FBLearner Flow细节后，亚马逊昨日下午突然宣布开源其深度学习和机器学习工具DSSTNE，并表示与相比其他深度学习工具，DSSTNE尤其擅于训练稀疏数据。近年来，谷歌，FB和OpenAI先后搭建平台，亚马逊也宣布工具开源，人工智能系统未来开源趋势已成，国内公司何时跟上国际潮流？2016年5月11日下午，亚马逊在GitHub网站将其深度学习和机器学习工具DSSTNE开源（译注：DSSTNE与英语“destiny”谐音）。亚马逊方面称，与其他开源工具相比，DSSTNE尤其擅长训练稀疏数据。新智元第一时间搜集信息，并获得内部核心开发人员对这款工具的详解。向来在开源上不那么积极的亚马逊有了新动作。难道最近在科技巨头间掀起了一股“开源”的浪潮？我们能否期待接下来苹果也会把它家的深度学习来个开源？玩笑说到这里，下面我们就一起来看看，亚马逊这个DSSTNE深度学习工具到底有什么用处。| DSSTNE是什么？根据GitHub网站消息，DSSTNE是英文“Deep Scalable Sparse Tensor Network Engine”的简写，即“深度可伸缩的稀疏张量网络工具”。亚马逊相关研究团队对DSSTNE的描述是 “一个使用GPU训练和部署深度神经网络的开源工具”。亚马逊的工程师最初创建DSSTNE ...继续阅读 (25)

Hunter
发表于
2017-05-16 09:00:40

机器理解大数据的秘密：聚类算法深度详解

在理解大数据方面，聚类是一种很常用的基本方法。近日，数据科学家兼程序员 Peter Gleeson 在 freeCodeCamp 发布了一篇深度讲解文章，对一些聚类算法进行了基础介绍，并通过简单而详细的例证对其工作过程进行了解释说明。看看下面这张图，有各种各样的虫子和蜗牛，你试试将它们分成不同的组别?不是很难吧，先从找出其中的蜘蛛开始吧! 完成了吗?尽管这里并不一定有所谓的「正确答案」，但一般来说我们可以将这些虫子分成四组：蜘蛛、蜗牛、蝴蝶/飞蛾、蜜蜂/黄蜂。很简单吧?即使虫子数量再多一倍你也能把它们分清楚，对吗?你只需要一点时间以及对昆虫学的热情就够了——其实就算有成千上万只虫子你也能将它们分开。但对于一台机器而言，将这 10 个对象分类成几个有意义的分组却并不简单——在一门叫做组合学(combinatorics)的数学分支的帮助下，我们知道对于这 10 只虫子，我们可以有 115,975 种不同的分组方式。如果虫子数量增加到 20，那它们可能的分组方法将超过 50 万亿种。要是虫子数量达到 100，那可能的方案数量将超过已知宇宙中的粒子的数量。超过多少呢?据我计算，大约多 500,000,000,000,000,000,000,000,000,000,000,000 倍，已是难以想象的超天文数字!但其中大多数分组方案都是无意义的，在那些浩如烟海的分组选择中，你只能找到少量有用的 ...继续阅读 (24)

Hunter
发表于
2017-05-16 07:30:02

一个框架解决几乎所有机器学习问题

文章转自雷锋网上周一个叫 Abhishek Thakur 的数据科学家，在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem，介绍他建立的一个自动的机器学习框架，几乎可以解决任何机器学习问题，项目很快也会发布出来。这篇文章迅速火遍 Kaggle，他参加过100多个数据科学相关的竞赛，积累了很多宝贵的经验，看他很幽默地说“写这样的框架需要很多丰富的经验，不是每个人都有这样的经历，而很多人有宝贵的经验，但是他们不愿意分享，我呢恰好是又有一些经验，又愿意分享的人”。当然这篇文章也是受到争议的，很多人觉得并不全面。我最近也在准备参加 Kaggle，之前看过几个例子，自己也总结了一个分析的流程，今天看了这篇文章，里面提到了一些高效的方法，最干货的是，他做了一个表格，列出了各个算法通常需要训练的参数。这个问题很重要，因为大部分时间都是通过调节参数，训练模型来提高精度。作为一个初学者，第一阶段，最想知道的问题，就是如何调节参数。因为分析的套路很简单，就那么几步，常用的算法也就那么几个，以为把算法调用一下就可以了么，那是肯定不行的。实际过程中，调用完算法后，结果一般都不怎么好，这个时候还需要进一步分析，哪些参数可以调优，哪些数据需要进一步处理，还有什么更合适的算法等等问题。接下来一起来看一下他的框架。据说数据科 ...继续阅读 (35)

Hunter
发表于
2017-05-16 06:00:08

经验之谈：如何为你的机器学习问题选择合适的算法？

随着机器学习越来越流行，也出现了越来越多能很好地处理任务的算法。但是，你不可能预先知道哪个算法对你的问题是最优的。如果你有足够的时间，你可以尝试所有的算法来找出最优的算法。本文介绍了如何依靠已有的方法（模型选择和超参数调节）去指导你更好地去选择算法。本文作者为华盛顿大学 eScience Institute 和 Institute for Neuroengineering 的数据科学博士后 Michael Beyeler。步骤 0：了解基本知识在我们深入学习之前，我们先重温基础知识。具体来说，我们应该知道机器学习里面三个主要类别：监督学习，无监督学习和强化学习。在监督学习（supervised learning）中，每个数据点都会获得标注，如类别标签或与数值相关的标签。一个类别标签的例子：将图片分类为「猫」或「狗」；数值标签的例子如：预测一辆二手车的售价。监督学习的目的是通过学习许多有标签的样本，然后对新的数据做出预测。例如，准确识别新照片上的动物（分类）或者预测二手车的售价（回归）。在无监督性学习（unsupervised learning）中，数据点没有相关的标签。相反，无监督学习算法的目标是以某种方式组织数据，然后找出数据中存在的内在结构。这包括将数据进行聚类，或者找到更简单的方式处理复杂数据，使复杂数据看起来更简单。在强化学习（reinforcement learning） ...继续阅读 (29)

Hunter
发表于
2017-05-16 04:30:15

分布式系统，你真的了解吗?

作者：韩伟韩伟腾讯互娱研发部高级工程师我们邀请腾讯互娱研发部高级工程师韩伟，分享他所理解的分布式系统。由于内容较多，将分三篇进行讲述，本期第一篇先来看看他眼中的分布式系统究竟是什么吧。承载量是分布式系统存在的原因当一个互联网业务获得大众欢迎的时候，最显著碰到的技术问题，就是服务器非常繁忙。当每天有1000万个用户访问你的网站时，无论你使用什么样的服务器硬件，都不可能只用一台机器就承载的了。因此，在互联网程序员解决服务器端问题的时候，必须要考虑如何使用多台服务器，为同一种互联网应用提供服务，这就是所谓“分布式系统”的来源。然而，大量用户访问同一个互联网业务，所造成的问题并不简单。从表面上看，要能满足很多用户来自互联网的请求，最基本的需求就是所谓性能需求：用户反应网页打开很慢，或者网游中的动作很卡等等。而这些对于“服务速度”的要求，实际上包含的部分却是以下几个：高吞吐、高并发、低延迟和负载均衡。高吞吐，意味着你的系统，可以同时承载大量的用户使用。这里关注的整个系统能同时服务的用户数。这个吞吐量肯定是不可能用单台服务器解决的，因此需要多台服务器协作，才能达到所需要的吞吐量。而在多台服务器的协作中，如何才能有效的利用这些服务器，不致于其中某一部分服务器成为瓶颈，从而影响整个系统的处理能力，这就是一个分布式系统，在架构上需要仔细权衡的问题。高并发是高吞吐的一个延伸需求。当我们在承载海量用户 ...继续阅读 (38)

Hunter
发表于
2017-05-16 02:30:22

Github开源|神经网络自主编程第一步：可自动完成代码补全和修复

家都知道神经网络目前还不能“编程”，但现在一项新的工作“Neual Complete”，朝着这个方向迈出了第一步。程序员 Pascal van Kooten训练了一个神经网络，可以自动补全另一个神经网络的代码，相当于神经网络在“编程”。现代码已在 Github 开源。人工智能具有解决软件开发中的一个古老问题的潜力——代码编写或操纵其他代码的能力的概念已经存在了很长时间，一般称为元编程（它实际上起源于20世纪50年代末的Lisp），它解决的难题，大多数目前都还在人们的想象之中。使用人工智能，计算机能够理解一个软件开发项目从无到有的发展历史过程中的所有代码，并立即改进或者删除单独一行代码中的bug，不管是用什么编程语言。即便是一个缺乏经验的或者中等水平的程序员都能讲清楚让计算机自我编程的原理。由此，一个癌症项目的研究可能几天或者几个月就能完成，而不需要花费好几年的时间，这将带来显著的进步。最近在Github上，我们又发现了这一技术的新动向，研究员kootenpv发布了一个名为Neural Complete（神经网络补全技术）的模型，使用自动补全技术，研究者训练了一个神经网络，用于帮助写神经网络的代码。听起来有些拗口，下面这个动图可以清晰地看到结果：Neural CompleteNeural Complete（神经网络补全技术）是一种基于生成LSTM 神经网络的自动补全技术，它不仅用p ...继续阅读 (23)

Hunter
发表于
2017-05-16 01:02:14

机器学习和图像识别是怎样彻底改变搜索的？

简介文本内容一般很好搜索，但有很多信息是以其他形式存在的。语音识别将音频-以及视频配乐-转换成可以索引和搜索的文本。但如果是视频本身，或其它的图片内容呢?如果不仅仅是在页面上寻找指出图片相关性的文字或是说明，那么在网络上搜索图片将准确很多。幸好有使用神经网络和深度学习的机器学习技术，使得这个设想成为可能。标题之争微软和Facebook的研究人员创建了一个含有人工标记250万个物品、超过300,000张图片的大规模数据库(被称为Common Objects in Context)，他们声称四岁孩子都可以识别出这些对象。所以微软的一批机器学习方面的研究人员决心看看他们的系统对同样的图片能处理到何种程度——不仅仅是识别它们，还要把它们分离为不同的对象，为每个对象命名并写下能描述整张图片的标题。为了评测结果，他们请一部分人写下个人认为的图片标题，再请另外一部分人比较图片的两个标题并选出他们认为比较适合的标题。“这是真正能检测质量的办法，”微软研究院的著名科学家约翰·普莱特(John Platt)说道，“到底人们对这些标题是什么看法呢?23%的标题被认为和人总结写下的标题水平相当。也就是说大概有四分之一的时候这台机器能够达到人的水平。”部分问题是视觉识别器。有时它可能会把猫识别成狗，或是认为长毛的都是猫，又或是把人指着雕塑的图片识别为包含足球。这是一个小团队历经夏天的四个月就能达到的水平，而 ...继续阅读 (23)

Hunter
发表于
2017-05-15 09:00:23

沈向洋无惧BAT逼宫：微软培养了中国几乎所有 IT 公司的CTO

微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士（Harry Shum）在 Build 大会发表主旨演讲后，接受了包括新智元在内的几家受邀媒体的采访。他在采访中谈到了微软的 AI 人才流失问题，对腾讯等公司到西雅图招揽AI人才进行了回应。同时，作为微软去年整合的 5000 AI 人才军团的负责人，沈向洋谈到了他们的四个主要发力方向。最后，有记者问到，陆奇去了百度，微软还会跟百度合作吗？来看看沈向洋的答案。2017年05月10日，微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋博士（Harry Shum）在微软全球开发者大会（Build）发表主旨演讲后，接受了包括新智元在内的几家受邀媒体的采访。采访中，沈向洋博士认为Cortana代表了AI的未来，他多次提到Conversational AI，也即对话式AI。在他看来，智能语音市场远远没有饱和，各大巨头都在做智能语音助理，正表明这是一个正确的方向，而在亚马逊Alexa/Echo，谷歌Google Home等先入产品面前，微软的机会仍然有很多。微软将利用小娜、小冰的优势，从语音方面发力。所不同的是，沈向洋提到，他认为“AI对人类情感的理解将会是非常了不起的一件事”，“大多数的人还没有认识到能够不断聊下去这件事情的重要性”。而在这一点上，微软的小冰遥遥领先于其他智能语音助理，平均多轮对话次数是目前业界最高的23 ...继续阅读 (26)

Hunter
发表于
2017-05-15 07:30:56

何时浅探，何时深究—机器学习不是一张纸就能说完的

机器学习、深度学习与人工智能的崛起已经成为一项不争的事实，且开始对计算机科学领域产生极为深远的影响。正如大家所知，截至目前，在从图像识别到围棋竞技的众多领域内，深度学习的实际表现已经将人类远远甩在身后。深度学习社区目前正在将自然语言处理（简称NLP）视为技术研究与应用的下一个前沿。深度学习的一大优势在于，其水平提升往往能够在各类场景下实现通用。举例来说，在某一领域中适用于深度学习的具体技术通常可以直接转移至其它领域，而无需经过任何修改。更具体地讲，构建大量计算密集型图像与语音识别类深度学习模型的方法已经全面渗透至自然语言处理当中。在最新、最先进的翻译系统的帮助下，这套系统足以带来远胜以往的实际表现——当然，仍需要大量计算设备作为配合。尽管我们必须利用性能极强的系统从现实世界数据当中偶然发现高度复杂的分析模型，但在另一方面，这些模型将能够以规模化方式应用于其它多种任务。而这就提出了新的问题：是否一切任务都有必要使用如此复杂的模型？下面我们一起来看一套双层式MLP模型，其已经接受相关训练并可实现情感分析。这是一套简单的深度学习系统，我们将其称为“词袋”模型，它会把句子分为正或负两类。最终可视化效果由词袋模型中双层MLP架构中处于上层的T-SNE隐藏层实现。每个数据点对应一个句子，并根据深度学习系统的预测结论与真实目标标以不同颜色。图中的边界框体根据句子的内容进行绘制。感兴趣的朋友可以通 ...继续阅读 (25)

Hunter
发表于
2017-05-15 06:00:06

看得“深”、看得“清” —— 深度学习在图像超清化的应用

作者：张雨石日复一日的人像临摹练习使得画家能够仅凭几个关键特征画出完整的人脸。同样地，我们希望机器能够通过低清图像有限的图像信息，推断出图像对应的高清细节，这就需要算法能够像画家一样“理解”图像内容。至此，传统的规则算法不堪重负，新兴的深度学习照耀着图像超清化的星空。图1. 最新的Pixel递归网络在图像超清化上的应用。左图为低清图像，右图为其对应的高清图像，中间为算法生成结果。这是4倍超清问题，即将边长扩大为原来的4倍。得益于硬件的迅猛发展，短短几年间，手机已更新了数代，老手机拍下的照片在大分辨率的屏幕上变得模糊起来。同样地，图像分辨率的提升使得网络带宽的压力骤增。如此，图像超清化算法就有了用武之地。对于存放多年的老照片，我们使用超清算法令其细节栩栩如生；面对网络传输的带宽压力，我们先将图像压缩传输，再用超清化算法复原，这样可以大大减少传输数据量。传统的几何手段如三次插值，传统的匹配手段如碎片匹配，在应对这样的需求上皆有心无力。深度学习的出现使得算法对图像的语义级操作成为可能。本文即是介绍深度学习技术在图像超清化问题上的最新研究进展。深度学习最早兴起于图像，其主要处理图像的技术是卷积神经网络，关于卷积神经网络的起源，业界公认是Alex在2012年的ImageNet比赛中的煌煌表现。虽方五年，却已是老生常谈。因此卷积神经网络的基础细节本文不再赘述。在下文中，使用CNN（Convol ...继续阅读 (19)

Hunter
发表于
2017-05-15 04:30:01

程序员最讨厌的不是产品经理，而是……

你们猜猜，作为程序员你们最讨厌做的事是什么？产品经理频繁修改需求？不是。测试天天给你提交不可理喻的 bug ？也不是。接手别人交接的如火星文一样的烂代码？其实也不是。其实我搞了一个文字游戏，叫最讨厌做的事，而不是最讨厌的事，上述几点，可能是你最讨厌的事，但是你又可能不能不做。有一种令人发指的讨厌就是你讨厌别人不去做，而自己又毫无察觉的在犯这个错误，却心安理得，而程序员在什么情况下，才会这样做呢？程序员最讨厌的四件事：写注释、写文档、别人不写注释、别人不写文档。不错，今天我们就来谈谈程序员最讨厌做的这件事：写注释。程序员该不该写注释？其实对于写注释这件事来说，还是有一定的争议的，争议其实不在于该不该写注释，而是在于不要过多的写注释，注释多了，反而会让你感觉整个代码比较混乱不堪，影响视觉。而且有人为什么不太鼓励大家过多的去写注释呢？因为代码即注释，何为代码即注释？代码是具有自解释功能的，高质量，命名规范的代码，其实程序员应该一眼就能够看懂这段代码的功能作用是什么？所以，程序员到底该不该写注释？要我说：该，但是要注意分寸。如何注意分寸？优秀的程序员可以少写注释优秀的程序员都是懒的。因为懒，他才会写出各种各样的工具来替自己干活。因为懒，他才会想办法避免去写无聊重复的代码——因此避免的代码的冗余，削减了代码的维护成本，使重构变得更加容易。最终，这些由于懒惰激发出的动力而开发出的工具和最佳编程 ...继续阅读 (29)

Hunter
发表于
2017-05-15 02:30:39

猎豹CEO傅盛：关于深度学习的五个思考

作者：傅盛任何一场革命，绝不是以敲锣打鼓的方式，来到你的身边。等到某一天，你忽然发现快要天翻地覆时，再去看，发现自己已被别人抛弃了。过去以端为中心的技术革命，不能说结束了，但已不再是时代的风口。技术，进入了一场以数据为驱动的革命。互联网不再只是一张虚拟的网，而更像是一个大数据库。大量的数据，沉甸甸，就在那里。没有人知道，怎么把这些数据，更加完整清晰的表达出来。我们需要重新思考技术的致胜点。怎么思考呢?我讲几个关键点。1、数据和运算能力，变得越来越重要。孔子说过一句话：“学而不思则罔，思而不学则殆”。先说，学而不思则罔。你拿了很多知识，不深度学习，不行。如果你没有运算能力，有了一堆数据，算不出来，没用。不是深度越深，效果越好。这是个复杂的问题。需要不停算，不停实验。今天，整个深度学习的理论，还不够成熟，依然落后于实践。更多时候，只能靠试。此时，运算能力，就变得非常关键。假如，别人做一次运算，要两个礼拜，而你只需要一天或2个小时。同样时间内，你可以做更多实验，积累更多宝贵经验，迭代速度也更快。这就好像，两个人起点一样，但由于迭代速度不同，导致了最后成就的千差万别。每一次迭代，相当于你的一次翻版。你是一天迭代一次，还是一年迭代一次。你对自己翻版本的速度有多快，决定你最后以多大的成果超过对手。思而不学则殆呢?简单说，如果你没有数据，一点用都没有。这个时代越来越需要海量数据。数据量越大越好。 ...继续阅读 (23)

Hunter
发表于
2017-05-15 01:33:53

【干货】用python抓取摩拜单车API数据并做可视化分析(源码)

在APP中能看到很多单车，但走到那里的时候，才发现车并不在那里。有些车不知道藏到了哪里；有些车或许是在高楼的后面，由于有GPS的误差而找不到了；有些车被放到了小区里面，一墙之隔让骑车人无法获得到车。那么有没有一个办法通过获得这些单车的数据，来分析这些车是否变成了僵尸车？是否有人故意放到小区里面让人无法获取呢？带着这些问题，我开始了研究如何获取这些数据。从哪里获得数据如果你能够看到数据，那么我们总有办法自动化的获取到这些数据。只不过获取数据的方式方法决定了获取数据的效率。对于摩拜单车的数据分析这个任务而言，这个爬虫要能够在短时间内（通常是10分钟左右）获取到更多的数据，对于数据分析才有用处。那么数据来源于哪里？最直接的来源是摩拜单车的APP。现代的软件设计都讲究前后端分离，而且服务端会同时服务于APP、网页等。在这种趋势下我们只需要搞清楚软件的HTTP请求就好了。一般而言有以下一些工具可以帮忙：直接抓包：Wireshark （在路由器或者电脑）Shark for Root (Android)用代理进行HTTP请求抓包及调试：Fiddler 4CharlesPacket Capture (Android)由于我的手机没有root，在路由器上抓包又太多的干扰，对于https也不好弄。所以只能首先采用Fiddler或者Charles的方式试试。挂上Fiddler的代理，然后在手机端不停的移 ...继续阅读 (41)

Hunter
发表于
2017-05-13 23:00:59

最全解析：大数据和机器学习有什么区别

作者：YCM1101743158大数据的定义大数据(big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是一个笼统的概念暂未发现和准确的定义。大数据的核心是利用数据的价值，机器学习是利用数据价值的关键技术，对于大数据而言，机器学习是不可或缺的。相反，对于机器学习而言，越多的数据会越可能提升模型的精确性，同时，复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术。因此，机器学习的兴盛也离不开大数据的帮助。大数据与机器学习两者是互相促进，相依相存的关系。机器学习与大数据紧密联系。但是，必须清醒的认识到，大数据并不等同于机器学习，同理，机器学习也不等同于大数据。大数据中包含有分布式计算，内存数据库，多维分析等等多种技术。单从分析方法来看，大数据也包含以下四种分析方法：1.大数据，小分析：即数据仓库领域的OLAP分析思路，也就是多维分析思想。2.大数据，大分析：这个代表的就是数据挖掘与机器学习分析法。3.流式分析：这个主要指的是事件驱动架构。4.查询分析：经典代表是NoSQL数据库。也就是说，机器学习仅仅是大数据分析中的一种而已。尽管机器学习的一些结果具有很大的魔力，在某种场合下是大数据价值最好的说明。但这并不代表机器学习是大 ...继续阅读 (28)

Hunter
发表于
2017-05-12 23:00:52

分布式计算开源框架Hadoop入门实践（二）

作者：岑文初其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了，不过这里既然写了就再多写一点，同时有一些细节需要注意的也说明一下，其实也就是这些细节会让人摸索半天。Hadoop可以单机跑，也可以配置集群跑，单机跑就不需要多说了，只需要按照Demo的运行说明直接执行命令即可。这里主要重点说一下集群配置运行的过程。环境7台普通的机器，操作系统都是Linux。内存和CPU就不说了，反正Hadoop一大特点就是机器在多不在精。JDK必须是1.5以上的，这个切记。7台机器的机器名务必不同，后续会谈到机器名对于MapReduce有很大的影响。部署考虑正如上面我描述的，对于Hadoop的集群来说，可以分成两大类角色：Master和Slave，前者主要配置NameNode和JobTracker的角色，负责总管分布式数据和分解任务的执行，后者配置DataNode和TaskTracker的角色，负责分布式数据存储以及任务的执行。本来我打算看看一台机器是否可以配置成Master，同时也作为Slave使用，不过发现在NameNode初始化的过程中以及TaskTracker执行过程中机器名配置好像有冲突（NameNode和TaskTracker对于Hosts的配置有些冲突，究竟是把机器名对应IP放在配置前面还是把Localhost对应IP放在前面有点问题，不过可能也是我自己的问题吧，这个大家 ...继续阅读 (32)