10 月 30 日百度公布了 2014 年 Q3 财报,营收较 2013 年同比增长 51.8%,移动收入突破 36%。不过在营收和移动业务的亮点之外,我更好奇的是百度在技术和研发——也即在对未来的投资上面的投入。财报显示,2014 年 Q3 百度技术研发投入总计18.32 亿元,同比增长 68%。百度在最近四个季度研发投入超过 60 亿元。我对百度在技术上的投入。
先来看看国外。对于大多数科技公司来说,创新意味着开发新应用或者广告技术,但是 Google 却不这么看。Google 将自己视为一个能产生重大科研项目突破的地方,比如让向偏远和贫困地区提供稳定可靠的无线上网的谷歌热气球(Project Loop)计划;从高空跳伞让每一名观众体验第一人称视角的 Google Glass;连续行驶 30 万英里没有发生一起事故的谷歌无人驾驶汽车,这些(暂不成熟却有未来想象力的)未来产品让谷歌吸引了无数注意力。
自从在机器学习、数据挖掘等领域拥有深厚背景的余凯、以及有谷歌大脑(Google Brain)之父之称的吴恩达,这家公司推出了的无人驾驶汽车、无人驾驶自行车、百度eye及百度大脑等仍处于产品雏形阶段的项目,让百度在深度学习、人工智能领域拥有了国内其它巨头所不具有的巨大的想象空间。
深度学习的价值非常具有诱惑力:在硅谷,Google X 实验室曾经用一万六千个计算机处理器建造了一个包含十亿个节点的神经网络,利用“深度学习”算法,在没有人工干预的前提下,模拟人脑观看一千万部随机的 YouTube 视频截图,这部机器开始在两万个物体的照片中识别出包含“猫”的图片;苹果的 Siri 也运用了深度学习技术,用户使用越多,Siri 会逐渐变得越智能;微软则曾借助深度学习技术将语音识别的错误率降低 30%。
通过深度学习打造的产品表现得非常智能,但深度学习并非教育机器模仿人类去主动思考。相反,深度学习的原理是通过教授机器逐级往下处理信息,并能根据处理信息过程中的反馈不断修正结果,从而提高处理信息从简单到复杂的程度,并逐渐提高用户所感知到的产品的“智能程度”。比如,在处理文本上,深度学习技术让机器识别不仅是理解单词与单词的关系,还能理解通过单词所组成的句子的涵义。
从这个角度来看,对深度学习的研究,需要庞大的数据和计算架构作为支撑。而深度学习对百度的核心产品,如网页搜索、广告、语音识别、光学字符识别等等,具有重要意义;同时,还可以支持具有更大愿景的项目,如各式各样颠覆生活的未来产品。
那么未来产品究竟是什么?如果用一句话来概括,它是通过技术手段,对当前的产品进行颠覆性地改造;并用更具有前瞻性的、更加创新的方式,来彻底改变人的行为方式。现在国内,让人感觉到未来产品离我们也在越来越近。而开发这些未来产品的,是李彦宏亲自担任院长的百度深度学习研究院——由此也可见其重要程度。与神秘的 Google X 实验室的愿景一样,百度深度学习研究院其成就能像当年的施乐帕克研究中心之于现代计算机一样,产生革命性的推动力量。
除了能改变人们的生活,未来产品对企业和社会都有非常有利的作用。从企业而言,可以收集很多数据和用户行为,改善现有产品,同时对未来其他产品打下数据基础。也能借此获得商业上的回报。比如:比如对用户使用习惯、LBS 信息的手机,可以了解用户的生活圈,喜好倾向,在服务的推送上做到精准直达,这样所推荐服务的商业转化率就会更高,高于海量向用户推荐服务的方式。比如自 2012 年开始,百度投入了很多资源研究语音搜索,目前语音识别的准确率已经达到了 94%,并被用在了手机百度、百度语音助手、百度输入法等产品当中。百度还做了图像搜索,开发出了专门的人脸检测和识别算法,使得图片搜索的准确率从原来的 20% 提高到了 80%,这些都是对企业产品的改进。
未来产品拒绝微创新,它提供的产品解决方案目的是解决困扰上百万甚至上千万人的问题。比如就社会层面而言,今年八月份,百度推出的基于大数据的经济指数能为中小企业景气指数和宏观经济指数预测。其中,中小企业景气指数可以实时的反映宏观经济、区域经济、行业经济的景气发展状态,提前预示中小企业在资金链、利润创造能力、抗风险力等经营状况;而宏观经济指数预测则可以对先行指数、一致指数、PPI、PMI 等反映国家经济发展状态的宏观经济指数进行未来三个月的预测。
据百度方面透露,计算数据来自于覆盖国人达 95% 的实时搜索数据,每日超 60 亿次的检索请求,这些海量数据背后表达了大量的企业真实需求和用户行为信息,通过构建核心指标并建模的方式,能够映射企业和用户在实际生产、生活中的趋势和规律,对未来给出预测。
当然,未来产品仍然还有许多挑战,其中包括人工智能挑战与规模的挑战。搜索问题最终需要面临人工智能挑战的问题,搜索引擎需要帮助用户准确且尽快找到信息,这本质上要求搜索引擎算法对互联网的文本、图像和视频等数据进行理解,同时后台技术能力提出挑战,需要最快帮助用户找到信息,并呈现出来;规模的问题则是由于长尾的存在,数据量再大的服务,一般来说大多只能满足常见高频数据请求,但对于非常低频的长尾的需求,满足起来还有一定的困难。
深度学习的指导思想是将计算机科学与神经科学结合。在领导谷歌大脑项目时,吴恩达曾提到,“我发现工程师(擅长计算机科学)和 科学家(擅长神经科学)之间存在着巨大的代沟。”工程师们想要构建成功的人工智能系统,而科学家们却仍未能完全理解人脑错综复杂的工作机制。很长一段时间内,神经科学并不能够为想要建造智能机器的工程师们提供答案。经过吴恩达和其他科学家的努力,这样的局面开始发生改变,美国国家心理卫生研究所(National Institute of Mental Health)主任托马斯·因瑟尔博士(Dr. Thomas Insel)介绍,“业内已经形成共识,谁能搞明白人脑如何计算,谁就能设计出下一代计算机。”而在拥有余凯、吴恩达以及前微软亚洲研究院院长张亚勤的加入,百度在国内拥有了设计出下一代计算机——或者说,创造 The Next Big Thing 的能力。
+++++
「数字弥母」是一个关注科技、互联网、科技趋势的公号,由师北宸运营。欢迎关注:Digital_meme