这是《Scalable Big Data Architecture》一书的翻译笔记和读书札记,使用了原书中的大量图片,融入自己的部分观点 ….
数据管理比以往更加复杂,到处都是大数据,包括每个人的想法以及不同的形式:广告 , 社交图谱,信息流 ,推荐 ,市场, 健康, 安全, 政府等等.过去的三年里,成千上万的技术必须处理汇合在一起的大数据获取,管理 和分析; 技术选型对IT部门来说是一件艰巨的任务,因为在大多数时间里没有一个综合的方法来用于选型.
当自己面临选择的时候,通常会问如下的问题: 什么时候需要考虑在IT系统中使用大数据? 准备好使用了么? 从哪里开始? 感觉大数据只是一种市场趋势,我还是应该去做么?这些问题萦绕着CIO和CTO们,当决定部署一个全局化分布式大数据架构时,可能会把企业置于危险之中。
本章目的时定义大数据的表征—换句话说,就是什么时候需要考虑将大数据放入架构。 但是,也指出了各种大数据技术的区别,能够理解在何种情况使用哪种技术。
最后, 基于真实世界的例子,构建了典型分布式大数据架构的基础模型。
基于不同的需要,可能选择开始大数据项目s: 因为所需处理的数据容量, 因为系统中数据结构的多样性, 因为扩展性问题, 或者因为需要削减数据处理的