IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    Facebook的Realtime Hadoop及其应用

    Guancheng (G.C.)发表于 2011-07-17 07:38:27
    love 0

    在今年的SIGMOD‘11上,Facebook又发了一篇新paper(点此下载),讲述了它们在提高Hadoop实时性上的工作及其应用。简单来讲,他们的项目需求主要有:

    1. Elasticity(伸缩性)
    2. High write throughput(高写吞吐量)
    3. Efficient and low-latency strong consistency semantics within a data center(单个data center内高性能、低延迟的强一致性)
    4. Efficient random reads from disk(disk的高性能随机读)
    5. High Availability and Disaster Recovery(高可靠性、灾后恢复能力)
    6. Fault Isolation(错误隔离)
    7. Atomic read-modify-write primitives(read-modify-write原子操作)
    8. Range Scans(范围扫描)

    最终他们选择了Hadoop和HBase作为解决方案的基石,因为HBase已经满足了上述需求中的大部分。与此同时,他们还做了如下三点改进以满足实时性需求:
    1. File Appends
    2. Name Node的高可靠性优化 (AvatarNode)
    3. HBase的读性能的优化

    文章还列举了三个基于此方案的应用:Facebook Message,Facebook Insight,Facebook Metric Systems,大家可以着重看看这三个应用的特点及需求是怎样被这个方案满足的。

    在现在这个时代,只有大公司才有如此大的数据来做新东西,难怪Facebook,Google的paper被大量追捧了。

    参考资料:
    [1] Facebook’s New Realtime Analytics System: HBase To Process 20 Billion Events Per Day
    [2] Real Time Analytics for Big Data: An Alternative Approach

    下面是这篇文章的slides:

    Realtime Apache Hadoop at Facebook
    View more presentations from parallellabs

    相关日志

    • 05/30/2012 Facebook技术分享: Social Networking at Scale
    • 05/09/2012 Understanding System and Architecture for Big Data
    • 08/25/2013 Impala:新一代开源大数据分析引擎
    • 05/17/2012 为什么NoSQL和Hadoop该一起使用?
    • 01/09/2012 X-RIME: 基于Hadoop的开源大规模社交网络分析工具


沪ICP备19023445号-2号
友情链接