从0开始学大数据(16)ZooKeeper 是如何保证数据一致性的

你可能还记得,我们在讲 HDFS 和 HBase 架构分析时都提到了 ZooKeeper。在分布式系统里的多台服务器要对数据状态达成一致,其实是一件很有难度和挑战的事情,因为服务器集群环境的软硬件故障随时会发生,多台服务器对一个数据的记录保持一致,需要一些技巧和设计。 这也就是我们今天要讨论的分布式系统一致性与 ZooKeeper 的架构。 在讲分布式系统一致性前,我们先回顾一下 HDFS。HDF
从0开始学大数据(16)ZooKeeper 是如何保证数据一致性的

从0开始学大数据(15)流式计算的代表:Storm、Flink、SparkStreaming

前面介绍的大数据技术主要是处理、计算存储介质上的大规模数据,这类计算也叫大数据批处理计算。顾名思义,数据是以批为单位进行计算,比如一天的访问日志、历史上所有的订单数据等。这些数据通常通过 HDFS 存储在磁盘上,使用 MapReduce 或者 Spark 这样的批处理大数据计算框架进行计算,一般完成一次计算需要花费几分钟到几小时的时间。 此外,还有一种大数据技术,针对实时产生的大规模数据进行即时计
从0开始学大数据(15)流式计算的代表:Storm、Flink、SparkStreaming