Apache Flink:Stream and Batch Processing in a Single Engine

论文主要内容: 这篇论文主要介绍了Apache Flink,一个开源系统,用于处理流数据和批量数据。主要内容包括: Flink的软件架构由四层组成:部署层、核心层、API层和库层。核心层是一个分布式数据流引擎,执行数据流程序。API层包括批处理API DataSet和流处理API DataStream。库层包括机器学习库FlinkML、图处理库Gelly等。 Flink将流处理作为统一的数据处理模
Apache Flink:Stream and Batch Processing in a Single Engine

从0开始学大数据(15)流式计算的代表:Storm、Flink、SparkStreaming

前面介绍的大数据技术主要是处理、计算存储介质上的大规模数据,这类计算也叫大数据批处理计算。顾名思义,数据是以批为单位进行计算,比如一天的访问日志、历史上所有的订单数据等。这些数据通常通过 HDFS 存储在磁盘上,使用 MapReduce 或者 Spark 这样的批处理大数据计算框架进行计算,一般完成一次计算需要花费几分钟到几小时的时间。 此外,还有一种大数据技术,针对实时产生的大规模数据进行即时计
从0开始学大数据(15)流式计算的代表:Storm、Flink、SparkStreaming