01、Flink 基础概念

1、Flink是什么？

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算（官网解释）用松鼠logo的原因:希望这个项目（Flink）能做到快速灵活的大数据的处理，Flink在德语里面表示快速灵巧这玩意是德国的

Flink应用场景

批处理和流处理
流数据更真实的反映了我们的生活方式
我们的目标:

事务处理（比如后台管理系统）计算层管理层 OLTP
分析处理 (数据量可以很大，但是不能实时 HIVE) OLAP

Lambda架构 （第二代）
用两套系统，同时保证低延迟和结果准确

核心特点

应用场景

分层API

越顶层越抽象，表达含义越简明，使用越方便
越底层越具体，表达能力越丰富，使用越灵活

SQL  最高层语言
Table API  声明式领域专用语言 
DataStream/DataSetAPI  核心APls  --> 重要
有状态流处理  底层APls   process function  (理论上啥都能做 相当于自定义处理函数  自定义API)

特点总结：

Spark 适合处理批次数据

输入数据流 ->  SparkStreaming  ->  ‘微批次’数据  -> Spark引擎   --> 处理后”微批次“数据

Flink 适合处理流数据

有界数据流
无界数据流