之前笔者在介绍 Flink 1.11 Hive Streaming 新特性时提到过,Flink SQL 的 FileSystem Connector 为了与 Flink-Hive 集成的大环境适配,做了很多改进,而其中最为明显的就是分区提交(partition commit)机制。


本文先通过源码简单过一下分区提交机制的两个要素——即触发(trigger)和策略(policy)的实现,然后用合并小文件的实例说一下自定义分区提交策略的方法。



在最新的 Flink SQL 中,FileSystem Connector 原生支持数据分区,并且写入时采用标准 Hive 分区格式,如下所示。




  


PartitionCommitTrigger 解决了分区何时对下游可见的问题,而 PartitionCommitPolicy 解决的是对下游可见的标志问题。根据官方文档,我们可以通过 sink.partition-commit.policy.kind 参数进行配置,一共有三种提交策略(可以组合使用):



  




  

Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略 ​-LMLPHP  福利来了  Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略 ​-LMLPHP

Apache Flink 极客挑战赛

Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略 ​-LMLPHP

本文分享自微信公众号 - Flink 中文社区(gh_5efd76d10a8d)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

09-08 02:28