Flink实战】Flink对接Kafka Connetor使用docker部署kafka

er localhost:9092 --topic xdclass-topic --from-beginning #开两个窗口可测试生产者消费者成功链接 测试案例 import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.api.datastream.DataS...

Flink实战】玩转Flink里面核心的Source Operator实战

目录导航 Flink 的API层级介绍Source Operator速览Flink 预定义的Source 数据源 案例实战Flink自定义的Source 数据源案例-订单来源实战 Flink 的API层级介绍Source Operator速览 Flink的API层级 为流式/批式处理应用程序的开发提供了不同级别的抽象 第一层是最底层的抽象为有状态实时流处理,抽象实现是 Process Function,用...

Flink实战系列】Hash collision on user-specified ID “Kafka Source”

Hash collision on user-specified ID “Kafka Source” 在使用 fromSource 构建 Kafka Source 的时候,遇到下面的报错,下面就走进源码,分析一下原因。 Exception in thread "main" java.lang.IllegalArgumentException: Hash collision on user-specifie...

Flink实战】新老用户方案优化使用状态与布隆过滤器的方式

目录导航 什么是布隆过滤器新的需求:使用Flink 新老用户->状态+布隆过滤器标识核心代码代码详解结果字段截取 什么是布隆过滤器 布隆过滤器(Bloom Filter)是一种经过哈希函数处理的数据结构,用于快速判断一个元素是否可能存在于一个集合中。它可以用来检索大规模数据集中的元素,过滤掉不存在的元素,从而减少昂贵的磁盘或网络访问操作。 布隆过滤器的核心思想是使用一个位数组(通常由二进制位组成)和多个哈...

Flink DataStream 体系

前言 本文隶属于专栏《大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 思维导图 正文 对 Flink 这种以流为核心的分布式计算引擎而言,数据流是核心数据抽象,表示一个持续产生的数据流,与 Apache Beam 中的 PCollection 的概念类似。 在 Flink 中使用 DataStream 表示数据流, DataStream 是一种逻辑概念,并不是...

大数据Flink(七十六):SQL的渐进式窗口(CUMULATE)

文章目录 SQL的渐进式窗口(CUMULATE) SQL的渐进式窗口(CUMULATE) 渐进式窗口定义:渐进式窗口在其实就是 固定窗口间隔内提前触发的的滚动窗口,其实就是 Tumble Window + early-fire 的一个事件时间的版本。 例如,从每日零点到当前这一分钟绘制累积 UV,其中 10:00 时的 UV 表示从 00:00 到 10:00 的 UV 总数。 ...

Flink算子如何限流

目录 使用方法 调用类图 内部源码  GuavaFlinkConnectorRateLimiter RateLimiter 使用方法 重写AbstractRichFunction中的open()方法,在处理数据前调用limiter.acquire(1); 调用limiter.open(getRuntimeContext())的源码,实际内部是RateLimiter,根据并行度算出subTask中RateLi...

大数据Flink(七十四):SQL的滑动窗口(HOP)

文章目录 SQL的滑动窗口(HOP) SQL的滑动窗口(HOP) 滑动窗口定义:滑动窗口也是将元素指定给固定长度的窗口。与滚动窗口功能一样,也有窗口大小的概念。不一样的地方在于,滑动窗口有另一个参数控制窗口计算的频率(滑动窗口滑动的步长)。因此,如果滑动的步长小于窗口大小,则滑动窗口之间每个窗口是可以重叠。在这种情况下,一条数据就会分配到多个窗口当中。举例,有 10 分钟大小的窗口,滑动步长为 5 分钟。...

大数据Flink(七十三):SQL的滚动窗口(TUMBLE)

口(TUMBLE) SQL的滚动窗口(TUMBLE) 滚动窗口定义:滚动窗口将每个元素指定给指定窗口大小的窗口。滚动窗口具有固定大小,且不重叠。例如,指定一个大小为 5 分钟的滚动窗口。在这种情况下,Flink 将每隔 5 分钟开启一个新的窗口,其中每一条数都会划分到唯一一个 5 分钟的窗口中,如下图所示。 ...

大数据Flink(六十四):Flink运行时架构介绍

文章目录 Flink运行时架构介绍 一、系统架构 二、​​​​​​​​​​​​​​整体构成 三、作业管理器(JobManager) 四、任务管理器(TaskManager) Flink运行时架构介绍 我们已经对 Flink 的主要特性和部署提交有了基本的了解,那它的内部又是怎样工作的,集群配置设置的一些参数又到底有什么含义呢? 接下来我们就将钻研 Flink 内部,探讨它的运行时架构,详细分析在不同部署环...
© 2024 LMLPHP 关于我们 联系我们 友情链接 耗时0.010078(s)
2024-04-30 17:04:00 1714467840