Flink状态后端和CheckPoint 调优
RocksDB 介绍 RocksDB 是嵌入式的 Key-Value 数据库,在 Flink 中被用作 RocksDBStateBackend 的底层存储。如下图所示,RocksDB 持久化的 SST文件在本地文件系统上通过多个层级进行组织,不同层级之间会通过异步Compaction 合并重复、过期和已删除的数据。在 RocksDB 的写入过程中,数据经过序列化后写入到WriteBuffer,WriteBuffer 写满后转换为 Immutable Memt ......
flink
|
2023-01-02
0 评论
441 浏览
Flink作业反压处理
简介 反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为 瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。由于实时计算应用通常使用消息队列来进行生产端和 消费端的解耦,消费端数据源是 pull-based 的,所以反压通常是从某个节点传导至数据源并降低数据源(比如 Kafka consumer)的摄入速率。 简单来说,Flink 拓扑中每个节点(Task)间的数据都以阻塞队列 ......
flink
|
2023-01-06
0 评论
533 浏览
Flink数据倾斜理解
数据倾斜原理 数据倾斜就是数据的分布严重不均,流入部分算子的数据明显多余其他算子,造成这部分算子压力过大。 影响 单点问题 数据集中在某些分区上(Subtask),导致数据严重不平衡。 GC 频繁 过多的数据集中在某些 JVM(TaskManager),使得JVM 的内存资源短缺,导致频繁 GC。 吞吐下降、延迟增大 数据单点和频繁 GC 导致吞吐下降、延迟增大。 系统崩溃 严重情况下,过长的 GC 导致 TaskManager 失联,系统崩溃。 Flin ......
flink
|
2023-01-15
0 评论
465 浏览
Flink SQL 优化
设置空闲状态保留时间 不设置空闲状态保留时间会导致状态爆炸。 FlinkSQL 的 regular join inner 、 left 、 right ),左右表的数据都会一直保存在状态里,不会清理!要么设置 TTL ,要么使用 Flink SQL 的 interval join 。 使用 Top N 语法进行去重,重复数据的出现一般都位于特定区间内(例如一小时或一天内),过了这段时间之后,对应的 状态就不再需要了。 Flink SQL可以指定空闲状态( ......
flink
|
2023-01-29
0 评论
524 浏览
Flink双流Join底层原理
底层原理简介 LState:存储左边数据流中的数据。 RState:存储右边数据流中的数据。 当左边数据流数据到达的时候会保存到LState,并且到RState中进行Join。将Join生成的结果数据发送到下游。 右边数据流中数据到达的时候,会保存到RState当中,并且到LState中进行Join,然后将Join之嚄胡的结果数据发送到下游。 为了保障左右两边流中需要Join的数据出现在相同节点,Flink SQL会利用Join中的on的关联条件进行分 ......
flink
|
2023-02-11
1 评论
630 浏览
linux idea 启动慢、运行慢
解决Idea启动慢,运行慢的问题。
linux
idea
|
2023-07-15
1 评论
5,916 浏览
Flink 常见问题总结
Flink大数据常见问题总结。
flink
|
2023-07-01
1 评论
340 浏览
Linux 安装最新Neovim
Neovim是一个社区驱动的开源项目,是Vim文本编辑器的一个分叉版本,它的构建使Vim更容易为核心开发人员维护。是对vim的一个增强,相比与vim性能更好,速度更快。
nvim
|
2023-05-10
0 评论
1,083 浏览
Linux 安装常见编译工具安装
常见工具安装,包括: 软件备注 m4autoconf依赖 autoconfautoconf依赖 automakeautoconf依赖 libtoolsautoconf依赖 gmpgcc安装依赖 mpfrgcc安装依赖 mpcgcc安装依赖 islgcc安装依赖 gccgcc安装依赖
linux
|
2023-05-29
0 评论
18,746 浏览
记录一次由于Jar包冲突导致的神奇问题
今天同事找我帮忙看一个Flink的问题,现象是前几天还能提交的客户端,就在今天突然提交不了作业了,报错提示大概如下(公司的东西涉密), Caused by: org.apache.flink.api.common.InvalidProgramException: The LocalStreamEnvironment cannot be used when submitting a program through a client, or running in ......
flink
|
2023-05-22
0 评论
1,147 浏览
Flink 配置文件详解
flink 的安装参照:flink 简单入门, 我们来了解下flink的配置文件。
flink
转载
|
2020-05-02
0 评论
1,095 浏览
老电脑如何继续继续工作
本文只适合没钱买新电脑又想用老电脑写代码的人,其他人请绕行。 本文适合比较想学习Linux的人,不想感兴趣的请绕行。
linux
|
2023-05-15
6 评论
1,140 浏览
Debian 9如何升级到Debian 10
由于本人使用的自建代码仓Gitea在docker 19版本存在bug,导致一个MR只能提交一个commit,提交第二个的时候MR就没办法merge了。 当然想要解决这个问题有两个办法: 在Debian 9上面安装Docker 20以后的版本,但是apt源里面没有,可以考虑安装Debian 10对应的Docker。 将Debian 9升级到Debian 10,顺便安装最新版本的Docker,目前版本是23。也能解决我当前的问题。 经过我个人的考虑,Debi ......
debian
升级
|
2023-05-12
0 评论
1,195 浏览
博客接入Google 广告
最近可能是闲的蛋疼,所以打算在自己博客上面接入广告。
生活
原创
|
2019-12-10
98 评论
20,672 浏览
Bolo博客速度优化
背景 可能是实在太无聊了,居然觉得Bolo博客响应有点慢,忍不住看了下代码,发现了一个比较难以接受的现实:Bolo博客中的markdown没事都会调用解析服务区解析。 开发 于是我就加了下面这个函数: public static String toHTML(final String markdownText, String cacheKey) { String cache = RedisCacheUtils.getCache(cacheKey); if (! ......
博客
|
2023-04-24
0 评论
1,249 浏览