Flink状态后端和CheckPoint 调优
   RocksDB 介绍 RocksDB 是嵌入式的 Key-Value 数据库,在 Flink 中被用作 RocksDBStateBackend 的底层存储。如下图所示,RocksDB 持久化的 SST文件在本地文件系统上通过多个层级进行组织,不同层级之间会通过异步Compaction 合并重复、过期和已删除的数据。在 RocksDB 的写入过程中,数据经过序列化后写入到WriteBuffer,WriteBuffer 写满后转换为 Immutable Memt ......
flink   |  2023-01-02   0 评论   441 浏览

Flink作业反压处理
   简介 反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为 瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。由于实时计算应用通常使用消息队列来进行生产端和 消费端的解耦,消费端数据源是 pull-based 的,所以反压通常是从某个节点传导至数据源并降低数据源(比如 Kafka consumer)的摄入速率。 简单来说,Flink 拓扑中每个节点(Task)间的数据都以阻塞队列 ......
flink   |  2023-01-06   0 评论   533 浏览

Flink数据倾斜理解
   数据倾斜原理 数据倾斜就是数据的分布严重不均,流入部分算子的数据明显多余其他算子,造成这部分算子压力过大。 影响 单点问题 数据集中在某些分区上(Subtask),导致数据严重不平衡。 GC 频繁 过多的数据集中在某些 JVM(TaskManager),使得JVM 的内存资源短缺,导致频繁 GC。 吞吐下降、延迟增大 数据单点和频繁 GC 导致吞吐下降、延迟增大。 系统崩溃 严重情况下,过长的 GC 导致 TaskManager 失联,系统崩溃。 Flin ......
flink   |  2023-01-15   0 评论   465 浏览

Flink SQL 优化
   设置空闲状态保留时间 不设置空闲状态保留时间会导致状态爆炸。 FlinkSQL 的 regular join inner 、 left 、 right ),左右表的数据都会一直保存在状态里,不会清理!要么设置 TTL ,要么使用 Flink SQL 的 interval join 。 使用 Top N 语法进行去重,重复数据的出现一般都位于特定区间内(例如一小时或一天内),过了这段时间之后,对应的 状态就不再需要了。 Flink SQL可以指定空闲状态( ......
flink   |  2023-01-29   0 评论   524 浏览

Flink双流Join底层原理
   底层原理简介 LState:存储左边数据流中的数据。 RState:存储右边数据流中的数据。 当左边数据流数据到达的时候会保存到LState,并且到RState中进行Join。将Join生成的结果数据发送到下游。 右边数据流中数据到达的时候,会保存到RState当中,并且到LState中进行Join,然后将Join之嚄胡的结果数据发送到下游。 为了保障左右两边流中需要Join的数据出现在相同节点,Flink SQL会利用Join中的on的关联条件进行分 ......
flink   |  2023-02-11   1 评论   630 浏览

linux idea 启动慢、运行慢
   解决Idea启动慢,运行慢的问题。
linux   idea   |  2023-07-15   1 评论   5,916 浏览

Flink 常见问题总结
   Flink大数据常见问题总结。
flink   |  2023-07-01   1 评论   340 浏览

Linux 安装最新Neovim
   Neovim是一个社区驱动的开源项目,是Vim文本编辑器的一个分叉版本,它的构建使Vim更容易为核心开发人员维护。是对vim的一个增强,相比与vim性能更好,速度更快。
nvim   |  2023-05-10   0 评论   1,083 浏览

Linux 安装常见编译工具安装
   常见工具安装,包括: 软件备注 m4autoconf依赖 autoconfautoconf依赖 automakeautoconf依赖 libtoolsautoconf依赖 gmpgcc安装依赖 mpfrgcc安装依赖 mpcgcc安装依赖 islgcc安装依赖 gccgcc安装依赖
linux   |  2023-05-29   0 评论   18,746 浏览

记录一次由于Jar包冲突导致的神奇问题
   今天同事找我帮忙看一个Flink的问题,现象是前几天还能提交的客户端,就在今天突然提交不了作业了,报错提示大概如下(公司的东西涉密), Caused by: org.apache.flink.api.common.InvalidProgramException: The LocalStreamEnvironment cannot be used when submitting a program through a client, or running in ......
flink   |  2023-05-22   0 评论   1,147 浏览

Flink 配置文件详解
   flink 的安装参照:flink 简单入门, 我们来了解下flink的配置文件。
flink   转载   |  2020-05-02   0 评论   1,095 浏览

老电脑如何继续继续工作
   本文只适合没钱买新电脑又想用老电脑写代码的人,其他人请绕行。 本文适合比较想学习Linux的人,不想感兴趣的请绕行。
linux   |  2023-05-15   6 评论   1,140 浏览

Debian 9如何升级到Debian 10
   由于本人使用的自建代码仓Gitea在docker 19版本存在bug,导致一个MR只能提交一个commit,提交第二个的时候MR就没办法merge了。 当然想要解决这个问题有两个办法: 在Debian 9上面安装Docker 20以后的版本,但是apt源里面没有,可以考虑安装Debian 10对应的Docker。 将Debian 9升级到Debian 10,顺便安装最新版本的Docker,目前版本是23。也能解决我当前的问题。 经过我个人的考虑,Debi ......
debian   升级   |  2023-05-12   0 评论   1,195 浏览

博客接入Google 广告
   最近可能是闲的蛋疼,所以打算在自己博客上面接入广告。
生活   原创   |  2019-12-10   98 评论   20,672 浏览

Bolo博客速度优化
   背景 可能是实在太无聊了,居然觉得Bolo博客响应有点慢,忍不住看了下代码,发现了一个比较难以接受的现实:Bolo博客中的markdown没事都会调用解析服务区解析。 开发 于是我就加了下面这个函数: public static String toHTML(final String markdownText, String cacheKey) { String cache = RedisCacheUtils.getCache(cacheKey); if (! ......
博客   |  2023-04-24   0 评论   1,249 浏览