About Me
   自己搭建博客的原因是现有的博客系统不满足我的要求,简单来说就是看着现有的博客系统不顺眼,现在博客主要内容就是自己平时看的书以及各种想法总结等等。还有就是希望博客上面记载的东西能够帮助到别人。
关于我   原创   |  2019-09-07   28 评论   13,204 浏览

Yarn 作业启动源码解读
   作业启动 作业提交的客户端比较核心的类是Job.java,看作业启动的源码需要从这个类开始看。 Job.java 作业启动的入口函数为waitForCompletion函数。当前函数的核心函数为submit(),主要如下: public void submit() throws IOException, InterruptedException, ClassNotFoundException { ensureState(JobState.DEFINE); s ......
yarn   hadoop   |  2023-12-07   1 评论   501 浏览

【持续更新】hdfs 常见命令
   常见命令记录,总结篇
hadoop   转载   |  2023-11-29   0 评论   479 浏览

Yarn 状态机以及事件机制
   简介 Yarn采用了基于事件驱动的并发模型: 所有状态机都实现了EventHandler接口,很多服务(类名通常带有Service后缀)也实现了该接口,它们都是事件处理器。 需要异步处理的事件由中央异步调度器(类名通常带有Dispatcher后缀)统一接收/派发,需要同步处理的事件直接交给相应的事件处理器。 某些事件处理器不仅处理事件,也会向中央异步调度器发送事件。 事件处理器定义 事件处理器定义如下: @SuppressWarnings("rawty ......
hadoop   |  2023-11-28   0 评论   347 浏览

ResourceManager简介
   简介 ResourceManager(RM),RM是全局的资源管理器,负责整个系统的资源管理和分配。主要由以下两部分组成: 调度器:根据容量、队列限制条件将系统资源分配给各个应用。 资源分配的单位是container,container是一个动态资源单位,它将内存、CPU、磁盘、网络等资源封装在一起,从而限定了资源使用量。 调度器是一个可插拔的组件,用户可以自己定制,也可以选择Fair或Capacity调度器. 应用程序管理器:负责管理所有应用程序的 ......
hadoop   |  2023-11-25   0 评论   489 浏览

nameNode启动过程源码分析
   简介 本章详细介绍NameNode启动过程。主要是代码级别的解释。 nameNode的启动主要是有NameNode.java主导的,由main函数开始了解。 下面是main函数里面的主要内容,可以看到主要由createNameNode实现NameNode的启动。 NameNode namenode = createNameNode(argv, null); if (namenode != null) { namenode.join(); } 在create ......
hadoop   |  2023-11-05   3 评论   538 浏览

NameNode 详解
   简介 NameNode管理着整个HDFS文件系统的元数据。 从架构设计上看,元数据大致分成两个层次:Namespace管理层,负责管理文件系统中的树状目录结构以及文件与数据块的映射关系; 块管理层,负责管理文件系统中文件的物理块与实际存储位置的映射关系BlocksMap,如图1所示。 Namespace管理的元数据除内存常驻外,也会周期Flush到持久化设备上FsImage文件;BlocksMap元数据只在内存中存在; 当NameNode发生重启,首先从持久 ......
hadoop   转载   |  2023-11-04   0 评论   339 浏览

Yarn 详解
   作业提交流程 Yarn 调度器 先进先出调度器 容量调度器 分配算法 公平调度器 调度原理 缺额 资源分配方式 样例 : DRF策略
yarn   hadoop   |  2023-10-22   0 评论   414 浏览

HDFS 详解
   简介 Namenode 和 Datanode HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。 Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。 集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。 HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。 从内部看,一个文件其实被分成一个或多个数据 ......
hdfs   hadoop   |  2023-10-22   1 评论   397 浏览

Hudi 基础知识详解
   Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表、事务、高效upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发,同时保持数据以开源文件格式保留。 Hudi是Hadoop Upserts and Incrementals缩写,用于管理分布式文件系统DFS上大型分析数据集存储。 Hudi是一种针对分析型业务的、扫描优化的数据存储抽象,它能够使DFS数据集在分钟级的时延内支持变更,也支持下游系统对这个数据集的增量 ......
hudi   |  2023-09-28   0 评论   473 浏览

使用Docker快速搭建Kerberos环境
   Kerberos认证在大数据场景下用的比较多,特别是在Hadoop生态下,认证基本用的都是Kerberos认证。一般来讲Kerberos认证相对于其他方式的认证安全很多,同样的认证的时候性能应该差一点。 国内某著名大数据平台MapReduce服务,页叫做云原生数据湖MRS(MapReduce Service),将大数据相关的软件做了整合,其中有部分软件,比如:Redis、Clickhouse等开源社区并没有支持Kerberos认证的软件,华为自己做了Kerb ......
Kerberos   Docker   |  2022-07-16   0 评论   726 浏览

RocksDB 详解
   RocksDB是一个高性能、可扩展、嵌入式、持久化、可靠、易用和可定制的键值存储库。它采用LSM树数据结构,支持高吞吐量的写入和快速的范围查询,可被嵌入到应用程序中,实现持久化存储,支持水平扩展,可以在多台服务器上部署,实现集群化存储,具有高度的可靠性和稳定性,易于使用并可以根据需求进行定制和优化。RocksDB主要使用到了下面知识:
rocksdb   |  2023-09-23   0 评论   407 浏览

Flink基本架构
   Flink 的 Master 节点包含了三个组件: Dispatcher、ResourceManager 和 JobManager。 Dispatcher: 负责接收用户提供的作业,并且负责为这个新提交的作业拉起一个新的 JobManager 服务; ResourceManager: 负责资源的管理,在整个 Flink 集群中只有一个 ResourceManager,资源相关的内容都由这个服务负责; JobManager: 负责管理具体某个作业的执行,在一 ......
flink   |  2023-09-20   1 评论   298 浏览

【Flink】【更新中】状态后端和checkpoint
   状态后端和checkpoint详解,包括常见checkpoint问题处理。
flink   |  2023-08-27   0 评论   338 浏览

java 17运行jar报错:java.lang.UnsatisfiedLinkError: Can't load library:
   在我的Linux笔记本上面运行一个jar包的时候报错如下: Exception in thread "main" java.lang.UnsatisfiedLinkError: Can't load library: /usr/lib/jvm/java-17-openjdk-amd64/lib/libawt_xawt.so at java.base/java.lang.ClassLoader.loadLibrary(ClassLoader.java:2393 ......
linux   |  2023-09-17   1 评论   316 浏览