【Hadoop】jobhistory 作业缓存源码详解

jobhistory 作业缓存 jobhistory 一般会保存一部分作业信息到内存中,查询作业信息的时候一般会从内存查询,如果内存查询不到就会从磁盘上扫描。 jobhistory 缓存一般分为两层,第一层是guava缓

【Hadoop】NameNode客户端协议详解

NameNode客户端协议详解 协议的定义主要在类NamenodeProtocols中。如下: public interface NamenodeProtocols extends ClientProtocol, Dat

【Hadoop】FSDirectory详解

Namenode最重要的两个功能之一就是维护整个文件系统的目录树(即命名空间namesystem) 。 HDFS文件系统的命名空间(namespace) , 也就是以“/”为根的整个目录树, 是通过FSDirectory

【Hadoop】Yarn 作业启动源码解读

作业启动 作业提交的客户端比较核心的类是Job.java,看作业启动的源码需要从这个类开始看。 Job.java 作业启动的入口函数为waitForCompletion函数。当前函数的核心函数为submit(),主要如下

【Hadoop】【持续更新】hdfs 常见命令

常见命令记录,总结篇

【Hadoop】Yarn 状态机以及事件机制

简介 Yarn采用了基于事件驱动的并发模型: 所有状态机都实现了EventHandler接口,很多服务(类名通常带有Service后缀)也实现了该接口,它们都是事件处理器。 需要异步处理的事件由中央异步调度器(类名通常

Flink Checkpoint/Savepoint对比

Flink 为作业的容错提供 Checkpoint 和 Savepoint 两种机制。保存点机制(Savepoints)是检查点机制一种特殊的实现,它允许你通过手工方式来触发Checkpoint,并将结果持久化存储到指定

【Flink】【更新中】状态后端和checkpoint

状态后端和checkpoint详解,包括常见checkpoint问题处理。

使用Docker快速搭建Kerberos环境

Kerberos认证在大数据场景下用的比较多,特别是在Hadoop生态下,认证基本用的都是Kerberos认证。一般来讲Kerberos认证相对于其他方式的认证安全很多,同样的认证的时候性能应该差一点。 国内某著名大数据

flink 简单入门

最近开始学习flink相关的,本文只是讲述怎么简单的搭建flink以及简单的使用一个demo。