【Hadoop】NameNode客户端协议详解

NameNode客户端协议详解 协议的定义主要在类NamenodeProtocols中。如下: public interface NamenodeProtocols extends ClientProtocol, DatanodeProtocol, Dat ......

【Hadoop】Yarn 状态机以及事件机制

简介 Yarn采用了基于事件驱动的并发模型: 所有状态机都实现了EventHandler接口,很多服务(类名通常带有Service后缀)也实现了该接口,它们都是事件处理器。 需要异步处理的事件由中央异步调度器(类名通常带有Dispatcher后缀)统一接 ......

【Hadoop】NameNode 详解

简介 NameNode管理着整个HDFS文件系统的元数据。 从架构设计上看,元数据大致分成两个层次:Namespace管理层,负责管理文件系统中的树状目录结构以及文件与数据块的映射关系; 块管理层,负责管理文件系统中文件的物理块与实际存储位置的映射关系Bl ......

【Hadoop】Yarn 详解

作业提交流程 Yarn 调度器 先进先出调度器 容量调度器 分配算法 公平调度器 调度原理 缺额 资源分配方式 样例 : DRF策略

【Hadoop】HDFS 详解

简介 Namenode 和 Datanode HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。 Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户 ......

【Hadoop】Hudi 基础知识详解

Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表、事务、高效upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发,同时保持数据以开源文件格式保留。 Hudi是Hadoop Upserts and Incre ......

Flink Checkpoint/Savepoint对比

Flink 为作业的容错提供 Checkpoint 和 Savepoint 两种机制。保存点机制(Savepoints)是检查点机制一种特殊的实现,它允许你通过手工方式来触发Checkpoint,并将结果持久化存储到指定路径中,主要用于避免Flink集群在 ......

【Flink】【更新中】状态后端和checkpoint

状态后端和checkpoint详解,包括常见checkpoint问题处理。

Flink资源调优

1. 内存设置 1.1 TaskManager 内存模型 TaskManager的内存模型如下图所示(1.10之后版本内存模型): Flink使用了堆上内存和堆外内存。 Flink 框架内存使用了堆外内存和堆外内存,不计入slot资源。 Task执行的 ......

使用Docker快速搭建Kerberos环境

Kerberos认证在大数据场景下用的比较多,特别是在Hadoop生态下,认证基本用的都是Kerberos认证。一般来讲Kerberos认证相对于其他方式的认证安全很多,同样的认证的时候性能应该差一点。 国内某著名大数据平台MapReduce服务,页叫做云 ......