Hadoop Yarn的ResourceManager压测指南
   Hadoop自带的hadoop-sls只能用于压测调度器,可在实际中影响ResourceManager性能的因素比较多,不能只看调度器。 当前项目可构造海量的Fake NM节点,用于模拟线上RM的巨大压力场景,进行优化。 详细参见:https://github.com/zeekling/yarnRmTester
hadoop   Yarn   ResourceManager   原创   |  2025-04-13   0 评论   10 浏览

Mapredcue作业启动
   Mapreduce作业启动源码解析,从源码开始理解Mapreduce。
hadoop   mapreduce   |  2025-03-29   0 评论   390 浏览

linux idea 启动慢、运行慢
   解决Idea启动慢,运行慢的问题。
linux   idea   |  2023-07-15   1 评论   6,967 浏览

Gitea 自建代码仓流量大坑
   背景 前端时间租的腾讯云服务器是按照流量计费的,最近一段时间流量走的老快了,并且发现默认1G的带宽老是卡。 原因 通过分析nginx的日志发现有大量的爬虫在大批量的访问代码仓。导致占用了大量带宽。 解决 nginx中过滤爬虫 在nginx中配置下面信息,过滤掉大量爬虫的请求。 if ($http_user_agent ~ "(meta-externalagent|Amazonbot|ClaudeBot|Baiduspider|SemrushBot|bing ......
gitea   |  2025-03-09   0 评论   700 浏览

container-executor 详解
   简介 container-executor 是NodeManager管理Container很重要的一个工具,是深入学习Yarn作业调度不可缺少的一个知识点,值得深入学习。本文只描述比较基础的功能点(目前不会包含Docker相关)。 核心功能点 checksetup 主要是检查container-executor的配置是否ok,没有其他功能。核心代码如下: case CHECK_SETUP: //we already did this exit_code ......
hadoop   |  2025-03-02   0 评论   258 浏览

Idea Hadoop 源码YarnServiceProtos无法补全问题
   问题现象 使用IDEA打开Hadoop源码之后,发现YarnServiceProtos部分代码无法补全,已经安装了protobuf相关的插件。 原因以及解决方法 再打开YarnServiceProtos文件的时候会提示类似文件过大无法打开的文字,所以可能是这个文件过大导致Idea没有加载,所以代码无法补全。 在idea.properties中增加下面配置之后重启Idea发现可以补全了。 idea.max.intellisense.filesize=6000 ......
idea   |  2024-12-01   0 评论   385 浏览

Capacity调度器源码解析
   简介 源码解析 Capacity 调度器的核心类是CapacityScheduler。在初始化CapacityScheduler的时候,在构造函数initAsyncSchedulingProperties,里面会初始化调度器相关。 核心类是AsyncSchedulingConfiguration,主要内容总结为:初始化异步调度器线程AsyncScheduleThread,可以初始化多个,调度支持多线程。 AsyncScheduleThread继承自Thre ......
hadoop   |  2024-11-04   0 评论   272 浏览

router启动详解
   简介 为了解决HDFS的水平扩展性问题,社区从Apache Hadoop 0.23.0版本开始引入了HDFS federation。HDFS Federation是指 HDFS集群可同时存在多个NameNode/Namespace,每个Namespace之间是互相独立的; 单独的一个Namespace里面包含多个 NameNode,其中一个是主,剩余的是备,这个和上面我们介绍的单Namespace里面的架构是一样的。这些Namespace共同管理整个集群的数 ......
hadoop   |  2024-10-10   0 评论   443 浏览

hadoop 主备倒换控制器:ZKFailoverController详解
   简介 HDFS的NameNode、Yarn的ResourceManager都是依靠ZK实现主备倒换的。核心的类为:ZKFailoverController.java, 选举的核心类为ActiveStandbyElector.java 主备选举 主备选举的核心类是ActiveStandbyElector。在初始化的时候需要创建zk连接并且尝试在zk上面创建文件。在创建连接或者创建文件的时候都会有回调事件。 回调处理的函数主要包含: 创建node节点回调 入口函 ......
hadoop   |  2024-09-22   0 评论   534 浏览

Hadoop 认证模块详解
   客户端认证 客户端的入口函数为 KerberosAuthenticator.authenticate函数 连接HTTP服务端 HttpURLConnection conn = token.openConnection(url, connConfigurator); conn.setRequestMethod(AUTH_HTTP_METHOD); conn.connect(); SPNEGO认证 对于普通的HTTP的kerberos认证(SPNEGO),需要 ......
hadoop   |  2024-09-01   0 评论   789 浏览

ContainerManager详解
   简介 ContainerManager主要负责NM中管理所有Container生命周期,其主要包含启动Container、恢复Container、停止Container等功能。 主要功能由ContainerManagerImpl类实现,具体代码可以参考当前类。 初始化 初始化主要分为两部分: ContainerManagerImpl实例的构造函数和serviceInit函数。 构造函数 当前函数为构造函数,主要初始化必须要的一些变量等。 dispatche ......
hadoop   yarn   |  2024-08-01   1 评论   676 浏览

BPServiceActor详解
   简介 BPServiceActor 主要在DataNode中用于和NameNode沟通的类。主要功能如下: 与 namenode 进行预注册握手。 向 namenode 注册。 定期向 namenode 发送心跳。 处理从 namenode 收到的命令。 核心功能 BPServiceActor的入口函数为start函数,当前类本身为runnable接口的实现类,所以在start函数里面新建了BPServiceActor线程,并且将其启动, 所以其真实的启 ......
hadoop   |  2024-07-21   0 评论   1,135 浏览

【Hadoop】【持续更新】hdfs 常见命令
   常见命令记录,总结篇
hadoop   转载   |  2023-11-29   0 评论   2,214 浏览

【Hadoop】ResourceManager简介
   简介 ResourceManager(RM),RM是全局的资源管理器,负责整个系统的资源管理和分配。主要由以下两部分组成: 调度器:根据容量、队列限制条件将系统资源分配给各个应用。 资源分配的单位是container,container是一个动态资源单位,它将内存、CPU、磁盘、网络等资源封装在一起,从而限定了资源使用量。 调度器是一个可插拔的组件,用户可以自己定制,也可以选择Fair或Capacity调度器. 应用程序管理器:负责管理所有应用程序的 ......
hadoop   |  2023-11-25   0 评论   2,097 浏览

neovim 从0开始配置优化
   neovim是从vim的一个分支fork出来的,从性能等方面来讲都比vim强很多,所以从vim转到neovim了。 本文涉及的neovim配置都在https://git.zeekling.cn/linux/nvim-config/src/branch/master里面。 快速使用方法: ```bash git clone https://git.zeekling.cn/linux/nvim-config.git ~/.config/nvim # 或者 git ......
neovim   |  2024-06-09   2 评论   2,262 浏览