2025年05月25日浏览 799 大数据

DistCp源码解析

说明 DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Redu ......

2025年05月25日浏览 526 大数据

leaseManager详解

简介 HDFS作为一个分布式文件系统，只允许一个客户端同时对一个文件进行修改操作。租约就是为了实现独占的写操作的机制。 HDFS租约的主要实现类是LeaseManager。 Lease 的使用场景如下：客户端在申请创建新的文件或者向文件追加都会先向N ......

2025年05月16日浏览 788 大数据

webhdfs详解

简介 hdfs提供了一种除了通过rpc的方式进行文件操作的方式之外，还提供了http的方式对文件进行操作的方式：webhdfs。支持HDFS 的完整FileSystem / FileContext接口。其中Router和NameNode都支持了webhd ......

2025年04月13日浏览 10 大数据

Hadoop Yarn的ResourceManager压测指南

Hadoop自带的hadoop-sls只能用于压测调度器，可在实际中影响ResourceManager性能的因素比较多，不能只看调度器。当前项目可构造海量的Fake NM节点，用于模拟线上RM的巨大压力场景，进行优化。详细参见：https://gith ......

2025年04月13日浏览 500 大数据

【Hadoop仿真】如何在仿真NodeManager中实现心跳

Hadoop自带的hadoop-sls只能用于压测调度器，可在实际中影响ResourceManager性能的因素比较多，不能只看调度器。当前项目可构造海量的Fake NM节点，用于模拟线上RM的巨大压力场景，进行优化。首先需要对NM进行仿真。

2025年03月29日浏览 471 大数据

Mapredcue作业启动

Mapreduce作业启动源码解析，从源码开始理解Mapreduce。

2025年03月09日浏览 893 博客相关

Gitea 自建代码仓流量大坑

背景前端时间租的腾讯云服务器是按照流量计费的，最近一段时间流量走的老快了，并且发现默认1G的带宽老是卡。原因通过分析nginx的日志发现有大量的爬虫在大批量的访问代码仓。导致占用了大量带宽。解决 nginx中过滤爬虫在nginx中配置下面信息，过 ......

2025年03月02日浏览 318 大数据

container-executor 详解

简介 container-executor 是NodeManager管理Container很重要的一个工具，是深入学习Yarn作业调度不可缺少的一个知识点，值得深入学习。本文只描述比较基础的功能点(目前不会包含Docker相关)。核心功能点 checks ......

2024年12月01日浏览 427 其他

Idea Hadoop 源码YarnServiceProtos无法补全问题

问题现象使用IDEA打开Hadoop源码之后，发现YarnServiceProtos部分代码无法补全，已经安装了protobuf相关的插件。原因以及解决方法再打开YarnServiceProtos文件的时候会提示类似文件过大无法打开的文字，所以可能是 ......

2024年11月04日浏览 324 大数据

Capacity调度器源码解析

简介源码解析 Capacity 调度器的核心类是CapacityScheduler。在初始化CapacityScheduler的时候，在构造函数initAsyncSchedulingProperties，里面会初始化调度器相关。核心类是AsyncSc ......

DistCp源码解析

leaseManager详解

webhdfs详解

Hadoop Yarn的ResourceManager压测指南

【Hadoop仿真】如何在仿真NodeManager中实现心跳

Mapredcue作业启动

Gitea 自建代码仓流量大坑

container-executor 详解

Idea Hadoop 源码YarnServiceProtos无法补全问题

Capacity调度器源码解析

访问最多的文章

存档

公告

分类

标签

访问最多的文章

存档