浪浪山下那个村

2025年07月06日 23:18:06 | 140 浏览 | 0 评论 | zookeeper

简介启动源码分析 Zookeeper启动的主类为QuorumPeerMain.java 。入口函数文为initializeAndRun，如下所示，在往下的核心函数为runFromConfig。 QuorumPeerMain main = new QuorumPeerMain(); try { main.initializeAndRun(args); } catch (IllegalArgumentException e) { // 启动异常处理。 } LOG.info("Exiting normally"); ServiceUtils.requestSystemExit(ExitCode.EXECUTION_FINISHED.getValue()); runFromConfig函数里面主要做了下面几件事：初始化log4j相关的jmx。初始化监控相关组件。初始化认证相关组件。设置基础配置信息。启动Zookeeper。由quorumPeer.start(); 开始。相关的类为：QuorumPeer.java public void runFromConfig(Qu....

用idea 运行Zookeeper是报错 com.codahale.metrics.Reservoir找不见

2025年06月28日 21:31:06 | 185 浏览 | 0 评论 | zookeeper

问题现象用idea 运行Zookeeper是报错 com.codahale.metrics.Reservoir找不见。问题原因 Zookeeper-server下面的pom.xml 里面引用jar的时候加了<scope>provided</scope>导致IDEA加载不到依赖的包。所以只要将其注释掉即可。解决办法将Zookeeper-server下面的pom.xml里面的全部的<scope>provided</scope>注释掉，重新编译即可。

distributedShell 样例源码详解

2025年06月15日 16:46:25 | 229 浏览 | 0 评论 | hadoop Yarn

简介 distributedShell是Yarn自带的应用程序，和MR类似，当前工具可以用来对Yarn进行压测。使用示例参考命令如下： ./bin/hadoop jar ./share/hadoop/yarn/hadoop-yarn-applications-distributedshell-3.4.1.jar \ -jar ./share/hadoop/yarn/hadoop-yarn-applications-distributedshell-3.4.1.jar -shell_command \ '/bin/date' -num_containers 5 可以提交一个样例作业到Yarn上面。源码阅读当前样例的入口类是org.apache.hadoop.yarn.applications.distributedshell.Client ，在pom文件里面默认定义了当前类为主类。所以在提交的时候可以不用指定主类。 <plugin> <artifactId>maven-jar-plugin</artifactId> <execu....

HDFS 报错：Permission denied: user=dr.who, access=WRITE, inode="/":hadoop01

2025年06月08日 22:22:32 | 192 浏览 | 0 评论 | hadoop

背景新建的HDFS使用web短上传文件的时候报错： Permission denied: user=dr.who, access=WRITE, inode="/":hadoop01 解决在core-site.xml中增加下面配置,其中hadoop01为hdfs运行的用户，修改完重启hdfs即可。 <property> <name>hadoop.http.staticuser.user</name> <value>hadoop01</value> </property>

DistCp源码解析

2025年06月01日 22:35:31 | 199 浏览 | 0 评论 | mapreduce hadoop distcp

说明 DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法，这个工具在语义和执行上都会有特殊的地方。这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。源码详解作业启动作业的启动主要包含初始化和作业提交，在初始化阶段主要是list左右需要拷贝的文件信息，根据文件信息构造split信息。作业提交阶段就是根据初始化阶段构造的split信息，将作业提交到Yarn上面。作业初始化初始化阶段主要是list左右需要拷贝的文件信息，根据文件信息构造split信息。 DistCp的入口函数是main函数，在main函数里面主要做了两件事：注册Cleanup。初始化和启动作业，核心处理函数为execute函数里面的createAndSubmitJob 创建Job对象,主要是指定Map的处理类，InputFormat 和outputFormat 信息: Job job = ....

leaseManager详解

2025年05月25日 18:37:05 | 113 浏览 | 0 评论 | hadoop hdfs

简介 HDFS作为一个分布式文件系统，只允许一个客户端同时对一个文件进行修改操作。租约就是为了实现独占的写操作的机制。 HDFS租约的主要实现类是LeaseManager。 Lease 的使用场景如下：客户端在申请创建新的文件或者向文件追加都会先向NameNode申请获得inode或者最后一个块的信息在NameNode中FSNamesystem会调用recoverLeaseInternal检查文件是否是UnderConstruction，是UnderConstruction的前提下，在leaseManager中是否这个client已经持有租约，如果有则抛出已经持有租约的异常再检查文件的原来的租约持有者的的租约是否超过了软限制，如果超过了软限制则执行租约恢复internalReleaseLease进行租约恢复。因为在文件是UnderConstruction前提下检查，文件必定有一个租约持有者，所以，直接抛出已经有另一个租约持有者的异常。如果文件不是在UnderConstruction状态，则直接为这个发起请求的客户端构造租约，加入到LeaseManager的租约维护的集合中....

webhdfs详解

2025年05月25日 18:19:11 | 148 浏览 | 0 评论 | hadoop hdfs

简介 hdfs提供了一种除了通过rpc的方式进行文件操作的方式之外，还提供了http的方式对文件进行操作的方式：webhdfs。支持HDFS 的完整FileSystem / FileContext接口。其中Router和NameNode都支持了webhdfs的功能，具体实现有差别。使用文件系统URI与HTTP URL WebHDFS的文件系统方案为“ webhdfs：// ”。WebHDFS文件系统URI具有以下格式。 webhdfs://<主机>:<HTTP_PORT>/<PATH> 上面的WebHDFS URI对应于下面的HDFS URI。 hdfs://<主机>:<RPC_PORT>/<PATH> 在REST API中，在路径中插入前缀“ /webhdfs/v1 ”，并在末尾附加查询。因此，相应的HTTP URL具有以下格式。 http://<主机>:<HTTP_PORT>/webhdfs/v1/<PATH>?op=create 详细可以参考：https://h....

Hadoop Yarn的ResourceManager压测指南

2025年04月24日 23:28:49 | 9 浏览 | 0 评论 | hadoop Yarn ResourceManager 原创

Hadoop自带的hadoop-sls只能用于压测调度器，可在实际中影响ResourceManager性能的因素比较多，不能只看调度器。当前项目可构造海量的Fake NM节点，用于模拟线上RM的巨大压力场景，进行优化。详细参见：https://github.com/zeekling/yarnRmTester