【Hadoop】HDFS 详解
   简介 Namenode 和 Datanode HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。 Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。 集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。 HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。 从内部看,一个文件其实被分成一个或多个数据 ......
hdfs   hadoop   |  2023-10-22   1 评论   1,461 浏览

【Hadoop】Yarn 详解
   作业提交流程 Yarn 调度器 先进先出调度器 容量调度器 分配算法 公平调度器 调度原理 缺额 资源分配方式 样例 : DRF策略
yarn   hadoop   |  2023-10-22   0 评论   1,482 浏览

【Hadoop】NameNode 详解
   简介 NameNode管理着整个HDFS文件系统的元数据。 从架构设计上看,元数据大致分成两个层次:Namespace管理层,负责管理文件系统中的树状目录结构以及文件与数据块的映射关系; 块管理层,负责管理文件系统中文件的物理块与实际存储位置的映射关系BlocksMap,如图1所示。 Namespace管理的元数据除内存常驻外,也会周期Flush到持久化设备上FsImage文件;BlocksMap元数据只在内存中存在; 当NameNode发生重启,首先从持久 ......
hadoop   转载   |  2023-11-04   0 评论   1,448 浏览

【Hadoop】Yarn 状态机以及事件机制
   简介 Yarn采用了基于事件驱动的并发模型: 所有状态机都实现了EventHandler接口,很多服务(类名通常带有Service后缀)也实现了该接口,它们都是事件处理器。 需要异步处理的事件由中央异步调度器(类名通常带有Dispatcher后缀)统一接收/派发,需要同步处理的事件直接交给相应的事件处理器。 某些事件处理器不仅处理事件,也会向中央异步调度器发送事件。 事件处理器定义 事件处理器定义如下: @SuppressWarnings("rawty ......
hadoop   |  2023-11-28   0 评论   1,653 浏览

【Hadoop】NameNode客户端协议详解
   NameNode客户端协议详解 协议的定义主要在类NamenodeProtocols中。如下: public interface NamenodeProtocols extends ClientProtocol, DatanodeProtocol, DatanodeLifelineProtocol, NamenodeProtocol, RefreshAuthorizationPolicyProtocol, ReconfigurationProtocol, R ......
hadoop   |  2024-04-25   0 评论   1,805 浏览

使用Docker快速搭建Kerberos环境
   Kerberos认证在大数据场景下用的比较多,特别是在Hadoop生态下,认证基本用的都是Kerberos认证。一般来讲Kerberos认证相对于其他方式的认证安全很多,同样的认证的时候性能应该差一点。 国内某著名大数据平台MapReduce服务,页叫做云原生数据湖MRS(MapReduce Service),将大数据相关的软件做了整合,其中有部分软件,比如:Redis、Clickhouse等开源社区并没有支持Kerberos认证的软件,华为自己做了Kerb ......
Kerberos   Docker   |  2022-07-16   0 评论   1,418 浏览

RocksDB 详解
   RocksDB是一个高性能、可扩展、嵌入式、持久化、可靠、易用和可定制的键值存储库。它采用LSM树数据结构,支持高吞吐量的写入和快速的范围查询,可被嵌入到应用程序中,实现持久化存储,支持水平扩展,可以在多台服务器上部署,实现集群化存储,具有高度的可靠性和稳定性,易于使用并可以根据需求进行定制和优化。RocksDB主要使用到了下面知识:
rocksdb   |  2023-09-23   0 评论   1,104 浏览

【Flink】【更新中】状态后端和checkpoint
   状态后端和checkpoint详解,包括常见checkpoint问题处理。
flink   |  2023-08-27   0 评论   1,125 浏览

java 17运行jar报错:java.lang.UnsatisfiedLinkError: Can't load library:
   在我的Linux笔记本上面运行一个jar包的时候报错如下: Exception in thread "main" java.lang.UnsatisfiedLinkError: Can't load library: /usr/lib/jvm/java-17-openjdk-amd64/lib/libawt_xawt.so at java.base/java.lang.ClassLoader.loadLibrary(ClassLoader.java:2393 ......
linux   |  2023-09-17   1 评论   1,088 浏览

Flink Checkpoint/Savepoint对比
   Flink 为作业的容错提供 Checkpoint 和 Savepoint 两种机制。保存点机制(Savepoints)是检查点机制一种特殊的实现,它允许你通过手工方式来触发Checkpoint,并将结果持久化存储到指定路径中,主要用于避免Flink集群在重启或升级时导致状态丢失。
flink   |  2023-09-10   0 评论   1,058 浏览

dropout 详解
   Dropout是用于防止过拟合和提供一种有效近似联结指数级不同神经网络结构的方法,能够有效的缓解深度网络的过拟合现象.
机器学习   |  2019-08-03   0 评论   2,083 浏览

Auto-Encoding Variational Bayes 笔记
   Auto-Encoding Variational Bayes论文笔记
机器学习   论文   |  2019-08-17   0 评论   2,784 浏览

VARIATIONAL RECURRENT AUTO-ENCODERS 详解
   VARIATIONAL RECURRENT AUTO-ENCODERS 笔记
论文   机器学习   |  2019-08-18   0 评论   2,272 浏览

半监督学习
   在实际生活中,常常会出现一部分样本有标记和较多样本无标记的情形,例如:做网页推荐时需要让用户标记出感兴趣的网页,但是少有用户愿意花时间来提供标记。若直接丢弃掉无标记样本集,使用传统的监督学习方法,常常会由于训练样本的不充足,使得其刻画总体分布的能力减弱,从而影响了学习器泛化性能。那如何利用未标记的样本数据呢?
机器学习   |  2019-08-31   0 评论   2,230 浏览

Conditional Adversarial Nets 详解
   本文提出在利用 GAN(对抗网络)的方法时,在生成模型G和判别模型D中都加入条件信息来引导模型的训练,并将这种方法应用于跨模态问题,例如图像自动标注等。
机器学习   论文   |  2019-10-19   0 评论   2,886 浏览