安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。
当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义……继续阅读 »
wangting
6年前 (2017-12-19) 2491浏览
0个赞
一、什么是FSImage和EditsLog
我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。那么HDFS是如何及时更新这些metadata的呢?
在H……继续阅读 »
wangting
6年前 (2017-12-19) 2157浏览
0个赞
num-executors
参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作……继续阅读 »
wangting
6年前 (2017-12-15) 1420浏览
2个赞
一、CAP理论概述
分布式领域中存在CAP理论,且该理论已被证明:任何分布式系统只可同时满足两点,无法三者兼顾。
①C:Consistency,一致性,数据一致更新,所有数据变动都是同步的。
②A:Availability,可用性,系统具有好的响应性能。
③P:Partition tolerance,分区容错性。
因此,将精力浪费在思考如何设计能满足三者的完……继续阅读 »
wangting
6年前 (2017-12-07) 1653浏览
0个赞
众所周知通常分布式架构都是中心化的设计,就是一个主控机连接多个处理节点。问题可以从这里考虑,当主控机失效时,整个系统则就无法访问了,所以保证系统的高可用性是非常关键之处,也就是要保证主控机的高可用性。分布式锁就是一个解决该问题的较好方案,多主控机抢一把锁。在这里我们就涉及到了我们的重点Zookeeper。
ZooKeeper是什么,chubby 我想大家都不……继续阅读 »
wangting
6年前 (2017-12-07) 2549浏览
0个赞
zookeeper集群
配置多个实例共同构成一个集群对外提供服务以达到水平扩展的目的,每个服务器上的数据是相同的,每一个服务器均可以对外提供读和写的服务,这点和redis是相同的,即对客户端来讲每个服务器都是平等的。
这篇主要分析leader的选择机制,zookeeper提供了三种方式:
LeaderElection
AuthFastLeaderElec……继续阅读 »
wangting
6年前 (2017-12-07) 1704浏览
0个赞
三台机器:
10.210.208.48
10.210.208.43
10.210.73.54
安装目录都是: /data0/wangt/app/zk/
官网下载地址 : http://zookeeper.apache.org/releases.html
一: 安装文件和目录创建
下载官网的zookeeper-3.4.11.tar上传至目录,
然后新建d……继续阅读 »
wangting
6年前 (2017-12-05) 1492浏览
0个赞