• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

最新发布 第5页

程序员灯塔天道酬勤,关注互联网+大数据相关技术.

hadoop

hdfs 安全模式的理解

hdfs 安全模式的理解
安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。 当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义……继续阅读 »

wangting 2年前 (2017-12-19) 328浏览 0个赞

hdfs

Hadoop-2.X HA模式下的FSImage和EditsLog合并过程

Hadoop-2.X HA模式下的FSImage和EditsLog合并过程
一、什么是FSImage和EditsLog 我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。那么HDFS是如何及时更新这些metadata的呢? 在H……继续阅读 »

wangting 2年前 (2017-12-19) 364浏览 0个赞

SPARK

spark 启动参数小记

spark 启动参数小记
num-executors 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作……继续阅读 »

wangting 2年前 (2017-12-15) 358浏览 0个赞

zookeeper

ZooKeeper和CAP理论及一致性原则

ZooKeeper和CAP理论及一致性原则
一、CAP理论概述 分布式领域中存在CAP理论,且该理论已被证明:任何分布式系统只可同时满足两点,无法三者兼顾。 ①C:Consistency,一致性,数据一致更新,所有数据变动都是同步的。 ②A:Availability,可用性,系统具有好的响应性能。 ③P:Partition tolerance,分区容错性。 因此,将精力浪费在思考如何设计能满足三者的完……继续阅读 »

wangting 2年前 (2017-12-07) 390浏览 0个赞

zookeeper

zookeeper的应用场景

zookeeper的应用场景
众所周知通常分布式架构都是中心化的设计,就是一个主控机连接多个处理节点。问题可以从这里考虑,当主控机失效时,整个系统则就无法访问了,所以保证系统的高可用性是非常关键之处,也就是要保证主控机的高可用性。分布式锁就是一个解决该问题的较好方案,多主控机抢一把锁。在这里我们就涉及到了我们的重点Zookeeper。 ZooKeeper是什么,chubby 我想大家都不……继续阅读 »

wangting 2年前 (2017-12-07) 325浏览 0个赞

zookeeper

zookeeper 选举机制

zookeeper 选举机制
zookeeper集群 配置多个实例共同构成一个集群对外提供服务以达到水平扩展的目的,每个服务器上的数据是相同的,每一个服务器均可以对外提供读和写的服务,这点和redis是相同的,即对客户端来讲每个服务器都是平等的。 这篇主要分析leader的选择机制,zookeeper提供了三种方式: LeaderElection AuthFastLeaderElec……继续阅读 »

wangting 2年前 (2017-12-07) 528浏览 0个赞

zookeeper

zookeeper- 安装小记

zookeeper- 安装小记
三台机器: 10.210.208.48 10.210.208.43 10.210.73.54 安装目录都是: /data0/wangt/app/zk/ 官网下载地址 : http://zookeeper.apache.org/releases.html 一: 安装文件和目录创建 下载官网的zookeeper-3.4.11.tar上传至目录, 然后新建d……继续阅读 »

wangting 2年前 (2017-12-05) 317浏览 0个赞

hive

hive mapjoin

hive mapjoin
MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高JOIN效率. 方法一 在Hive0.11前,必须使用MAPJOIN来标记显示地启动该优化操作,由于其需要将小表加载进内存所以要注意小表的大小……继续阅读 »

wangting 2年前 (2017-11-24) 360浏览 0个赞

java

TCP连接的三次握手和四次挥手详解

TCP连接的三次握手和四次挥手详解
尽管TCP和UDP都使用相同的网络层(IP),TCP却向应用层提供与UDP完全不同的服务。TCP提供一种面向连接的、可靠的字节流服务。 面向连接意味着两个使用TCP的应用(通常是一个客户和一个服务器)在彼此交换数据之前必须先建立一个TCP连接。这一过程与打电话很相似,先拨号振铃,等待对方摘机说“喂”,然后才说明是谁。 本文将分别讲解经典的TCP协议建立连……继续阅读 »

wangting 2年前 (2017-11-16) 263浏览 0个赞

java

一致性哈希算法的原理

一致性哈希算法的原理
一致性哈希算法背景 一致性哈希算法在1997年由麻省理工学院的Karger等人在解决分布式Cache中提出的,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题,使得DHT可以在P2P环境中真正得到应用。 但现在一致性hash算法在分布式系统中也得到了广泛应用,研究过memc……继续阅读 »

wangting 2年前 (2017-11-14) 259浏览 1个赞

算法

快速排序算法

快速排序算法
快速排序算法 时间复杂度:O(n*lgn) 最坏:O(n^2) 空间复杂度:O(n*lgn) 不稳定。 快速排序是一种排序算法,对包含n个数的输入数组,平均时间为O(nlgn),最坏情况是O(n^2)。 通常是用于排序的最佳选择。因为,基于比较的排序,最快也只能达到O(nlgn)。 快速排序和冒泡排序相似,都是通过多次比较和交换来实现排序。 具体流程如下: ……继续阅读 »

wangting 2年前 (2017-11-14) 325浏览 0个赞

算法

二分查找法 java实现(折半查找)

二分查找法 java实现(折半查找)
算法要求: 1.必须采用顺序存储结构。 2.必须按关键字大小有序排列。 算法复杂度: 二分查找的基本思想是将n个元素分成大致相等的两部分,取a[n/2]与x做比较,如果x=a[n/2],则找到x,算法中止;如果x<a[n/2],则只要在数组a的左半部分继续搜索x,如果x>a[n/2],则只要在数组a的右半部搜索x. 时间复杂度无非就是whil……继续阅读 »

wangting 2年前 (2017-11-14) 416浏览 0个赞

数据库

redis是单线程,为什么速度这么快?

redis是单线程,为什么速度这么快?
Redis 采用的是基于内存的采用的是单进程单线程模型的 KV 数据库,由 C 语言编写。官方提供的数据是可以达到100000+的 qps。这个数据不比采用单进程多线程的同样基于内存的 KV 数据库 Memcached 差。 Redis 快的主要原因有: 完全基于内存; 数据结构简单,对数据操作也简单; 使用多路 I/O 复用模型,异步非阻塞I/O; &……继续阅读 »

wangting 2年前 (2017-11-13) 651浏览 0个赞

java

java关键字,volatile内存可见性和指令排序

java关键字,volatile内存可见性和指令排序
volatile的两大作用 1保证内存可见性 2防止指令排序 注意: volatile并不保证操作的原子性. (一) 内存可见性 1 概念   JVM内存模型:主内存和线程独立的工作内存 Java内存模型规定,对于多个线程共享的变量,存储在主内存当中,每个线程都有自己独立的工作内存(比如CPU的寄存器),线程只能访问自己的工作内存,不可以访问其它线程的工作内……继续阅读 »

wangting 2年前 (2017-11-11) 301浏览 0个赞