bitmap索引被广泛的用在有大量数据和即席查询(是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的)但是并发事务处理水平较低数据仓库应用中。
对于这类应用,bitmap索引支持:
1 缩短大型即席查询的响应时间
2 与其他类型索……继续阅读 »
wangting
6年前 (2018-08-10) 3794浏览 1评论
0个赞
Druid.io(以下简称Druid)是2013年底开源出来的, 主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户),低延时,高可靠性的问题。
Druid简介:
Druid是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式、shared-nothing的架构,和一个高级的索引结构,……继续阅读 »
wangting
6年前 (2018-08-07) 5193浏览 1评论
12个赞
LRU(Least recently used,最近最少使用)算法作为内存管理的一种有效算法,其含义是在内存有限的情况下,当内存容量不足时,为了保证程序的运行,这时就不得不淘汰内存中的一些对象,释放这些对象占用的空间,那么选择淘汰哪些对象呢?
LRU算法就提供了一种策略,告诉我们选择最近一段时间内,最久未使用的对象将其淘汰,至于为什么要选择最久未使用的,因为……继续阅读 »
wangting
6年前 (2018-08-01) 1619浏览
0个赞
~/.vimrc 文件修改如下:
set fileencodings=utf-8,gb2312,gb18030,gbk,ucs-bom,cp936,latin1
set enc=utf8
set fencs=utf8,gbk,gb2312,gb18030
执行 source ~/.vimrc
……继续阅读 »
wangting
6年前 (2018-07-30) 2733浏览
6个赞
一:美团金融服务部
1 讲一下主要是工作内容
2 hashmap 的结构, 数组+链表. 如果其中某一个数组过长怎么?办
3 线程和进程的区别. 线程如何共享数据, 进程如何共享数据
4 八种各种排序 及其时间复杂度
5 mysql几种索引
6 计算机网络 tcp,udp, 区别 如何用udp实现tcp
7 数据仓库的一些概念
美团金融服务部(另一……继续阅读 »
wangting
6年前 (2018-07-06) 2061浏览
0个赞
默认情况下,vmware fusion中的虚拟机,网卡设置成dhcp(动态分配 )时,会分配一个IP地址,但这个IP通常很难记,
最重要的是重启虚拟机后有可能ip地址会变,如果要用这几台机器装hadoop,zookeeper等集群的话,ip固定不下来会很麻烦.
mac中如果我们想为某台虚拟机挑一个好记的IP地址,可以按如下步骤操作:
命令行下,输入
sud……继续阅读 »
wangting
6年前 (2018-07-02) 2126浏览
4个赞
hive.map.aggr=true;在map中会做部分聚集操作,效率更高但需要更多的内存。
hive.groupby.skewindata=true:数据倾斜时负载均衡,当选项设定为true,生成的查询计划会有两个MRJob。第一个MRJob 中,
Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是……继续阅读 »
wangting
6年前 (2018-04-20) 2569浏览
4个赞
……继续阅读 »
wangting
6年前 (2018-02-01) 1957浏览
4个赞
程序描述: sparkstreaming读取kafka文件,把需要的数据实时落地
例如只落地去重字段可以计算 实时pvuv,实时累计的pvuv
两种方式, 第一种每个批次落地只产生一个文件
第二种每个批次落地产生partitions个数个文件, 区别只在标红的地方
方式一, 每10分钟一个批次,只会产生一个文件
package c……继续阅读 »
wangting
6年前 (2018-01-30) 1854浏览
2个赞
安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。
当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义……继续阅读 »
wangting
6年前 (2017-12-19) 2483浏览
0个赞
一、什么是FSImage和EditsLog
我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。那么HDFS是如何及时更新这些metadata的呢?
在H……继续阅读 »
wangting
6年前 (2017-12-19) 2122浏览
0个赞
num-executors
参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作……继续阅读 »
wangting
6年前 (2017-12-15) 1387浏览
2个赞
一、CAP理论概述
分布式领域中存在CAP理论,且该理论已被证明:任何分布式系统只可同时满足两点,无法三者兼顾。
①C:Consistency,一致性,数据一致更新,所有数据变动都是同步的。
②A:Availability,可用性,系统具有好的响应性能。
③P:Partition tolerance,分区容错性。
因此,将精力浪费在思考如何设计能满足三者的完……继续阅读 »
wangting
6年前 (2017-12-07) 1628浏览
0个赞
众所周知通常分布式架构都是中心化的设计,就是一个主控机连接多个处理节点。问题可以从这里考虑,当主控机失效时,整个系统则就无法访问了,所以保证系统的高可用性是非常关键之处,也就是要保证主控机的高可用性。分布式锁就是一个解决该问题的较好方案,多主控机抢一把锁。在这里我们就涉及到了我们的重点Zookeeper。
ZooKeeper是什么,chubby 我想大家都不……继续阅读 »
wangting
6年前 (2017-12-07) 2523浏览
0个赞
zookeeper集群
配置多个实例共同构成一个集群对外提供服务以达到水平扩展的目的,每个服务器上的数据是相同的,每一个服务器均可以对外提供读和写的服务,这点和redis是相同的,即对客户端来讲每个服务器都是平等的。
这篇主要分析leader的选择机制,zookeeper提供了三种方式:
LeaderElection
AuthFastLeaderElec……继续阅读 »
wangting
6年前 (2017-12-07) 1677浏览
0个赞
三台机器:
10.210.208.48
10.210.208.43
10.210.73.54
安装目录都是: /data0/wangt/app/zk/
官网下载地址 : http://zookeeper.apache.org/releases.html
一: 安装文件和目录创建
下载官网的zookeeper-3.4.11.tar上传至目录,
然后新建d……继续阅读 »
wangting
6年前 (2017-12-05) 1467浏览
0个赞
MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高JOIN效率.
方法一
在Hive0.11前,必须使用MAPJOIN来标记显示地启动该优化操作,由于其需要将小表加载进内存所以要注意小表的大小……继续阅读 »
wangting
6年前 (2017-11-24) 1858浏览
0个赞
尽管TCP和UDP都使用相同的网络层(IP),TCP却向应用层提供与UDP完全不同的服务。TCP提供一种面向连接的、可靠的字节流服务。
面向连接意味着两个使用TCP的应用(通常是一个客户和一个服务器)在彼此交换数据之前必须先建立一个TCP连接。这一过程与打电话很相似,先拨号振铃,等待对方摘机说“喂”,然后才说明是谁。
本文将分别讲解经典的TCP协议建立连……继续阅读 »
wangting
6年前 (2017-11-16) 1424浏览
0个赞
一致性哈希算法背景
一致性哈希算法在1997年由麻省理工学院的Karger等人在解决分布式Cache中提出的,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题,使得DHT可以在P2P环境中真正得到应用。
但现在一致性hash算法在分布式系统中也得到了广泛应用,研究过memc……继续阅读 »
wangting
6年前 (2017-11-14) 1305浏览
1个赞
快速排序算法
时间复杂度:O(n*lgn)
最坏:O(n^2)
空间复杂度:O(n*lgn)
不稳定。
快速排序是一种排序算法,对包含n个数的输入数组,平均时间为O(nlgn),最坏情况是O(n^2)。
通常是用于排序的最佳选择。因为,基于比较的排序,最快也只能达到O(nlgn)。
快速排序和冒泡排序相似,都是通过多次比较和交换来实现排序。
具体流程如下:
……继续阅读 »
wangting
6年前 (2017-11-14) 1729浏览
6个赞