• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

最新发布 第3页

程序员灯塔天道酬勤,关注互联网+大数据相关技术.

大数据

Hive源码阅读系列(五)编译模块之词法、语法解析 (上)

Hive源码阅读系列(五)编译模块之词法、语法解析 (上)
词法、语法解析模块会先介绍一下antlr环境(上)。然后举实际案例说明怎么使用antlr工具、利用antlr生成的Lexer、Parser、TreeParser代码,获取asttree。这些都是hive获取asttree的过程,理解了这些,再理解hive的asttree就很容易了(中)。 最后 详细介绍hive词法、语法解析的源码 以及hive AstTr……继续阅读 »

diligentman 7个月前 (08-29) 31浏览 1个赞

hive

Hive源码阅读系列(四)编译模块之整体介绍

Hive源码阅读系列(四)编译模块之整体介绍
  这次主要对Hive编译模块做整体介绍,后面会针对流程中的每一步做详细分析   1、Hive执行过程回顾     client:用户通过客户端提交查询操作 Driver:提供执行接口,负责接收查询请求并建立session,创建一系列环境参数等 Compiler:Hive的编译器,负责将sql转化为平台可执行的执行计划 MetaStore:Hi……继续阅读 »

diligentman 7个月前 (08-28) 36浏览 0个赞

大数据

Hive源码阅读系列(二) hive2.1.1源码导入eclipse并做初步运行

Hive源码阅读系列(二) hive2.1.1源码导入eclipse并做初步运行
上一篇主要写了hive2.1.1源码编译并编译成eclipse项目,这一篇主要写将hive2.1.1源码导入eclipse以及运行hive命令的入口类CliDriver.java。在导入及运行的过程会遇到各种各样的问题,本文写了自己遇到的问题及解决方案。把项目跑起来非常重要,这些都是我们后面分析调试hive编译模块源码的基础。   1、安装ecl……继续阅读 »

diligentman 7个月前 (08-28) 31浏览 0个赞

大数据

Hive源码阅读系列(一) hive2.1.1源码编译并编译成eclipse项目

Hive源码阅读系列(一) hive2.1.1源码编译并编译成eclipse项目
这是一篇工具类的文章,工欲善其事必先利其器,要分析调试hive源码,必须搭建一套hive的运行环境。还记得第一次搭建hive源码调试环境,用了一个月的时间,才完全跑通整个调试过程。中间遇到各种各样莫名奇妙的问题,也有好多次想放弃,幸好坚持了下来。   我在调试hive源码时,主要使用eclipse,所以最终要把hive源码编译成eclipse项目,方便导入……继续阅读 »

diligentman 7个月前 (08-28) 54浏览 1个赞

大数据

数据仓库开发人员怎么避免成为取数机器?

数据仓库开发人员怎么避免成为取数机器?
从事互联网数据仓库工作好多年了,其中最大的感触就是数据仓库开发人员每天做的最多的工作就是为业务方取数。简单重复的取数工作,一方面很难让大家在技能上有提高,另一方面也慢慢的消磨了大家的积极性和意志,也让大家极没有存在感。 另外,在公司的整体架构中,取数这种工种很容易被替代,所以,也极不被重视。 那做为一名数据仓库的开发人员,该怎么反省提高自己?下面是我的一些……继续阅读 »

diligentman 7个月前 (08-28) 25浏览 0个赞

SPARK

大话Spark(9)-源码之TaskScheduler

大话Spark(9)-源码之TaskScheduler
上篇文章讲到DAGScheduler会把job划分为多个Stage,每个Stage中都会创建一批Task,然后把Task封装为TaskSet提交到TaskScheduler。 这里我们来一起看下TaskScheduler是如何把Task分配到应用程序的Executor上去执行。 重点是这里的task分配算法。 如下图是DagScheduler中把TaskSe……继续阅读 »

wangting 9个月前 (07-13) 84浏览 1个赞

hbase

500GJava/Hadoop/Spark/机器学习…视频教程免费分享 百度云持续更新

500GJava/Hadoop/Spark/机器学习…视频教程免费分享 百度云持续更新
参加工作这么长时间了,工作中遇到了不少技能都是看视频教程学习的,相比较看书而言看视频确实比较容易理解。分享一下自己看过的和收集的视频教程。   资源包括: 大数据方面的Hadoop(云帆,小象学院,八斗学院) Spark从入门到精通278讲 机器学习(这个很全) java方面:Dubbo,Maven,马士兵老师的设计模式 IOS教程等等等~ &nb……继续阅读 »

wangting 9个月前 (06-24) 130浏览 0个赞

SPARK

大话Spark(8)-源码之DAGScheduler

大话Spark(8)-源码之DAGScheduler
DAGScheduler的主要作用有2个: 一、把job划分成多个Stage(Stage内部并行运行,整个作业按照Stage的顺序依次执行) 二、提交任务 以下分别介绍下DAGScheduler是如何做这2件事情的,然后再跟源码看下DAGScheduler的实现。 一、如何把Job划分成多个Stage 1) 回顾下宽依赖和窄依赖 窄依赖:父RDD的每个分……继续阅读 »

wangting 9个月前 (06-24) 104浏览 1个赞

SPARK

大话Spark(7)-源码之Master主备切换

大话Spark(7)-源码之Master主备切换
Master作为Spark Standalone模式中的核心,如果Master出现异常,则整个集群的运行情况和资源都无法进行管理,整个集群将处于无法工作的状态。 Spark在设计的时候考虑到了这种情况,Master可以起一个或者多个Standby Master,当Master出现异常的时候,Standy Master 将根据一定规则确定一个接管Master。……继续阅读 »

wangting 10个月前 (06-14) 91浏览 0个赞

SPARK

大话Spark(6)-源码之SparkContext原理剖析

大话Spark(6)-源码之SparkContext原理剖析
SparkContext是整个spark程序通往集群的唯一通道,他是程序的起点,也是程序的终点。 我们的每一个spark个程序都需要先创建SparkContext,接着调用SparkContext的方法, 比如说 sc.textFile(filepath),程序最后也会调用sc.stop()来退出。 让我们来一起看下SparkContext里面到底是如何实现……继续阅读 »

wangting 10个月前 (06-07) 143浏览 1个赞

大数据

如何进BAT,有了这个篇面试秘籍,成功率高达80%!!(附资料)

如何进BAT,有了这个篇面试秘籍,成功率高达80%!!(附资料)
多年前自己刚来北京找工作的时候,面了一个星期 面了七八家公司才拿到一个offer。而上次跳槽面了不到10家公司基本全过而且都给到了期望的薪资,本来自己在面试前没想到能够这么顺利,回想起来还是自己准备的方法比较得当! 先说前提 此方法适用于培训机构,专科,普通本科毕业的同学,工作经验在1到5年之间。(985,211大学的同学或者研究生,技术大拿可以不用往下看……继续阅读 »

wangting 10个月前 (06-01) 353浏览 4个赞

SPARK

大话Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle

大话Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle
Shuffle本意是 混洗, 洗牌的意思, 在MapReduce过程中需要各节点上同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则聚集到一起的过程成为Shuffle. 在Hadoop的MapReduce框架中, Shuffle是连接Map和Reduce之间的桥梁, Map的数据要用到Reduce中必须经过Shuffle这个环节. 由……继续阅读 »

wangting 10个月前 (05-25) 1821浏览 0个赞

SPARK

大话Spark(2)-Spark on Yarn运行模式

大话Spark(2)-Spark on Yarn运行模式
Spark On Yarn 有两种运行模式: Yarn – Cluster Yarn – Client 他们的主要区别是: Cluster: Spark的Driver在App Master主进程内运行, 该进程由集群上的YARN管理, 客户端可以在启动App Master后退出. Client: Driver在提交作业的Clien……继续阅读 »

wangting 10个月前 (05-21) 1834浏览 0个赞

hadoop

大话Spark(1)-Spark概述与核心概念

大话Spark(1)-Spark概述与核心概念
说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先来看下Mapreduce的局限性和Spark如何做的改进. Spark概述 MapReduce局限性 1 仅支持Map和Reduce两种操作 2 处理效率极低 ……继续阅读 »

wangting 11个月前 (05-18) 264浏览 0个赞

hadoop

详细讲解MapReduce二次排序过程

详细讲解MapReduce二次排序过程
我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hive等工具, 很少有再写MapReduce的了. 这里整理一下MapReduce中经常用到的二次排序的方法, 全当复习. 简介 二次排序(secondary ……继续阅读 »

wangting 11个月前 (05-14) 3099浏览 66评论 0个赞