• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

最新发布 第4页

程序员灯塔天道酬勤,关注互联网+大数据相关技术.

hive

Hive源码阅读系列(四)编译模块之整体介绍

Hive源码阅读系列(四)编译模块之整体介绍
  这次主要对Hive编译模块做整体介绍,后面会针对流程中的每一步做详细分析   1、Hive执行过程回顾     client:用户通过客户端提交查询操作 Driver:提供执行接口,负责接收查询请求并建立session,创建一系列环境参数等 Compiler:Hive的编译器,负责将sql转化为平台可执行的执行计划 MetaStore:Hi……继续阅读 »

diligentman 2个月前 (08-28) 23浏览 0个赞

大数据

Hive源码阅读系列(二) hive2.1.1源码导入eclipse并做初步运行

Hive源码阅读系列(二) hive2.1.1源码导入eclipse并做初步运行
上一篇主要写了hive2.1.1源码编译并编译成eclipse项目,这一篇主要写将hive2.1.1源码导入eclipse以及运行hive命令的入口类CliDriver.java。在导入及运行的过程会遇到各种各样的问题,本文写了自己遇到的问题及解决方案。把项目跑起来非常重要,这些都是我们后面分析调试hive编译模块源码的基础。   1、安装ecl……继续阅读 »

diligentman 2个月前 (08-28) 20浏览 0个赞

大数据

Hive源码阅读系列(一) hive2.1.1源码编译并编译成eclipse项目

Hive源码阅读系列(一) hive2.1.1源码编译并编译成eclipse项目
这是一篇工具类的文章,工欲善其事必先利其器,要分析调试hive源码,必须搭建一套hive的运行环境。还记得第一次搭建hive源码调试环境,用了一个月的时间,才完全跑通整个调试过程。中间遇到各种各样莫名奇妙的问题,也有好多次想放弃,幸好坚持了下来。   我在调试hive源码时,主要使用eclipse,所以最终要把hive源码编译成eclipse项目,方便导入……继续阅读 »

diligentman 2个月前 (08-28) 41浏览 1个赞

大数据

数据仓库开发人员怎么避免成为取数机器?

数据仓库开发人员怎么避免成为取数机器?
从事互联网数据仓库工作好多年了,其中最大的感触就是数据仓库开发人员每天做的最多的工作就是为业务方取数。简单重复的取数工作,一方面很难让大家在技能上有提高,另一方面也慢慢的消磨了大家的积极性和意志,也让大家极没有存在感。 另外,在公司的整体架构中,取数这种工种很容易被替代,所以,也极不被重视。 那做为一名数据仓库的开发人员,该怎么反省提高自己?下面是我的一些……继续阅读 »

diligentman 2个月前 (08-28) 14浏览 0个赞

SPARK

大话Spark(9)-源码之TaskScheduler

大话Spark(9)-源码之TaskScheduler
上篇文章讲到DAGScheduler会把job划分为多个Stage,每个Stage中都会创建一批Task,然后把Task封装为TaskSet提交到TaskScheduler。 这里我们来一起看下TaskScheduler是如何把Task分配到应用程序的Executor上去执行。 重点是这里的task分配算法。 如下图是DagScheduler中把TaskSe……继续阅读 »

wangting 3个月前 (07-13) 68浏览 0个赞

hbase

500GJava/Hadoop/Spark/机器学习…视频教程免费分享 百度云持续更新

500GJava/Hadoop/Spark/机器学习…视频教程免费分享 百度云持续更新
参加工作这么长时间了,工作中遇到了不少技能都是看视频教程学习的,相比较看书而言看视频确实比较容易理解。分享一下自己看过的和收集的视频教程。   资源包括: 大数据方面的Hadoop(云帆,小象学院,八斗学院) Spark从入门到精通278讲 机器学习(这个很全) java方面:Dubbo,Maven,马士兵老师的设计模式 IOS教程等等等~ &nb……继续阅读 »

wangting 4个月前 (06-24) 116浏览 0个赞

SPARK

大话Spark(8)-源码之DAGScheduler

大话Spark(8)-源码之DAGScheduler
DAGScheduler的主要作用有2个: 一、把job划分成多个Stage(Stage内部并行运行,整个作业按照Stage的顺序依次执行) 二、提交任务 以下分别介绍下DAGScheduler是如何做这2件事情的,然后再跟源码看下DAGScheduler的实现。 一、如何把Job划分成多个Stage 1) 回顾下宽依赖和窄依赖 窄依赖:父RDD的每个分……继续阅读 »

wangting 4个月前 (06-24) 90浏览 0个赞

SPARK

大话Spark(7)-源码之Master主备切换

大话Spark(7)-源码之Master主备切换
Master作为Spark Standalone模式中的核心,如果Master出现异常,则整个集群的运行情况和资源都无法进行管理,整个集群将处于无法工作的状态。 Spark在设计的时候考虑到了这种情况,Master可以起一个或者多个Standby Master,当Master出现异常的时候,Standy Master 将根据一定规则确定一个接管Master。……继续阅读 »

wangting 4个月前 (06-14) 79浏览 0个赞