• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

标签:spark

SPARK

Spark DataSet 介绍 24小时内最新

Spark DataSet 介绍
Dataset是1.6版本引入的新的实验接口, 整合了RDD的优势(强类型, 支持lambda方法)和Spark SQL执行引擎的各种优化. Dataset可以由JVM对象来构造并且使用transformation来变换(map, flatMap, filter等等). Dataset本身是DataFrame API的一种扩展, 它提供了类型安全, 面向对象……继续阅读 »

wangting 12小时前 3浏览 0个赞

SPARK

Spark作业中Partition数目的划分是由什么决定的?

Spark作业中Partition数目的划分是由什么决定的?
如果是读取hdfs的文件,一般来说,partition的数量等于文件的数量。 如果单个文件的大小大于hdfs的分块大小,partition的数量就等于 “文件大小/分块大小”。 同时,也可以使用rdd的repartition方法重新划分partition。 另外,在使用聚合函数比如 reducebykey, groupbykey,可以通过指定partitio……继续阅读 »

wangting 4天前 4浏览 1个赞

SPARK

大话Spark(9)-源码之TaskScheduler

大话Spark(9)-源码之TaskScheduler
上篇文章讲到DAGScheduler会把job划分为多个Stage,每个Stage中都会创建一批Task,然后把Task封装为TaskSet提交到TaskScheduler。 这里我们来一起看下TaskScheduler是如何把Task分配到应用程序的Executor上去执行。 重点是这里的task分配算法。 如下图是DagScheduler中把TaskSe……继续阅读 »

wangting 3个月前 (07-13) 68浏览 0个赞

SPARK

大话Spark(8)-源码之DAGScheduler

大话Spark(8)-源码之DAGScheduler
DAGScheduler的主要作用有2个: 一、把job划分成多个Stage(Stage内部并行运行,整个作业按照Stage的顺序依次执行) 二、提交任务 以下分别介绍下DAGScheduler是如何做这2件事情的,然后再跟源码看下DAGScheduler的实现。 一、如何把Job划分成多个Stage 1) 回顾下宽依赖和窄依赖 窄依赖:父RDD的每个分……继续阅读 »

wangting 4个月前 (06-24) 90浏览 0个赞

SPARK

大话Spark(7)-源码之Master主备切换

大话Spark(7)-源码之Master主备切换
Master作为Spark Standalone模式中的核心,如果Master出现异常,则整个集群的运行情况和资源都无法进行管理,整个集群将处于无法工作的状态。 Spark在设计的时候考虑到了这种情况,Master可以起一个或者多个Standby Master,当Master出现异常的时候,Standy Master 将根据一定规则确定一个接管Master。……继续阅读 »

wangting 4个月前 (06-14) 79浏览 0个赞

SPARK

大话Spark(6)-源码之SparkContext原理剖析

大话Spark(6)-源码之SparkContext原理剖析
SparkContext是整个spark程序通往集群的唯一通道,他是程序的起点,也是程序的终点。 我们的每一个spark个程序都需要先创建SparkContext,接着调用SparkContext的方法, 比如说 sc.textFile(filepath),程序最后也会调用sc.stop()来退出。 让我们来一起看下SparkContext里面到底是如何实现……继续阅读 »

wangting 4个月前 (06-07) 121浏览 1个赞