• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

标签:大话Spark

SPARK

大话Spark(9)-源码之TaskScheduler

大话Spark(9)-源码之TaskScheduler
上篇文章讲到DAGScheduler会把job划分为多个Stage,每个Stage中都会创建一批Task,然后把Task封装为TaskSet提交到TaskScheduler。 这里我们来一起看下TaskScheduler是如何把Task分配到应用程序的Executor上去执行。 重点是这里的task分配算法。 如下图是DagScheduler中把TaskSe……继续阅读 »

wangting 2个月前 (07-13) 68浏览 0个赞

SPARK

大话Spark(8)-源码之DAGScheduler

大话Spark(8)-源码之DAGScheduler
DAGScheduler的主要作用有2个: 一、把job划分成多个Stage(Stage内部并行运行,整个作业按照Stage的顺序依次执行) 二、提交任务 以下分别介绍下DAGScheduler是如何做这2件事情的,然后再跟源码看下DAGScheduler的实现。 一、如何把Job划分成多个Stage 1) 回顾下宽依赖和窄依赖 窄依赖:父RDD的每个分……继续阅读 »

wangting 3个月前 (06-24) 89浏览 0个赞

SPARK

大话Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle

大话Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle
Shuffle本意是 混洗, 洗牌的意思, 在MapReduce过程中需要各节点上同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则聚集到一起的过程成为Shuffle. 在Hadoop的MapReduce框架中, Shuffle是连接Map和Reduce之间的桥梁, Map的数据要用到Reduce中必须经过Shuffle这个环节. 由……继续阅读 »

wangting 4个月前 (05-25) 978浏览 0个赞

SPARK

大话Spark(2)-Spark on Yarn运行模式

大话Spark(2)-Spark on Yarn运行模式
Spark On Yarn 有两种运行模式: Yarn – Cluster Yarn – Client 他们的主要区别是: Cluster: Spark的Driver在App Master主进程内运行, 该进程由集群上的YARN管理, 客户端可以在启动App Master后退出. Client: Driver在提交作业的Clien……继续阅读 »

wangting 4个月前 (05-21) 1752浏览 0个赞

hadoop

大话Spark(1)-Spark概述与核心概念

大话Spark(1)-Spark概述与核心概念
说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先来看下Mapreduce的局限性和Spark如何做的改进. Spark概述 MapReduce局限性 1 仅支持Map和Reduce两种操作 2 处理效率极低 ……继续阅读 »

wangting 4个月前 (05-18) 247浏览 0个赞