• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

spark 单个task拖慢集群任务(开启推测执行)

spark 单个task拖慢集群任务(开启推测执行)
spark有些情况下单个任务运行特别慢, 比如原因有:数据倾斜,或者那个task所在机器配置较差等。 这种情况下可以开启预测执行(推测执行)。 推测执行优化机制采用了典型的以空间换时间的优化策略, 它同时启动多个相同task(备份任务)处理相同的数据块,哪个完成的早,则采用哪个task的结果,这样可防止拖后腿Task任务出现,进而提高作业计算速度。 但是,这……继续阅读 »

wangting 3个月前 (10-12) 19浏览 2个赞

大话Spark(9)-源码之TaskScheduler

大话Spark(9)-源码之TaskScheduler
上篇文章讲到DAGScheduler会把job划分为多个Stage,每个Stage中都会创建一批Task,然后把Task封装为TaskSet提交到TaskScheduler。 这里我们来一起看下TaskScheduler是如何把Task分配到应用程序的Executor上去执行。 重点是这里的task分配算法。 如下图是DagScheduler中把TaskSe……继续阅读 »

wangting 6个月前 (07-13) 83浏览 1个赞

大话Spark(8)-源码之DAGScheduler

大话Spark(8)-源码之DAGScheduler
DAGScheduler的主要作用有2个: 一、把job划分成多个Stage(Stage内部并行运行,整个作业按照Stage的顺序依次执行) 二、提交任务 以下分别介绍下DAGScheduler是如何做这2件事情的,然后再跟源码看下DAGScheduler的实现。 一、如何把Job划分成多个Stage 1) 回顾下宽依赖和窄依赖 窄依赖:父RDD的每个分……继续阅读 »

wangting 6个月前 (06-24) 101浏览 1个赞

大话Spark(7)-源码之Master主备切换

大话Spark(7)-源码之Master主备切换
Master作为Spark Standalone模式中的核心,如果Master出现异常,则整个集群的运行情况和资源都无法进行管理,整个集群将处于无法工作的状态。 Spark在设计的时候考虑到了这种情况,Master可以起一个或者多个Standby Master,当Master出现异常的时候,Standy Master 将根据一定规则确定一个接管Master。……继续阅读 »

wangting 7个月前 (06-14) 90浏览 0个赞

大话Spark(6)-源码之SparkContext原理剖析

大话Spark(6)-源码之SparkContext原理剖析
SparkContext是整个spark程序通往集群的唯一通道,他是程序的起点,也是程序的终点。 我们的每一个spark个程序都需要先创建SparkContext,接着调用SparkContext的方法, 比如说 sc.textFile(filepath),程序最后也会调用sc.stop()来退出。 让我们来一起看下SparkContext里面到底是如何实现……继续阅读 »

wangting 7个月前 (06-07) 140浏览 1个赞

大话Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle

大话Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle
Shuffle本意是 混洗, 洗牌的意思, 在MapReduce过程中需要各节点上同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则聚集到一起的过程成为Shuffle. 在Hadoop的MapReduce框架中, Shuffle是连接Map和Reduce之间的桥梁, Map的数据要用到Reduce中必须经过Shuffle这个环节. 由……继续阅读 »

wangting 7个月前 (05-25) 1221浏览 0个赞

大话Spark(2)-Spark on Yarn运行模式

大话Spark(2)-Spark on Yarn运行模式
Spark On Yarn 有两种运行模式: Yarn – Cluster Yarn – Client 他们的主要区别是: Cluster: Spark的Driver在App Master主进程内运行, 该进程由集群上的YARN管理, 客户端可以在启动App Master后退出. Client: Driver在提交作业的Clien……继续阅读 »

wangting 7个月前 (05-21) 1795浏览 0个赞

大话Spark(1)-Spark概述与核心概念

大话Spark(1)-Spark概述与核心概念
说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先来看下Mapreduce的局限性和Spark如何做的改进. Spark概述 MapReduce局限性 1 仅支持Map和Reduce两种操作 2 处理效率极低 ……继续阅读 »

wangting 8个月前 (05-18) 263浏览 0个赞

spark-streaming中用spark-sql(insert into table)方式落地文件,group by 落地影响文件个数

spark-streaming中用spark-sql(insert into table)方式落地文件,group by 落地影响文件个数
程序描述: sparkstreaming读取kafka文件,把需要的数据实时落地 例如只落地去重字段可以计算 实时pvuv,实时累计的pvuv   两种方式, 第一种每个批次落地只产生一个文件 第二种每个批次落地产生partitions个数个文件, 区别只在标红的地方   方式一, 每10分钟一个批次,只会产生一个文件 package c……继续阅读 »

wangting 2年前 (2018-01-30) 668浏览 0个赞

spark 启动参数小记

spark 启动参数小记
num-executors 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作……继续阅读 »

wangting 2年前 (2017-12-15) 360浏览 0个赞