• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

标签:spark

SPARK

SparkCore 任务调度源码阅读

SparkCore 任务调度源码阅读
Dependency Spark将RDD之间的依赖分为窄依赖和宽依赖,源码中对应的定义分别为NarrowDependency和ShuffleDependency。 其中NarrowDependency又有两种OneToOneDependency和RangeDependency两种实现。 NarrowDependency OneToOneDependency……继续阅读 »

wangting 2周前 (11-18) 4浏览 0个赞

SPARK

Spark 2.0 Insert Overwrite语法介绍

Spark 2.0 Insert Overwrite语法介绍
相关参数介绍: 参数 默认值 说明 spark.sql.output.codec none 使用的序列化方式,如snappy,lzo等,默认为不压缩。 spark.sql.output.coalesceNum 200 写入到指定目录的数据合并后文件的个数,仅当spark.sql.output.merge设为true时生效。 ……继续阅读 »

wangting 4周前 (11-06) 16浏览 0个赞

SPARK

Feature:Spark支持GBK文件读取功能

Feature:Spark支持GBK文件读取功能
Feature:Spark支持GBK文件读取功能 需求分析 Spark默认的Text输入格式处理同Hadoop相同,均默认以UTF-8编码处理。 如果源本件本身是其他格式编码的,如GBK,在Spark处理后读出就会是乱码。 例如一张有关餐馆信息的数据可能是: 4504812|聚品面馆 5623102|金米粒抓饭 5623112|湘下茶饭 ……继续阅读 »

wangting 1个月前 (11-01) 20浏览 0个赞

SPARK

spark配置说明

spark配置说明
  调度 调度相关配置说明详见下表: 配置项 默认值 说明 spark.scheduler.mode FIFO 提交到同一个SparkContext的job的调度策略,有FIFO和FAIR两种。   Spark SQL SQL组件相关配置说明详见下表: 配置项 默认值 ……继续阅读 »

wangting 1个月前 (10-29) 16浏览 1个赞

SPARK

Spark DataSet 介绍

Spark DataSet 介绍
Dataset是1.6版本引入的新的实验接口, 整合了RDD的优势(强类型, 支持lambda方法)和Spark SQL执行引擎的各种优化. Dataset可以由JVM对象来构造并且使用transformation来变换(map, flatMap, filter等等). Dataset本身是DataFrame API的一种扩展, 它提供了类型安全, 面向对象……继续阅读 »

wangting 2个月前 (10-17) 19浏览 0个赞

SPARK

Spark作业中Partition数目的划分是由什么决定的?

Spark作业中Partition数目的划分是由什么决定的?
如果是读取hdfs的文件,一般来说,partition的数量等于文件的数量。 如果单个文件的大小大于hdfs的分块大小,partition的数量就等于 “文件大小/分块大小”。 同时,也可以使用rdd的repartition方法重新划分partition。 另外,在使用聚合函数比如 reducebykey, groupbykey,可以通过指定partitio……继续阅读 »

wangting 2个月前 (10-14) 20浏览 1个赞

SPARK

大话Spark(9)-源码之TaskScheduler

大话Spark(9)-源码之TaskScheduler
上篇文章讲到DAGScheduler会把job划分为多个Stage,每个Stage中都会创建一批Task,然后把Task封装为TaskSet提交到TaskScheduler。 这里我们来一起看下TaskScheduler是如何把Task分配到应用程序的Executor上去执行。 重点是这里的task分配算法。 如下图是DagScheduler中把TaskSe……继续阅读 »

wangting 5个月前 (07-13) 81浏览 1个赞

SPARK

大话Spark(8)-源码之DAGScheduler

大话Spark(8)-源码之DAGScheduler
DAGScheduler的主要作用有2个: 一、把job划分成多个Stage(Stage内部并行运行,整个作业按照Stage的顺序依次执行) 二、提交任务 以下分别介绍下DAGScheduler是如何做这2件事情的,然后再跟源码看下DAGScheduler的实现。 一、如何把Job划分成多个Stage 1) 回顾下宽依赖和窄依赖 窄依赖:父RDD的每个分……继续阅读 »

wangting 5个月前 (06-24) 99浏览 1个赞

SPARK

大话Spark(7)-源码之Master主备切换

大话Spark(7)-源码之Master主备切换
Master作为Spark Standalone模式中的核心,如果Master出现异常,则整个集群的运行情况和资源都无法进行管理,整个集群将处于无法工作的状态。 Spark在设计的时候考虑到了这种情况,Master可以起一个或者多个Standby Master,当Master出现异常的时候,Standy Master 将根据一定规则确定一个接管Master。……继续阅读 »

wangting 6个月前 (06-14) 89浏览 0个赞

SPARK

大话Spark(6)-源码之SparkContext原理剖析

大话Spark(6)-源码之SparkContext原理剖析
SparkContext是整个spark程序通往集群的唯一通道,他是程序的起点,也是程序的终点。 我们的每一个spark个程序都需要先创建SparkContext,接着调用SparkContext的方法, 比如说 sc.textFile(filepath),程序最后也会调用sc.stop()来退出。 让我们来一起看下SparkContext里面到底是如何实现……继续阅读 »

wangting 6个月前 (06-07) 138浏览 1个赞

SPARK

大话Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle

大话Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle
Shuffle本意是 混洗, 洗牌的意思, 在MapReduce过程中需要各节点上同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则聚集到一起的过程成为Shuffle. 在Hadoop的MapReduce框架中, Shuffle是连接Map和Reduce之间的桥梁, Map的数据要用到Reduce中必须经过Shuffle这个环节. 由……继续阅读 »

wangting 6个月前 (05-25) 1027浏览 0个赞

SPARK

大话Spark(2)-Spark on Yarn运行模式

大话Spark(2)-Spark on Yarn运行模式
Spark On Yarn 有两种运行模式: Yarn – Cluster Yarn – Client 他们的主要区别是: Cluster: Spark的Driver在App Master主进程内运行, 该进程由集群上的YARN管理, 客户端可以在启动App Master后退出. Client: Driver在提交作业的Clien……继续阅读 »

wangting 7个月前 (05-21) 1782浏览 0个赞

hadoop

大话Spark(1)-Spark概述与核心概念

大话Spark(1)-Spark概述与核心概念
说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先来看下Mapreduce的局限性和Spark如何做的改进. Spark概述 MapReduce局限性 1 仅支持Map和Reduce两种操作 2 处理效率极低 ……继续阅读 »

wangting 7个月前 (05-18) 259浏览 0个赞