• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧
SPARK

SparkCore 任务调度源码阅读

SparkCore 任务调度源码阅读
Dependency Spark将RDD之间的依赖分为窄依赖和宽依赖,源码中对应的定义分别为NarrowDependency和ShuffleDependency。 其中NarrowDependency又有两种OneToOneDependency和RangeDependency两种实现。 NarrowDependency OneToOneDependency……继续阅读 »

wangting 2周前 (11-18) 4浏览 0个赞

杂谈

新入职的程序员,如何融入团队?记百度LowT和阿里LowP的一次沟通

新入职的程序员,如何融入团队?记百度LowT和阿里LowP的一次沟通
昨天晚上我媳妇又“加班”到十一点多,如果我没记错的话这已经是第三次“加班”到夜里,上一次更是到零点之后。 “加班”内容是:吃饭,喝酒。 我认为这不是加班,不是工作。而她和我意见相左。 并且在我希望她在21:30左右的时候提出先行离开这件事上产生了一些意见上的分歧。 以上是引起我们这次沟通的小事件,也让我发现她现在对于融入新团队这件事情上竟然有了一些迷……继续阅读 »

wangting 3周前 (11-14) 61浏览 10个赞

SPARK

Spark 2.0 Insert Overwrite语法介绍

Spark 2.0 Insert Overwrite语法介绍
相关参数介绍: 参数 默认值 说明 spark.sql.output.codec none 使用的序列化方式,如snappy,lzo等,默认为不压缩。 spark.sql.output.coalesceNum 200 写入到指定目录的数据合并后文件的个数,仅当spark.sql.output.merge设为true时生效。 ……继续阅读 »

wangting 4周前 (11-06) 16浏览 0个赞

SPARK

Feature:Spark支持GBK文件读取功能

Feature:Spark支持GBK文件读取功能
Feature:Spark支持GBK文件读取功能 需求分析 Spark默认的Text输入格式处理同Hadoop相同,均默认以UTF-8编码处理。 如果源本件本身是其他格式编码的,如GBK,在Spark处理后读出就会是乱码。 例如一张有关餐馆信息的数据可能是: 4504812|聚品面馆 5623102|金米粒抓饭 5623112|湘下茶饭 ……继续阅读 »

wangting 1个月前 (11-01) 19浏览 0个赞

hive

阅读Hive Orc 文件 官方文档

阅读Hive Orc 文件 官方文档
阅读Hive Orc官方文档 Introduction Orc格式支持自Hive 0.11引入。 The Optimized Row Columnar (ORC) 文件格式提供了更高效地存储Hive数据存储。其设计初衷是克服其他Hive文件格式的局限。 使用Orc文件提升了Hive的读写和处理性能。 相比RCFile,ORC文件格式由如下优点: 每个T……继续阅读 »

wangting 1个月前 (10-29) 20浏览 0个赞

SPARK

spark配置说明

spark配置说明
  调度 调度相关配置说明详见下表: 配置项 默认值 说明 spark.scheduler.mode FIFO 提交到同一个SparkContext的job的调度策略,有FIFO和FAIR两种。   Spark SQL SQL组件相关配置说明详见下表: 配置项 默认值 ……继续阅读 »

wangting 1个月前 (10-29) 16浏览 1个赞

SPARK

Spark DataSet 介绍

Spark DataSet 介绍
Dataset是1.6版本引入的新的实验接口, 整合了RDD的优势(强类型, 支持lambda方法)和Spark SQL执行引擎的各种优化. Dataset可以由JVM对象来构造并且使用transformation来变换(map, flatMap, filter等等). Dataset本身是DataFrame API的一种扩展, 它提供了类型安全, 面向对象……继续阅读 »

wangting 2个月前 (10-17) 19浏览 0个赞

SPARK

Spark作业中Partition数目的划分是由什么决定的?

Spark作业中Partition数目的划分是由什么决定的?
如果是读取hdfs的文件,一般来说,partition的数量等于文件的数量。 如果单个文件的大小大于hdfs的分块大小,partition的数量就等于 “文件大小/分块大小”。 同时,也可以使用rdd的repartition方法重新划分partition。 另外,在使用聚合函数比如 reducebykey, groupbykey,可以通过指定partitio……继续阅读 »

wangting 2个月前 (10-14) 20浏览 1个赞