• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

标签:spark

SPARK

spark-streaming中用spark-sql(insert into table)方式落地文件,group by 落地影响文件个数

spark-streaming中用spark-sql(insert into table)方式落地文件,group by 落地影响文件个数
程序描述: sparkstreaming读取kafka文件,把需要的数据实时落地 例如只落地去重字段可以计算 实时pvuv,实时累计的pvuv   两种方式, 第一种每个批次落地只产生一个文件 第二种每个批次落地产生partitions个数个文件, 区别只在标红的地方   方式一, 每10分钟一个批次,只会产生一个文件 package c……继续阅读 »

wangting 2年前 (2018-01-30) 717浏览 0个赞

SPARK

spark 启动参数小记

spark 启动参数小记
num-executors 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作……继续阅读 »

wangting 2年前 (2017-12-15) 379浏览 0个赞