spark和mapreduce如果运行时报如下错误:
java.io.IOException: No space left on device
原因如下:
1) 如果是driver端机器抛出该异常,一般是/root/tmp 空间不够了。
可以通过配置spark.local.dir参数指定自定义的tmp目录。
2) 如果是集群executor端机器抛出该异常,……继续阅读 »
wangting
4年前 (2019-10-12) 1183浏览
4个赞
我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hive等工具, 很少有再写MapReduce的了.
这里整理一下MapReduce中经常用到的二次排序的方法, 全当复习.
简介
二次排序(secondary ……继续阅读 »
wangting
5年前 (2019-05-14) 25918浏览 66评论
0个赞
1 mysql表结构
2 定义mysql连接信息
TABLE=data_cycle
HOST_NAME=”mysql.data.xxx.com.cn”
DB_NAME=”suda_portal_data”
USER_NAME=”suda”
PASSWD=”xxxxx”
MYSQL_ETL=”mysql -h $HOST_NAME……继续阅读 »
wangting
7年前 (2017-07-27) 3222浏览
2个赞
map阶段
1. 使用job.setInputFormatClass(TextInputFormat)做为输入格式。注意输出应该符合自定义Map中定义的输出。
2. 进入Mapper的map()方法,生成一个List。
3. 在map阶段的最后,会先调用job.setPartitionerClass()对这个List进行分区,每个分区映射到一个re……继续阅读 »
wangting
7年前 (2017-07-27) 2661浏览
0个赞