• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

大话Spark(1)-Spark概述与核心概念

大话Spark(1)-Spark概述与核心概念
说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先来看下Mapreduce的局限性和Spark如何做的改进. Spark概述 MapReduce局限性 1 仅支持Map和Reduce两种操作 2 处理效率极低 ……继续阅读 »

wangting 4个月前 (05-18) 247浏览 0个赞

详细讲解MapReduce二次排序过程

详细讲解MapReduce二次排序过程
我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hive等工具, 很少有再写MapReduce的了. 这里整理一下MapReduce中经常用到的二次排序的方法, 全当复习. 简介 二次排序(secondary ……继续阅读 »

wangting 4个月前 (05-14) 536浏览 66评论 0个赞

接地气,到底什么才是大数据开发工程师?

接地气,到底什么才是大数据开发工程师?
最近发现有些同学并不太了解大数据开发工程师这个职位,自己转大数据开发也已经三年了,所以想简单介绍一下什么是大数据开发工程师,当前互联网公司的数据开发到底是什么样子的?和一般的java或者php工程师在工作上有什么区别? 声明:本文仅代表个人观点,有不同意见欢迎提出。另外本文对大数据开发工程师没什么参考价值~仅是我各人对这个职位做一个介绍。 1 先说我认为什么……继续阅读 »

wangting 1年前 (2018-09-23) 1780浏览 0个赞

hdfs 安全模式的理解

hdfs 安全模式的理解
安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。 当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义……继续阅读 »

wangting 2年前 (2017-12-19) 317浏览 0个赞