• 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧

整理一下17年自己和小伙伴们在大数据方向的一些面试题

大数据 wangting 1年前 (2018-07-06) 679次浏览

一:美团金融服务部

1 讲一下主要是工作内容

2 hashmap 的结构, 数组+链表.   如果其中某一个数组过长怎么?办

3 线程和进程的区别. 线程如何共享数据, 进程如何共享数据

4 八种各种排序 及其时间复杂度

5 mysql几种索引

6 计算机网络 tcp,udp, 区别    如何用udp实现tcp

7 数据仓库的一些概念

美团金融服务部(另一位同学)

1.先自我介绍

2.手写冒泡排序,按正序输出 会给个数组 [10,7,9,6,5,2,1,3,8]

3.hive的问题 主要靠 udf、udaf、udtf 会举个例子 考我的是 udaf的 row_number over(order by)

4.我简历上写着kylin,所以聊了下kylin

5.GC回收机制,新生代、老年代、永久代

6.mapreduce的执行过程

7.你觉得你的优势是什么

8.有没有创新点

9.离职原因

10.job的提交过程

11.sparksql,sparkstreaming,我说了下现在做什么,sparksql的api,做计算之类的,streaming做实时的kafka日志落地

12.数据仓库的概念,缓慢变化维。我说了下工作当中的仓库构建的层次,ods、mds、sds的处理流程(概念的东西可以好好看看)

二: 高德(地图定位相关部门)

1 wait synchronized深入对象,方法,静态方法 reentrantlock

2 两个文件各有50亿条数据,存的是cookie,每个cookie 32个字节,在单机环境下匹配

3 一个链表,线性时间复杂度查询中间的元素

4 hdfs 模块

5 hive  order by,  sort by,  distribute by, cluster by

6 如何压缩日志

7 mr suffer ,map端数据倾斜

8 hash一致性 三个节点 热点key不均匀

9 二叉树 二叉排序树(中序遍历有序) 平衡二叉树(左右深度绝对值小于1)

三: 阿里妈妈面试

1.会问一些工作中的内容,先介绍一下自己的工作,然后会问一些工作相关的东西

2.问题环节

(1) 两个文件各有50亿条数据,存的是cookie,每个cookie 32个字节,在单机环境下匹配

(2)2亿条整数数据,如果快速匹配出指定的一个整数是否在文件当中,在单机环境

(3)hashmap和treemap的区别

(4) java值和引用的区别 在堆还是栈中

3 一个20T数据,分a,b,c三种类型数据混合,求a中设备id数据去重汇总,b中设备id不在a中的去重汇总,c也以此类推

先设备id排序, 设备id相同按类型排序 取第一个,(二次排序)

四:搜狐新媒体电话面试

1.先自我介绍

2.都用过哪些大数据的框架(重复问了好多次)

3.hbase最适合的应用场景

4.工作中mr或hive印象最深刻的问题及怎么解决的

5.看过哪些hadoop源码(如果说看过哪块,他会让你说)

6.做的工作中,整条链路,最关键的点是什么或者说最大的坑是什么

7.如何保证数据一致性(这是数据仓库的东西)

8.druid、kylin、impala、presto(这个可以了解一下,他简单问了问我)

五: 一点咨询面试

1.工作内容介绍,会针对工作内容问些问题

2.姓名,课程,成绩 sql,至少两科及格的总人数

3.ip访问次数top10 单机环境,内存有限,日志量比较的情况下如何快速取出top10

4.实时程序如果算一天的uv,有啥解决方案

5.random(5)如何用等概率实现random(10)

6.用过哪些OLAP框架,会让讲原理

7.看过哪些源码,可以随便讲哪块都行

8.二叉树

9.如果啥服务都没有,从头搭一套的流程设计是什么样的,一直到数据报表可视化

 

其实面试只要好好准备,通过率还是挺高的.

对于大数据面试基本上以下几个方向吧(大概写写,不是系统性的总结) :

1 java基础(gc,jvm,map,volatile,多线程锁相关)

2 数据结构(数组,链表,树,二叉树!) 算法(八大排序算法必会)

基本上做业务的算法不会问太难,以后会分享一些面试中的简单算法

3 hadoop 各个模块,如何高可用, suffer(必问), mapreduce过程(必问)

4 zookeeper 相关,分布式锁

5 spark相关 为什么比hadoop快

6 kafka


喜欢 (0)