大数据面试题整理

栏目:大数据面试丨时间:05-24丨来源:网络丨作者:光环IT学院

1.简述大数据的生态组件

  

  参考链接:

  http://wenku.baidu.com/link?url=OYTVLe1e5zvBn8CBy4TSmoRkg4See5GEoX8h8bHcwGBsMKeJCiet7Pr7G_hrc6Q-SHZwMWU0fDrcufpatVgIPfsYgsX3FS1doMI0G4iJoE50A9rJmh2wSc3BYcx_6SBJ

  

2.简要描述如何配置一个apache的hadoop分布式

  http://www.cnblogs.com/juncaoit/p/5874568.html

  注意点:jdk的安装

 

3.mapreduce的原理

  "Map(映射)"和"Reduce(归约),以及中间的shuffle过程

  可以分成5个部分来讲解

 

4.讲述combiner与partition的作用

  combine的作用是map端的reduce聚合

  partition的作用是分区,知道key到哪一个reduce

  

 

5.讲述hadoop怎么实现二次排序

  讲key与value进行合并来形成新的key,定义新的数据类型

  

 

6.hadoop启动的进程,以及作用

  hdfs

  yarn

  history

 

7.hdfs的数据压缩算法

  

  参考链接:

  http://blog.csdn.net/yangbutao/article/details/8474731

 

8.使用mapreduce处理数据倾斜?

  map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完,此称之为数据倾斜。

  可以进行二次排序。(。。。。。。。。)

 

9.datanode什么情况下不会进行备份

  在配置文件中datanode的数量设置为1时

 

10.hdfs的体系结构

  

  

11.介绍/etc下的配置文件

  /etc/sysconfig/network 修改主机名

  /etc/hosts 网络的修改

  /etc/sysconfig/network-scripts/ifcfg-eth0 网关的修改

  /etc/sysconfig/selinux 权限的修改

  /etc/ntp.conf 同步时间

 

12.描述hadoop中哪些地方使用了缓存技术,作用分别是什么?

  Shuffle中

 

13.请随意使用各种类型的脚本语言实现:批量将指定目录下的所有文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoop

  find /home/ocetl/app/hadoop -exec sed -i 's/\$HADOOP_HOME\$/\/home\/ocetl\/app\/hadoop/g' {} \;

 

14.Yarn中运行应用程序的基本流程

  

 

15.hdfs的存储机制

  HDFS主要是一个分布式的文件存储系统,由namenode来接收用户的操作请求,然后根据文件大小,以及定义的block块的大小,将大的文件切分成多个block块来进行保存。

  在HDFS中,文件的读写过程就是client和NameNode以及DataNode一起交互的过程。我们已经知道NameNode管理着文件系统的元数据,DataNode存储的是实际的数据,那么client就会联系NameNode以获取文件的元数据,而真正的文件读取操作是直接和DataNode进行交互的。

  参考链接:

    http://www.2cto.com/database/201412/357371.html

 

16.mapreduce中创建DataWritable的作用是什么?

  

17.实现top10

  http://blog.csdn.net/mylittlered/article/details/43272013

 

18.mapreduce开发中使用过哪些算法

  单词统计pv

  数据去重uv

  topn 最受欢迎的排序

  

19.map中如何调用reduce的?

  。。。。。。。。。。

光环IT学院,专注IT培训16年,培养IT行业精英! —

光环IT学院

注:本站文章采用原创+网络转载两个方式,对于转载的文章,由于网络信息过多,无法100%找到原始出处。如果本站文章有侵犯了您的权益,请联系我们删除或授权。

请遵守理性,宽容,换位思考的原则

2017-05-24 13:40 发布 丨 人浏览

热点推荐

微信
公众号

微信扫码,即可关注

反馈
意见
回到
顶部