大数据期末考试题库

Source

Spark选择题

  1. Spark 的四大组件下面哪个不是 ( D )
    A.Spark Streaming B Mlib
    C Graphx D Spark R

  2. 下面哪个端口不是 spark 自带服务的端口 ( C )
    A.8080 B.4040 C.8090 D.18080

  3. spark 1.4 版本的最大变化 ( B )
    A spark sql Release 版本 B 引入 Spark R
    C DataFrame D 支持动态资源分配

  4. Spark Job 默认的调度模式 ( A )
    A FIFO B FAIR

    C 无 D 运行时指定

  5. 哪个不是本地模式运行的个条件 ( D )
    A spark.localExecution.enabled=true B 显式指定本地运行

    C finalStage 无父 Stage D partition 默认值

  6. 下面哪个不是 RDD 的特点 ( C )
    A. 可分区 B 可序列化 C 可修改 D 可持久化

  7. 关于广播变量,下面哪个是错误的 ( D )
    A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS

  8. 关于累加器,下面哪个是错误的 ( D )
    A 支持加法 B 支持数值类型
    C 可并行 D 不支持自定义类型

  9. Spark 支持的分布式部署方式中哪个是错误的 ( D )
    A standalone B spark on mesos
    C spark on YARN D Spark on local

  10. Stage 的 Task 的数量由什么决定 ( A )
    A Partition B Job C Stage D TaskScheduler

  11. 下面哪个操作是窄依赖 ( B )
    A join B filter
    C group D sort

  12. 下面哪个操作肯定是宽依赖 ( C )
    A map B flatMap
    C reduceByKey D sample

  13. spark 的 master 和 worker 通过什么方式进行通信的? ( D )
    A http B nio C netty D Akka

  14. 默认的存储级别 ( A )
    A MEMORY_ONLY B MEMORY_ONLY_SER
    C MEMORY_AND_DISK D MEMORY_AND_DISK_SER

  15. spark.deploy.recoveryMode 不支持那种 ( D )
    A.ZooKeeper B. FileSystem
    D NONE D Hadoop

  16. 下列哪个不是 RDD 的缓存方法 ( C )
    A persist() B Cache() C Memory()

  17. Task 运行在下来哪里个选项中 Executor 上的工作单元 ( C )
    A Driver program B. spark master
    C.worker node D Cluster manager

  18. hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( B )
    A. 没区别 B. 多会话 C. 支持网络环境 D 数据库的区别

  19. DataFrame 和 RDD 最大的区别 ( B )
    A. 科学统计支持 B. 多了 schema
    C. 存储方式不一样 D. 外部数据源支持

  20. Master 的 ElectedLeader 事件后做了哪些操作 ( D )
    A. 通知 driver B. 通知 worker
    C. 注册 application D. 直接 ALIVE

章鱼学院(Spark)

Spark 是什么 () ? 正确答案:A,C,D

  • A.Spark 是基于内存计算的框架
  • B.Spark 是基于磁盘计算的框架
  • C.Spark 是一种基于 RDD 计算框架
  • D.Spark 是一种并行计算框架

spark 的数据,可以存储在哪些地方?正确答案:A,B,C,D

  • A.HDFS
  • B.Cassandra
  • C.Hbase
  • D.S3

大数据处理主要的三种场景为() 正确答案:A,B,C

  • A. 批处理
  • B. 交互处理
  • C. 流式计算
  • D. 事务处理

以下对 Spark Core 描述正确的有?正确答案:A,B,C,D

  • A. 引入了 RDD
  • B. 移动计算而非移动数据
  • C. 使用线程池来减少 task 启动开销
  • D. 使用 akka 作为通讯框架

以下对 Spark SQL 的描述正确的有?正确答案:A,B,C

  • A.Spark SQL 运行开发人员之间处理 RDD
  • B.Spark SQL 可以直接查询 hive 中的数据
  • C.Spark SQL 运行开发人员之间使用 SQL 进行复制的数据分析
  • D.Spark SQL 的性能上,和 Hive 类似。

以下哪些是 Spark 的组件?正确答案:A,B,C

  • A.MLBase/MLlib
  • B.GraphX
  • C.Spark R
  • D.Matlab

Spark 的运行模式有哪些?正确答案:A,B,C,D

  • A.local
  • B.Standalone
  • C.on Yarn or on mesos
  • D.on Cloud

spark 运行模式中,on yarn 这种模式,可以应用于生产环境中。 正确答案:A

  • A. 正确
  • B. 错误

spark 运行模式中,local 这种模式,可以应用于生产环境中。 正确答案:B

  • A. 正确
  • B. 错误

Spark 使用的资源管理器有哪些?正确答案:A,B,C,D

  • A.Mesos
  • B.standalone
  • C.yarn
  • D.cloud

spark 都有哪些组件? 正确答案:A,B,C,D

  • A.Spark SQL
  • B.Spark Streaming
  • C.MLlib
  • D.GraphX

Spark 是 2009 年诞生于伯克利大学 AMPLab 的基于内存计算框架 正确答案:A

  • A. 正确
  • B. 错误

下列对 spark 描述正确的有? 正确答案:A,B,C,D

  • A.spark 是基于内存计算的
  • B.spark 处理大量数据的一个快速通用的引擎
  • C.spark 由 AMPlab 实验室开发
  • D.spark 目前是 apache 的顶级项目

spark 是由 java 语言开发 正确答案:B

  • A. 正确
  • B. 错误

Spark 的容错机制是 ()。 正确答案:A,D

  • A.checkpoint
  • B.persist
  • C.cache
  • D.lineage

Spark 与 Hadoop 的区别 ()。 正确答案:A,C

  • A.Spark 是基于内存计算框架,而 Hadoop 基于硬盘计算框架
  • B.Spark 是基于硬盘计算框架,而 Hadoop 基于内存计算框架
  • C.Spark 是一站式计算框架,而 Hadoop 只适合离线处理计算框架
  • D.Spark 只适合离线处理计算框架,而 Hadoop 是一站式计算框架

spark 基本特点有哪些?正确答案:A,B,C,D

  • A.Ease of use
  • B.Generality
  • C.Runs everywhere
  • D.Speed

可以使用哪些语言来编写 spark 应用程序? 正确答案:A,B,C,D

  • A.java
  • B.scala
  • C.python
  • D.R

spark 和 hadoop 对比,说法正确的是? 正确答案:A,B,C

  • A.Hadoop 中间结果会存储在磁盘上
  • B.spark 中间结果会存储在内存中
  • C.Spark 相对于 hadoop 提供了更多的操作
  • D.Spark 已经完全取代 hadoop

Spark 常见组件描述错误的是 ()。 正确答案:B

  • A.Spark Core:是以内存使用 RDD 的计算实现有向无环图的分布式并行计算框架
  • B.Spark Streaming:是一个对实时数据流进行低吞吐量、高容错性处理的流式处理框架
  • C.Spark SQL:是一个可以直接通过 sql 语句处理 RDD,来进行查询与计算
  • D.Spark MLBase:是专注于机器学习方面
  • E.Spark GraphX:是专注于图计算方面
  • F.SparkR:是一种使用 R 语言开发,且能实现并行处理的计算框架

大数据期末题目汇总

选择题

  1. 下面哪个程序负责 HDFS 数据存储。 (C )

A. NameNode B.Jobtracker

C. Datanode D. secondaryNameNode

  1. HDFS 中的 block 默认保存几个备份。 ( A )

A. 3 份 B. 2 份

C. 1 份 D. 不确定

  1. HDFS1.0 默认 Block Size 大小是多少。 ( B )

A. 32MB B. 64MB

C. 128MB D. 256MB

  1. 下面哪个进程负责 MapReduce 任务调度。 ( B )

A. NameNode B. Jobtracker

C. TaskTracker D. secondaryNameNode

  1. Hadoop1.0 默认的调度器策略是哪个。 (A )

A. 先进先出调度器 B. 计算能力调度器

C. 公平调度器 D. 优先级调度器

  1. Client 端上传文件的时候下列哪项正确? ( B )

A. 数据经过 NameNode 传递给 DataNode

B. Client 端将文件切分为 Block,依次上传

C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作

D. 以上都不正确

  1. 在实验集群的 master 节点使用 jps 命令查看进程时,终端出现以下哪项能说明 Hadoop 主节点启动成功? ( D )

A. Namenode,Datanode, TaskTracker

B. Namenode,Datanode, secondaryNameNode

C. Namenode,Datanode, HMaster

D. Namenode,JobTracker, secondaryNameNode

  1. 若不针对 MapReduce 编程模型中的 key 和 value 值进行特别设置,下列哪一项是 MapReduce 不适宜的运算。 ( D )

A. Max B. Min

C. Count D. Average

  1. MapReduce 编程模型,键值对 <key, value> 的 key 必须实现哪个接口? ( A )

A.WritableComparable B. Comparable

C. Writable D. LongWritable

  1. 以下哪一项属于非结构化数据。(C)

A. 企业 ERP 数据 B. 财务系统数据

C. 视频监控数据 D. 日志数据

  1. HBase 数据库的 BlockCache 缓存的数据块中,哪一项不一定能提高效率。 (D )

A. –ROOT - 表 B. .META. 表

C. HFile index D. 普通的数据块

  1. HBase 是分布式列式存储系统,记录按什么集中存放。 (A )

A. 列族 B. 列

C. 行 D. 不确定

  1. HBase 的 Region 组成中,必须要有以下哪一项。 ( B )

A. StoreFile B. MemStore

C. HFile D. MetaStore

  1. 客户端首次查询 HBase 数据库时,首先需要从哪个表开始查找。 ( B )

A. .META. B. –ROOT-

C. 用户表 D. 信息表

15、设计分布式数据仓库 hive 的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。 ( A )

A. 分桶 B. 分区

C. 索引 D. 分表

填空题

  1. 大数据的特点:Volume (数据容量)、Variety (数据类型)、Viscosity (价值密度)、Velocity (速度)、Veracity (真实性)

  2. 大数据的性质:非结构性、不完备性、时效性、安全性、可靠性

  3. 大数据处理的全过程:数据采集与记录 --> 数据抽取、清洗、标记 --> 数据集成、转换、简约 --> 数据分析与建模 --> 数据解释

  4. 大数据的关键技术:流处理、并行化、摘要索引、可视化

  5. 科学研究范式:第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算)

  6. CAP理论:Consistency (一致性)、Availability (可用性)、Partition Tolerance (分区容错性)。一个分布式系统不可能同时满足一致性、可用性、分区容错性三个系统需求,最多只能同时满足两个。

  7. HDFS 目标:兼容廉价的硬件设备、流数据读写、大数据集、简单的文件模型、强大的跨平台兼容性

  8. 流式数据的特征:实时性、易失性、突发性、无序性、无限性、准确性

  9. Storm 特征:编程简单、支持多语言、作业级容错、水平扩展、底层使用 Zero 消息队列,快

  10. 搜索引擎的工作过程:爬行 -> 抓取存储 -> 预处理 -> 排名

  11. 搜索引擎的评价指标:查全率、查准率、响应时间、覆盖范围、用户方便性

  12. 数据分析的目的:对杂乱无章的数据进行集中、萃取、提炼,进而找出所研究对象的内在规律,发现其价值。

  13. Hadoop 的三种安装模式:单机 伪分布式 完全分布式

  14. yarn 配置后的 web 监控的默认端口是 8088

  15. HDFS web 界面的默认端口为 50070

  16. 目前得到广泛应用的分布式文件系统主要包括 GFSHDFS

  17. HDFS 采用 “一次写入,多次读取” 的简单文件模型

  18. HDFS 采用了 主从结构模型。

  19. Hase 3 个主要功能组件:库函数,Master 主服务器,Region 服务器

  20. MapReduce 模型的核心是 Map 函数和 Reduce 函数

  21. YARN 的目标就是实现 “一个集群,多个框架”。

判断题

  1. Hadoop 支持数据的随机读写。(hbase 支持,hadoop 不支持) ( 错 )

  2. NameNode 负责管理元数据信息 metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(内存中读取) ( 错 )

  3. MapReduce 的 input split 一定是一个 block。 (默认是) ( 错)

  4. MapReduce 适于 PB 级别以上的海量数据在线处理。 (离线) ( 错 )

  5. 链式 MapReduce 计算中,对任意一个 MapReduce 作业,Map 和 Reduce 阶段可以有无限个 Mapper,但 Reducer 只能有一个。 ( 对 )

  6. MapReduce 计算过程中,相同的 key 默认会被发送到同一个 reduce task 处理。( 对 )

  7. HBase 对于空(NULL)的列,不需要占用存储空间。 (没有则空不存储)( 对 )

  8. HBase 可以有列,可以没有列族(column family)。 (有列族) ( 错 )

简答题

  1. 简述大数据技术的特点。

Volume(大体量):即可从数百 TB 到数十数百 PB、甚至 EB 规模。

Variety(多样性):即大数据包括各种格式和形态的数据。

Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。

Veracity(准确性):即处理的结果要保证一定的准确性。

Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用带来巨大的商业价值。

  1. 启动 Hadoop 系统,当使用 bin/start-all.sh 命令启动时,请给出集群各进程启动顺序。

答:启动顺序:namenode –> datanode -> secondarynamenode -> resourcemanager -> nodemanager

  1. 简述 HBase 的主要技术特点。

(1)列式存储

(2)表数据是稀疏的多维映射表

(3)读写的严格一致性

(4)提供很高的数据读写速度

(5)良好的线性可扩展性

(6)提供海量数据

(7)数据会自动分片

(8)对于数据故障,hbase 是有自动的失效检测和恢复能力。

(9)提供了方便的与 HDFS 和 MAPREDUCE 集成的能力。

  1. 科学研究第一范式、第二范式、第三范式、第四范式。

    第一范式 (科学实验)、第二范式 (科学理论)、第三范式 (系统模拟)、第四范式 (数据密集型计算)

    第一范式:经验范式,以观察和实验为依据的研究。

    第二范式:以建模和归纳为基础的理论学科和分析范式,又称为理论范式。

    第三范式:以模拟复杂现象为基础的计算科学范式,又称为模拟范式。

    第四范式:以数据考察为基础,联合理论、实验和模拟一体的数据密集计算的范式,数据被捕获或者由模拟器生成,利用软件处理,信息和知识存储在计算机中,科学家使用数据管理和统计学方法分析数据。

  2. 分布式系统的 CAP 理论。

    CAP 一致性:所有节点在同一时间具有相同的数据。

    可用性:保证每个请求的成功或失败都有相应。

    分区容错性:系统中任意信息的丢失或失败不影响系统的继续运行。

    CAP 定理:一个分布式系统不可能同时满足一致性、可用性、和分区容错性,最多只能同时满足两个系统需求。在考虑满足系统需求时,要根据实际需要来选择关注点,进而采用相应的策略。

    CAP 选择:1. 放弃分区容错性。2. 放弃可用性。3. 放弃一致性。

  3. 函数式语言的概念及特点,Map 及 Reduce 过程的含义及功能,Hadoop 分布式平台特点。

    函数式语言的概念和特点:函数式语言是一种典型的程序设计语言。特点是把问题求解过程表示成块结构,对调用块的调用者来说,每个块都有输入数据和经过加工处理后的输出数据。

    Map 及 Reduce 过程的含义及功能:Map(映射)Reduce(化简)。Map 函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。Reduce 函数是从两个或更多个 Map 结果中,通过多个线程、进程或者独立系统并执行处理的结果集进行分类和归纳。一个 Map 函数用来把一组键值对映象成一组新的键值对,Reduce 函数用来对同一个键的值进行合并。

    Hadoop 分布式平台特点:方便,健壮,可横向扩展,简单。