《大数据概论》课程练习题及答案解析

⚠️提示：该试题适用于重庆科技大学大数据概论 3SL1016A.10 课程习题。

本课程的线下考试时间为第19周星期一，线下测试的主要内容为本公告的附件“《大数据概论》课程练习题及参考答案”PDF。（注意：题目类型会有变化，如多选变单选，或者多选变简答等）。

线下期末考试的题型及分数分布如下：
（1）单选题15个，每个2分，共30分。
（2）判断题10个，每个2分，共20分。
（3）简答题3个，每个10分，共30分。
（4）综合分析题1个，共20分。（此题涉及思政，结合本课程内容言之有理即可）

第 1 章大数据概述

一、单选题

题目：下面关于数据的说法，错误的是：（B）
- A. 数据的根本价值在于可以为人们找出答案
- B. 数据的价值会因为不断使用而削减
- C. 数据的价值会因为不断重组而产生更大的价值
- D. 目前阶段，数据的产生不以人的意志为转移
- 解析：数据的价值具有非消耗性，多次使用不会使其价值削减，反而可能通过重组、关联分析等方式创造更大价值。例如，用户行为数据经多次分析可用于不同场景的精准营销。A 选项体现了数据的决策支持作用，C 选项符合数据复用特性，D 选项反映了物联网、传感器等自动产生数据的现状。
题目：第 3 次信息化浪潮的标志是：（C）
- A. 个人计算机的普及
- B. 互联网的普及
- C. 云计算、大数据和物联网技术的普及
- D. 人工智能的普及
- 解析：第一次信息化浪潮以个人计算机普及为标志，第二次以互联网普及为核心，第三次则以云计算、大数据和物联网技术的融合应用为特征，这些技术推动了数据量的爆炸式增长和智能化处理需求。
题目：物联网的发展最终导致了人类社会数据量的第三次跃升，使得数据产生方式进入了：（D）
- A. 手工创建阶段
- B. 运营式系统阶段
- C. 用户原创内容阶段
- D. 感知式系统阶段
- 解析：数据产生方式经历了三个阶段：运营式系统阶段（如企业 ERP 系统产生数据）、用户原创内容阶段（如社交媒体 UGC 内容）、感知式系统阶段（如物联网传感器自动采集数据）。物联网通过传感器、RFID 等设备实现实时数据采集，属于感知式系统阶段。
题目：英国的大数据发展战略是：（D）
- A. 稳步实施 “三步走” 战略，打造面向未来的大数据创新生态
- B. 通过发展创新性解决方案并应用于实践来促进大数据发展
- C. 以大数据等技术为核心应对第四次工业革命
- D. 紧抓大数据产业机遇，应对脱欧后的经济挑战
- 解析：英国在脱欧后将大数据作为经济复苏的重要抓手，通过政策支持和产业布局，推动大数据产业发展以缓解脱欧带来的经济压力。其他选项分别对应美国、德国等国家的大数据战略特点。
题目：以下哪个不是大数据的 “4V” 特性：（D）
- A. 数据量大（Volume）
- B. 数据类型繁多（Variety）
- C. 处理速度快（Velocity）
- D. 价值密度高（Value）
- 解析：大数据的 4V 特性包括 Volume（量大）、Variety（类型多）、Velocity（速度快）、Value（价值密度低）。例如，监控视频中有效信息仅占极小比例，体现了价值密度低的特点。

二、多选题

题目：数据的类型主要包括：（ABCD）
- A. 文本
- B. 图片
- C. 音频
- D. 视频
- 解析：数据类型涵盖结构化、半结构化和非结构化数据。文本属于结构化数据，图片、音频、视频属于非结构化数据，它们共同构成了大数据的多样性来源。
题目：计算机系统中的数据组织形式主要有两种，分别是：（AD）
- A. 文件
- B. 视频
- C. 音频
- D. 数据库
- 解析：文件系统和数据库是数据存储的两种基本方式。文件系统适合非结构化数据的简单存储，数据库（如关系型数据库）则通过结构化查询语言（SQL）实现高效的数据管理和检索。
题目：为了让数据变得可用，需要对数据进行三个步骤的处理，分别是：（ACD）
- A. 数据清洗
- B. 数据抽样
- C. 数据管理
- D. 数据分析
- 解析：数据清洗用于处理缺失值、错误值等问题，数据管理涉及存储和组织数据，数据分析则挖掘数据中的价值。数据抽样是数据分析的一种方法，而非必需的前置步骤。
题目：信息科技为大数据时代提供技术支撑，主要体现在哪三个方面：（ABD）
- A. 存储设备容量不断增加
- B. CPU 处理能力大幅提升
- C. 量子计算机全面普及
- D. 网络带宽不断增加
- 解析：存储容量、CPU 算力和网络带宽的提升为大数据的存储、处理和传输提供了基础。目前量子计算机尚未全面普及，不属于现有技术支撑的核心要素。
题目：人类社会的数据产生方式大致经历了哪三个阶段：（BCD）
- A. 手工生产阶段
- B. 运营式系统阶段
- C. 用户原创内容阶段
- D. 感知式系统阶段
- 解析：如前所述，数据产生方式不包括 “手工生产阶段”，而是从运营式系统（企业数据）、用户原创内容（社交媒体）到感知式系统（物联网）的演进。
题目：关于 “大数据摩尔定律”，以下说法正确的是：（ABC）
- A. 人类社会产生的数据一直都在以每年 50% 的速度增长
- B. 人类社会的数据量大约每两年就增加一倍
- C. 人类在最近两年产生的数据量相当于之前产生的全部数据量之和
- D. 人类社会的数据量以每年 10% 的速度增长
- 解析：大数据领域遵循 “数据爆炸” 规律，数据量呈指数级增长，每年增速约 50%，每两年翻倍，最近两年产生的数据量占历史总量的一半以上。10% 的增速远低于实际增长趋势。
题目：人类自古以来在科学研究上先后历经了哪几种范式：（ABCD）
- A. 实验科学
- B. 理论科学
- C. 计算科学
- D. 数据密集型科学
- 解析：科学研究范式从实验科学（如物理实验）、理论科学（如数学推导）、计算科学（如模拟仿真）发展到数据密集型科学（如大数据分析），体现了数据驱动的研究模式变革。
题目：大数据将会对社会发展产生深远的影响，具体表现在以下哪几个方面：（ABCD）
- A. 大数据决策成为一种新的决策方式
- B. 大数据成为提升国家治理能力的新途径
- C. 大数据应用促进信息技术与各行业的深度融合
- D. 大数据开发推动新技术和新应用的不断涌现
- 解析：大数据在决策（如疫情防控数据建模）、治理（如智慧城市）、产业融合（如工业 4.0）和技术创新（如 AI 算法优化）等方面均有显著影响，推动社会各领域的智能化转型。
题目：大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。以下哪些属于大数据产业的某个环节：（ABCD）
- A. IT 基础设施层
- B. 数据源层
- C. 数据管理层
- D. 数据分析层
- 解析：大数据产业链条包括基础设施（服务器、存储设备）、数据源（企业数据、公共数据）、数据管理（清洗、存储）、数据分析（挖掘、可视化）等环节，各层协同实现数据价值转化。

第 2 章大数据技术基础

一、单选题

题目：下面关于大数据安全问题，描述错误的是：（D）
- A. 大数据的价值并不单纯地来源于它的用途，而更多地源自其二次利用
- B. 对大数据的收集、处理、保存不当，会加剧数据信息泄露的风险
- C. 大数据成为国家之间博弈的新战场
- D. 大数据对于国家安全没有产生影响
- 解析：大数据涉及国家关键基础设施数据、公民隐私等，已成为国家主权和安全的重要组成部分。例如，能源、交通等领域的大数据若被恶意利用，将威胁国家安全。A 选项体现了数据二次利用的价值，如用户行为数据用于精准营销外，还可用于市场趋势分析。
题目：下面关于棱镜门事件描述错误的是：（C）
- A. 棱镜计划（PRISM）是一项由美国国家安全局（NSA）自 2007 年起开始实施的绝密电子监听计划
- B. 在该计划中，美国国家安全局和联邦调查局利用平台和技术上的优势，开展全球范围内的监听活动
- C. 该计划的目的是为了促进世界和平与发展
- D. 该计划对全世界重点地区、部门、公司甚至个人进行布控
- 解析：棱镜门事件本质是美国政府借助技术优势实施的全球监控行为，并非以促进和平为目的。事件暴露了大数据时代国家间数据主权的博弈和安全风险。
题目：下面关于手机软件采集个人信息的描述错误的是：（C）
- A. 在我们的日常生活中，部分手机 APP 往往会 “私自窃密”
- B. 有的 APP 在提供服务时，采取特殊方式来获得用户授权，这本质上仍属 “未经同意”
- C. 在微信朋友圈广泛传播的各种测试小程序是安全的，不会窃取用户个人信息
- D. 手机 APP 过度采集个人信息呈现普遍趋势，最突出的是在非必要的情况下获取位置信息和访问联系人权限
- 解析：微信朋友圈的测试小程序常以 “测性格”“算运势” 等名义诱导用户授权，获取头像、昵称、好友关系等信息，存在隐私泄露风险。例如，某测试小程序可能将用户信息打包出售给广告商。
题目：下面描述错误的是：（D）
- A. “探针盒子” 就是一款自动收集用户隐私的产品
- B. 许多顾客在使用 WiFi 之后会收到大量的广告信息，甚至自己的手机号码也会被当做信息进行多次买卖
- C. 在免费上网的背后，其实也存在着不小的信息安全风险，或许一不小心，就落入了电脑黑客们设计的 WiFi 陷阱之中
- D. 免费 WIFI 都是安全的，可以放心使用
- 解析：免费 WiFi 可能被黑客篡改，用户连接后可能遭遇钓鱼网站、数据劫持等风险。例如，黑客可通过伪造 WiFi 热点获取用户登录账号密码。
题目：下面关于机械思维的核心思想，描述错误的是：（B）
- A. 世界变化的规律是确定的
- B. 世界变化的规律是无法确定的
- C. 规律不仅是可以被认识的，而且可以用简单的公式或者语言描述清楚
- D. 这些规律应该是放之四海而皆准的，可以应用到各种未知领域指导实践
- 解析：机械思维认为世界遵循确定的规律，可通过公式或语言描述，如牛顿力学定律。B 选项与机械思维的核心相悖，属于不确定性思维的观点。
题目：我们在使用智能手机进行导航来避开城市拥堵路段时，体现了哪种大数据思维方式：（A）
- A. 我为人人，人人为我
- B. 全样而非抽样
- C. 效率而非精确
- D. 相关而非因果
- 解析：导航 APP 中，用户上传的实时位置数据被汇总后为其他用户提供拥堵信息，体现了数据共享的 “我为人人，人人为我” 思维。例如，某用户行驶在拥堵路段，其位置数据被 APP 采集并分享给其他用户，帮助后者避开该路段。
题目：谷歌采用搜索引擎大数据进行流感趋势预测，体现了哪种大数据思维方式：（B）
- A. 我为人人，人人为我
- B. 全样而非抽样
- C. 效率而非精确
- D. 相关而非因果
- 解析：谷歌通过分析全球用户的搜索关键词（如 “流感症状”“退烧药”）实现流感预测，采用的是全量搜索数据而非抽样，体现了 “全样而非抽样” 的思维，相比传统抽样调查更具时效性和全面性。
题目：“啤酒与尿布” 的故事，体现了哪种大数据思维方式：（D）
- A. 我为人人，人人为我
- B. 全样而非抽样
- C. 效率而非精确
- D. 相关而非因果
- 解析：超市数据分析发现啤酒与尿布的购买具有相关性（父亲买尿布时顺带买啤酒），但二者无直接因果关系，体现了 “相关而非因果” 的思维，可用于指导商品陈列和促销策略。
题目：大数据的简单算法比小数据的复杂算法更有效，体现了哪种大数据思维方式：（A）
- A. 以数据为中心
- B. 全样而非抽样
- C. 效率而非精确
- D. 相关而非因果
- 解析：在大数据场景下，海量数据本身可弥补算法复杂度的不足，简单算法（如线性回归）在大规模数据中可能比小数据下的复杂算法（如神经网络）更高效，体现了 “以数据为中心” 的思维，强调数据量对结果的决定性作用。
题目：迪士尼 MagicBand 手环，体现了哪种大数据思维方式：（A）
- A. 我为人人，人人为我
- B. 全样而非抽样
- C. 效率而非精确
- D. 相关而非因果
- 解析：MagicBand 手环收集用户在乐园内的位置、消费等数据，用于优化园区服务（如快速通行、个性化推荐），同时用户享受便利，体现了数据共享的 “我为人人，人人为我” 思维。
题目：下面关于大数据伦理的描述，错误的是：（D）
- A. 大数据伦理属于科技伦理的范畴
- B. 大数据伦理问题是指由于大数据技术的产生和使用而引发的社会问题
- C. 作为一种新的技术，大数据技术像其他所有技术一样，其本身是无所谓好坏的，而它的 “善” 与 “恶” 全然在于对大数据技术的使用者
- D. 大数据技术本身就存在 “善” 和 “恶” 的区分
- 解析：技术本身无善恶，大数据技术的伦理问题源于使用者的行为（如隐私泄露、数据滥用）。例如，数据分析可用于疾病预测（善），也可用于精准诈骗（恶），关键在于使用场景和目的。
题目：现在的互联网，基于大数据和人工智能的推荐应用越来越多，越来越深入，我们一直被 “喂食着” 经过智能化筛选推荐的信息，久而久之，会导致什么问题：（A）
- A. 信息茧房问题
- B. 隐形偏差问题
- C. 大数据杀熟问题
- D. 隐私泄露问题
- 解析：推荐算法持续推送用户感兴趣的信息，导致用户视野局限于单一领域，形成 “信息茧房”。例如，某用户常看科技新闻，算法便持续推送同类内容，使其忽视其他领域的信息。
题目：下面哪一个不属于大数据伦理问题：（D）
- A. 隐私泄露问题
- B. 数据安全问题
- C. 数字鸿沟问题
- D. 数据冗余问题
- 解析：数据冗余是技术层面的问题（如存储效率低），而非伦理问题。隐私泄露、数据安全（如黑客攻击）、数字鸿沟（如老年人无法使用智能技术）均涉及伦理层面的公平、安全等问题。
题目：下面关于政府数据孤岛描述错误的是：（D）
- A. 有些政府部门错误地将数据资源等同于一般资源，认为占有就是财富，热衷于搜集，但不愿共享
- B. 有些部门只盯着自己的数据服务系统，结果因为数据标准、系统接口等技术原因，无法与外单位、外部门联通
- C. 有些地方，对大数据缺乏顶层设计，导致各条线、各部门固有的本位主义作祟，壁垒林立，数据无法流动
- D. 即使涉及到工作机密、商业机密，政府也应该毫不保留地共享数据
- 解析：涉及工作机密、商业机密的数据需依法保护，不能无条件共享。政府数据开放需在安全和隐私保护的前提下进行，平衡共享与安全的关系。
题目：关于推进数据共享开放的描述，错误的是：（D）
- A. 要改变政府职能部门 “数据孤岛” 现象，立足于数据资源的共享互换，设定相对明确的数据标准，实现部门之间的数据对接与共享
- B. 要使不同省区市之间的数据实现对接与共享，解决数据 “画地为牢” 的问题，实现数据共享共用
- C. 在企业内部，破除 “数据孤岛”，推进数据融合
- D. 不同企业之间，为了保护各自商业利益，不宜实现数据共享
- 解析：企业间在合法合规的前提下，可通过数据共享实现共赢（如供应链协同、联合营销）。例如，电商平台与物流企业共享数据可优化配送效率，保护商业利益不意味着完全禁止数据共享，而是需建立合理的共享机制。
题目：下面关于数据权的描述，错误的是：（D）
- A. 数据权的概念发起于英国，主要将其视为信息社会的一项基本公民权利
- B. 数据权包括两个方面：数据主权和数据权利
- C. 数据主权的主体是国家，是一个国家独立自主对本国数据进行管理和利用的权力
- D. 数据主权的主体是公民，是相对应于公民数据采集义务而形成的对数据利用的权利
- 解析：数据主权的主体是国家，而非公民，指国家对本国数据的管理和控制权。公民拥有的数据权利（如隐私保护、数据访问权）属于数据权的另一维度。
题目：下面关于政府信息公开与政府数据开放的描述，错误的是：（B）
- A. 政府信息公开与政府数据开放是一对既相互区别又相互联系的概念
- B. 信息是没有经过任何加工与解读的原始记录，没有明确的含义，而数据则是经过加工处理并被赋予一定含义的
- C. 政府信息公开主要是为了对公众知情权的满足而出现的
- D. 政府数据开放强调的是数据的再利用，公众可以分享数据利用创造的经济和社会价值
- 解析：数据是原始记录（如未处理的传感器数据），信息是数据经过加工后有含义的内容（如数据报表）。B 选项将数据和信息的定义颠倒，正确的是数据是原始记录，信息是加工后的产物。
题目：关于公民的隐私权，下面描述错误的是：（A）
- A. 修改权是隐私权利人具有的依法了解自身信息资料是否被行政主体利用的权利
- B. 支配权是隐私权利人的基本权利之一，隐私权利人对自己的个人信息的收集、储存、传播、使用、开放等享有支配权
- C. 保障权是指公民有权要求政府在数据开放的过程中保障涉及其个人隐私的信息资料不被开放、不被滥用和不被泄露
- D. 救济权是公民在自身的合法权益受到侵害时，按照法定程序采取法律手段维护自身权益的权利
- 解析：修改权是指权利人有权修改自身信息，而 “了解自身信息是否被利用” 属于知情权。例如，用户有权查询某 APP 是否使用了自己的位置数据，这是知情权的体现。
题目：关于大数据交易在发展过程中遇到的问题，下面描述错误的是：（D）
- A. 互联网数据马太效应显现
- B. 市场信用体系缺失、监管有待加强
- C. 大数据交易规则和标准缺乏
- D. 数据质量评价与估值定价已经很完善
- 解析：数据质量评价（如完整性、准确性）和估值定价（如数据稀缺性、应用场景）仍是大数据交易的难点，尚未形成统一标准。例如，同一用户行为数据集在不同场景下的价值差异显著，难以用统一标准定价。
题目：目前大数据交易市场上存在很多种定价机制，但是不包括以下哪项：（D）
- A. 平台预定价
- B. 自动计价
- C. 拍卖式定价
- D. 随机性定价
- 解析：随机性定价缺乏合理性和可预测性，不属于正规的定价机制。平台预定价（如数据交易所设定固定价格）、自动计价（如按数据流量收费）、拍卖式定价（如数据拍卖会上竞价）均为常见的定价方式。
题目：我国首家大数据交易所是：（A）
- A. 贵阳大数据交易所
- B. 上海数据交易中心
- C. 华东江苏大数据交易中心
- D. 浙江大数据交易中心
- 解析：2015 年贵阳大数据交易所正式运营，是我国首家大数据交易所，推动了数据要素的市场化流通。

二、多选题

题目：传统的数据安全的威胁主要包括：（ABC）
- A. 计算机病毒
- B. 黑客攻击
- C. 数据信息存储介质的损坏
- D. 数据复制
- 解析：数据复制本身是正常的数据操作，只有当复制行为导致数据泄露时才构成威胁，因此不属于传统数据安全威胁。计算机病毒、黑客攻击、存储介质损坏（如硬盘物理损坏）均直接威胁数据的完整性和可用性。
题目：大数据安全表现出与传统数据安全不同的特征，具体来说包括哪几个方面：（ABCD）
- A. 大数据成为网络攻击的显著目标
- B. 大数据加大隐私泄露风险
- C. 大数据技术被应用到攻击手段中
- D. 大数据成为高级可持续攻击（APT）的载体
- 解析：大数据的高价值使其成为攻击目标（A），海量数据中可能包含更多隐私信息（B），攻击者可利用大数据分析技术精准定位漏洞（C），APT 攻击可借助大数据平台长期潜伏（D）。例如，黑客通过分析用户行为数据，可实施更精准的钓鱼攻击。
题目：舍恩伯格在《大数据时代：生活、工作与思维的大变革》一书中明确指出，大数据时代最大的转变就是思维方式的 3 种转变，具体包括：（ABC）
- A. 全样而非抽样
- B. 效率而非精确
- C. 相关而非因果
- D. 务实而非务虚
- 解析：舍恩伯格提出的三大思维转变是大数据时代的核心特征：全量数据替代抽样（A），允许数据容错以提升效率（B），关注相关性而非因果关系（C）。例如，电商推荐关注商品购买相关性，而非因果逻辑。
题目：下面关于搜索引擎 “点击模型” 的描述正确的是：（ABCD）
- A. 随着数据量的积累，点击模型对搜索结果排名的预测越来越准确，它的重要性也越来越大
- B. 点击模型的准确性取决于数据量的大小
- C. 一个搜索引擎使用的时间越长，数据的积累就越充分，对于长尾搜索就做得越准确
- D. 当整个搜索行业都意识到点击数据的重要性后，这个市场上的竞争就从技术竞争变成了数据竞争
- 解析：点击模型通过分析用户点击行为优化搜索结果排序，数据量越大模型越准确（A、B）。长期积累的数据可更好处理长尾搜索（如罕见查询词），搜索行业的竞争本质是数据规模和质量的竞争（D）。
题目：下面关于隐私泄露问题的描述，正确的是：（ABCD）
- A. 大数据时代下的隐私与传统隐私的最大区别在于隐私的数据化，即隐私主要以 “个人数据” 的形式出现
- B. 用户在使用搜索引擎时，搜索引擎可以精确地刻画出该用户的 “数字肖像”
- C. 通过数据预测，可以预测个体 “未来的隐私”
- D. “数据痕迹” 往往永远无法彻底消除，会被永久保留记录
- 解析：传统隐私多为物理信息（如日记），大数据时代隐私以数据形式存在（A）。搜索引擎通过搜索历史、地理位置等构建用户画像（B），如预测用户健康状况属于 “未来隐私”（C）。数据删除技术难以完全清除所有数据痕迹（D），如备份服务器可能留存旧数据。
题目：下面关于数字鸿沟问题的描述，正确的是：（ACD）
- A. 数字鸿沟被认为是信息时代的 “马太效应”，即先进技术的成果不能为人公正分享，于是造成 “富者越富、穷者越穷” 的情况
- B. 数字鸿沟因为大数据技术的诞生而趋向弥合
- C. 数字鸿沟是一个涉及公平公正的问题
- D. 在我国，东中西部地区、城乡之间等都可以明显感受到数字鸿沟的存在
- 解析：大数据技术可能加剧数字鸿沟（如掌握数据技术的群体更具优势），而非弥合（B 错误）。数字鸿沟体现在技术获取、使用能力的差异，是公平问题（A、C），我国区域发展不平衡导致城乡、东西部数字鸿沟明显（D）。
题目：下面关于数据独裁的描述，正确的是：（ABCD）
- A. 所谓的 “数据独裁” 是指在大数据时代，由于数据量的爆炸式增长，导致做出判断和选择的难度徒增，迫使人们必须完全依赖数据的预测和结论才能做出最终的决策
- B. 从某个角度来讲，数据独裁就是让数据统治人类，使人类彻底走向唯数据主义
- C. 数据独裁最终将导致人类思维被 “空心化”，进而是创新意识的丧失
- D. 数据独裁还可能使人们丧失了人的自主意识、反思和批判的能力，最终沦为数据的奴隶
- 解析：数据独裁指过度依赖数据而忽视主观判断，导致思维僵化（A、B）。例如，企业仅依据数据报表决策，可能忽视市场突发变化，丧失创新机会（C、D）。
题目：因数据而产生的垄断问题，主要包括哪几种类型：（ABCD）
- A. 数据可能造成进入壁垒或扩张壁垒
- B. 拥有大数据形成市场支配地位并滥用
- C. 因数据产品而形成市场支配地位并滥用
- D. 涉及数据方面的垄断协议
- 解析：数据垄断包括：新企业因缺乏数据难以进入市场（A），巨头利用数据优势排挤竞争对手（B），数据产品（如算法模型）形成垄断（C），企业间签订数据垄断协议（如划分数据市场）（D）。
题目：企业数据孤岛产生的原因主要包括哪两个方面：（AB）
- A. 以功能为标准的部门划分导致数据孤岛
- B. 不同类型、不同版本的信息化管理系统导致数据孤岛
- C. 机构设置不合理
- D. 各个部门责权利不清晰
- 解析：部门分工导致数据分散（如销售部与财务部数据独立）（A），不同系统（如 ERP 与 CRM）数据格式不兼容（B）是数据孤岛的主要原因。机构设置和责权利问题属于管理层面，非直接技术原因。
题目：消除数据孤岛对于政府具有哪些重要的意义：（ABCD）
- A. 有助于提升资源利用率
- B. 有助于推动政府转型
- C. 有助于提高行政效率
- D. 有助于促进跨部门合作
- 解析：政府数据共享可避免重复采集（A），推动从 “管理” 向 “服务” 转型（B），如 “一网通办” 提升办事效率（C），打破部门壁垒促进协作（D）。
题目：消除数据孤岛对于企业具有哪些重要的意义：（ABC）
- A. 有助于企业做出有利于生产要素组合优化的决策，使企业能够合理配置资源，实现企业利益最大化
- B. 有利于企业获得更好的经营发展能力
- C. 企业信息的增多可以增加做出正确选择的能力，从而提高经济效率
- D. 不利于企业长远的发展
- 解析：数据融合帮助企业优化资源配置（如供应链协同）（A），提升市场洞察能力（B），数据驱动决策提高效率（C）。D 选项与实际不符，消除数据孤岛有利于企业长远发展。
题目：实现数据共享，在政府层面面临的挑战包括：（ABCD）
- A. 不愿共享开放
- B. 不敢共享开放
- C. 不会共享开放
- D. 数据中心共享开放作用不强
- 解析：政府数据共享挑战包括：部门利益导致不愿共享（A），担心安全风险不敢共享（B），缺乏技术能力不会共享（C），现有数据中心共享机制不完善（D）。
题目：实现数据共享，在企业层面面临的挑战包括：（ABC）
- A. 系统孤岛挑战
- B. 组织架构挑战
- C. 数据合作挑战
- D. 利润风险挑战
- 解析：企业挑战包括：不同系统数据不互通（A），部门墙导致数据割裂（B），与外部企业数据合作的信任和合规问题（C）。利润风险并非主要挑战，合理的数据共享可创造利润。
题目：关于政府数据开放的意义，下面描述正确的是：（ABC）
- A. 政府开放数据有利于促进开放透明政府的形成
- B. 政府开放数据有利于创新创业和经济增长
- C. 政府开放数据有利于社会治理创新
- D. 政府开放数据将会对政府正常运作产生威胁
- 解析：政府数据开放增强透明度（A），企业可利用开放数据开发应用（如交通数据用于智能导航）促进经济（B），数据驱动治理创新（如智慧社区）（C）。合理的数据开放不会威胁政府运作，反而提升效率。
题目：目前进行数据交易的形式主要包括哪几种：（ABC）
- A. 大数据交易公司
- B. 数据交易所
- C. API 模式
- D. PPT 模式
- 解析：数据交易形式包括专业交易公司（如贵阳大数据交易所）（A）、交易所平台（B）、API 接口实时调用（如地图 API）（C）。PPT 模式不属于正规交易形式。
题目：大数据交易平台的类型主要包括哪两种：（AD）
- A. 综合数据服务平台
- B. 实时数据交易平台
- C. 零散数据交易平台
- D. 第三方数据交易平台
- 解析：综合数据服务平台提供多类型数据服务（如数据清洗、分析）（A），第三方交易平台作为中介连接供需双方（D）。实时数据交易属于交易特性，非平台类型。
题目：交易数据的来源主要包括哪些：（ABCD）
- A. 政府公开数据
- B. 企业内部数据
- C. 数据供应方数据
- D. 网页爬虫数据
- 解析：数据来源包括政府开放数据（A）、企业自有数据（B）、第三方供应商数据（C）、合法爬虫获取的公开数据（D）。需注意爬虫数据需遵守法律法规，不得抓取隐私数据。
题目：交易产品的类型主要包括哪几种：（ABCD）
- A. API
- B. 数据包
- C. 云服务
- D. 解决方案
- 解析：数据交易产品形式多样：API 接口（如天气数据 API）（A）、数据包（如用户行为数据集）（B）、云服务（如数据分析云平台）（C）、行业解决方案（如智慧农业数据方案）（D）。
题目：大数据交易平台的运营模式主要包括哪两种：（BC）
- A. 具有交易实时显示功能的交易平台
- B. 兼具中介和数据处理加工功能的交易平台
- C. 只具备中介功能的交易平台
- D. 只具备数据处理加工功能的交易平台
- 解析：运营模式包括：中介 + 数据处理（如平台既撮合交易又提供数据清洗）（B）、纯中介（仅连接买卖双方）（C）。实时显示属于平台功能，非运营模式。
题目：可以从哪些维度评价数据价值：（ABCD）
- A. 数据样本量
- B. 数据品种
- C. 数据完整性
- D. 数据实时性
- 解析：数据价值评估维度包括：样本量大小（A）、类型多样性（B）、完整性（如字段缺失率）（C）、实时性（如分钟级更新 vs 日级更新）（D）。例如，实时交通数据因时效性强，价值高于历史数据。

第 3 章数据采集与清洗

一、单选题

题目：以下哪个步骤不属于数据的采集与预处理：（D）
- A. 利用 ETL 工具将分布的、异构数据源中的数据，抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中
- B. 利用日志采集工具把实时采集的数据作为流计算系统的输入，进行实时处理分析
- C. 利用网页爬虫程序到互联网网站中爬取数据
- D. 对分析结果进行可视化呈现，帮助人们更好地理解数据、分析数据
- 解析：数据采集与预处理包括数据抽取（A）、实时采集（B）、网络爬取（C）等环节，而数据可视化（D）属于数据分析后的展示步骤，不属于采集与预处理阶段。
题目：以下哪项不属于数据清洗的内容：（B）
- A. 一致性检查
- B. 精确度校验
- C. 无效值和缺失值的处理
- D. 成对删除
- 解析：数据清洗主要处理数据质量问题，包括一致性检查（如日期格式统一）（A）、无效值处理（如年龄为负数的记录）（C）、成对删除（删除包含缺失值的记录）（D）。精确度校验属于数据验证环节，而非清洗内容。
题目：以下哪个不是 Flume 的核心组件：（A）
- A. 数据块（Block）
- B. 数据源（Source）
- C. 数据通道（Channel）
- D. 数据槽（Sink）
- 解析：Flume 是分布式日志采集系统，核心组件包括 Source（数据输入）、Channel（数据缓存）、Sink（数据输出）。数据块（Block）是 HDFS 的存储单元，不属于 Flume 组件。
题目：下面关于网络爬虫的描述错误的是：（D）
- A. 网络爬虫是一个自动提取网页的程序
- B. 为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分
- C. 爬虫从一个或若干个初始网页的 URL 开始，获得初始网页上的 URL，在抓取网页的过程中，不断从当前页面上抽取新的 URL 放入队列，直到满足系统的一定停止条件
- D. 网络爬虫的行为和人们访问网站的行为是完全不同的
- 解析：爬虫通过模拟浏览器行为访问网页（如发送 HTTP 请求），与人类访问行为本质相似，区别在于爬虫是自动化批量操作。例如，爬虫会按预设规则抓取 URL，而人类访问具有随机性。
题目：下面关于网络爬虫的描述正确的是：（D）
- A. 网络爬虫由控制节点、爬虫节点和资源库构成
- B. 网络爬虫中可以有多个控制节点，每个控制节点下可以有多个爬虫节点
- C. 控制节点之间可以互相通信，控制节点和其下的各爬虫节点之间也可以进行互相通信
- D. 属于同一个控制节点下的各爬虫节点间不可以互相通信
- 解析：爬虫架构中，控制节点负责调度，爬虫节点负责抓取，同一控制节点下的爬虫节点独立工作，不直接通信（D 正确）。A 选项缺少 “调度器” 等组件，B 选项通常只有一个主控制节点，C 选项控制节点与爬虫节点单向通信（控制节点下发任务，爬虫节点上报状态）。
题目：以下哪个不是 Scrapy 体系架构的组成部分：（C）
- A. Scrapy 引擎（Engine）
- B. 爬虫（Spiders）
- C. 支持者（Support）
- D. 下载器（Downloader）
- 解析：Scrapy 是 Python 爬虫框架，核心组件包括 Engine（调度请求）、Spiders（处理响应）、Downloader（下载网页），不存在 “支持者（Support）” 组件。
题目：下面关于反爬机制描述错误的是：（D）
- A. 简单低级的网络爬虫，数据采集速度快，伪装度低，如果没有反爬机制，它们可以很快地抓取大量数据，甚至因为请求过多，造成网站服务器不能正常工作，影响了企业的业务开展
- B. 反爬机制也是一把双刃剑，一方面可以保护企业网站和网站数据，但是，另一方面，如果反爬机制过于严格，可能会误伤到真正的用户请求
- C. 如果既要和 “网络爬虫” 死磕，又要保证很低的误伤率，那么又会增加网站研发的成本
- D. 反爬机制不利于信息的自由流通，不利于网站发展，应该坚决取消
- 解析：反爬机制是保护数据安全和服务器稳定的必要手段，合理的反爬措施（如限制请求频率、验证码）在保护企业利益的同时，不会过度影响用户体验。取消反爬会导致数据被恶意抓取，影响网站正常运营。
题目：假设有一个数据集 X={4,8,15,21,21,24,25,28,34}，这里采用基于平均值的等高分箱方法对其进行平滑处理，则分箱处理结果是：（B）
- A. {8,8,8,22,22,22,29,29,29}
- B. {9,9,9,22,22,22,29,29,29}
- C. {9,9,9,21,21,21,29,29,29}
- D. {9,9,9,22,22,22,28,28,28}
- 解析：等高分箱将数据分为 3 箱（9 个数据点，3 箱各 3 个）：
  - 第一箱：4,8,15，平均值 =(4+8+15)/3=9，平滑后为 9,9,9；
  - 第二箱：21,21,24，平均值 =(21+21+24)/3=22，平滑后为 22,22,22；
  - 第三箱：25,28,34，平均值 =(25+28+34)/3≈29，平滑后为 29,29,29。因此选 B。
题目：假设属性的最大值和最小值分别是 87000 元和 11000 元，现在需要利用 Min-Max 规范化方法，将 “顾客收入” 属性的值映射到 0~1 的范围内，则 “顾客收入” 属性的值为 72400 元时，对应的转换结果是：（A）
- A. 0.808
- B. 0.837
- C. 0.769
- D. 0.987
- 解析：Min-Max 规范化公式为：\(v' = \frac{v - min}{max - min}\)，代入数值：\(\frac{72400 - 11000}{87000 - 11000} = \frac{61400}{76000} \approx 0.808\)，故选 A。
题目：假设 A 班级的平均分是 80，标准差是 10，A 考了 90 分；B 班的平均分是 400，标准差是 100，B 考了 600 分。采用 Z-Score 规范化以后，二者谁的成绩更加优秀：（B）
- A. A 的成绩更为优秀
- B. B 的成绩更为优秀
- C. 二者一样优秀
- D. 无法比较
- 解析：Z-Score 公式为：\(z = \frac{v - \mu}{\sigma}\)，计算得：
  - A 的 Z-Score：\(\frac{90 - 80}{10} = 1\)；
  - B 的 Z-Score：\(\frac{600 - 400}{100} = 2\)。 Z-Score 越大，成绩相对班级越优秀，故 B 更优秀，选 B。
题目：假设属性的取值范围是 - 957~924，当属性的值为 426 时，采用小数定标规范化方法对应的转换结果是：（C）
- A. 0.421
- B. 0.433
- C. 0.426
- D. 0.489
- 解析：小数定标规范化通过移动小数点位置使数据落入 [-1,1]，移动位数 k 由最大值决定。最大值 924 的绝对值为 924，k=3（\(10^3=1000\)），转换公式：\(v' = \frac{426}{1000} = 0.426\)，故选 C。

二、多选题

题目：数据采集的三大要点是：（ABC）
- A. 全面性
- B. 多维性
- C. 高效性
- D. 精确性
- 解析：数据采集需全面覆盖需求（A）、多维度描述对象（B）、高效处理大规模数据（C）。精确性属于数据质量要求，而非采集要点。
题目：数据采集的主要数据源包括：（ABCD）
- A. 传感器数据
- B. 互联网数据
- C. 日志文件
- D. 企业业务系统数据
- 解析：数据源涵盖物理世界（传感器）、网络世界（互联网）、系统运行（日志）、企业运营（业务系统）等，共同构成大数据采集的来源。
题目：需要清洗的数据的主要类型包括：（ACD）
- A. 残缺数据
- B. 干净数据
- C. 错误数据
- D. 重复数据
- 解析：数据清洗针对残缺（如缺失值）、错误（如格式错误）、重复（如重复记录）数据，干净数据无需清洗。
题目：典型的数据采集方法包括：（ABCD）
- A. 系统日志采集
- B. 分布式消息订阅分发
- C. ETL
- D. 网络数据采集
- 解析：系统日志采集（如服务器访问日志）（A）、分布式消息（如 Kafka）（B）、ETL（抽取 - 转换 - 加载）（C）、网络爬虫（D）均为常见的数据采集方法，适用于不同场景。
题目：Kafka 的架构包括哪些组件：（ABCD）
- A. 话题（Topic）
- B. 生产者（Producer）
- C. 服务代理（Broker）
- D. 消费者（Consumer）
- 解析：Kafka 是分布式消息队列，Topic 是消息分类（A），Producer 发送消息（B），Broker 存储消息（C），Consumer 接收消息（D），四者构成核心架构。
题目：网络爬虫的类型主要包括：（ABCD）
- A. 通用网络爬虫
- B. 聚焦网络爬虫
- C. 增量式网络爬虫
- D. 深层网络爬虫
- 解析：通用爬虫（如百度爬虫抓取全网数据）（A）、聚焦爬虫（仅抓取特定主题数据）（B）、增量爬虫（仅更新变化数据）（C）、深层爬虫（抓取动态网页数据）（D）是常见的爬虫类型，各有适用场景。
题目：常见的数据转换策略包括：（ABCD）
- A. 平滑处理
- B. 聚集处理
- C. 数据泛化处理
- D. 规范化处理
- 解析：数据转换包括平滑（去噪）（A）、聚集（如分组汇总）（B）、泛化（如将具体年龄转换为年龄段）（C）、规范化（如 Min-Max）（D）等策略，提升数据质量和可用性。
题目：常用的规范化处理方法包括：（ABD）
- A. Min-Max 规范化
- B. Z-Score 规范化
- C. 曲面规范化
- D. 小数定标规范化
- 解析：Min-Max（线性缩放）（A）、Z-Score（标准化）（B）、小数定标（移动小数点）（D）是常用规范化方法，曲面规范化不属于标准方法。
题目：数据脱敏的主要原则包括：（ABCD）
- A. 保持原有数据特征
- B. 保持数据之间的一致性
- C. 保持业务规则的关联性
- D. 多次脱敏之间的数据一致性
- 解析：数据脱敏需保留数据特征（如年龄分布）（A）、维持数据关联（如订单号脱敏后仍可关联订单详情）（B、C）、确保多次脱敏结果一致（如同一身份证号每次脱敏后结果相同）（D），以保证脱敏后数据仍可用。
题目：数据脱敏的方法主要包括：（ABCD）
- A. 数据替换
- B. 无效化
- C. 随机化
- D. 偏移和取整
- 解析：数据替换（如用 “***” 替换身份证后四位）（A）、无效化（如将手机号前三位置为 0）（B）、随机化（如随机生成虚假姓名）（C）、偏移取整（如年龄 + 5 后取整）（D）均为常见脱敏方法，根据隐私保护需求选择使用。

第 4 章大数据的存储与管理

一、单选题

题目：以下哪项不属于传统的数据存储和管理技术：（A）
- A. NoSQL 数据库
- B. 文件系统
- C. 关系数据库
- D. 数据仓库
- 解析：传统存储技术包括文件系统（B）、关系数据库（C）、数据仓库（D），NoSQL 数据库是为应对大数据挑战发展的新型技术，不属于传统范畴。
题目：以下关于分布式文件系统，描述错误的是：（B）
- A. 是一种通过网络实现文件在多台主机上进行分布式存储的文件系统
- B. 所有的分布式文件系统的设计都是采用 “客户机 / 服务器”（Client/Server）模式
- C. 谷歌开发了分布式文件系统 GFS
- D. Hadoop 分布式文件系统（HDFS）是针对 GFS 的开源实现
- 解析：部分分布式文件系统采用 P2P 模式（如 Ceph），并非全部采用 C/S 模式（B 错误）。GFS 是谷歌的分布式文件系统（C），HDFS 是其开源实现（D），用于大规模数据存储。
题目：以下描述错误的是：（D）
- A. 传统的关系数据库可以较好地支持结构化数据存储和管理
- B. Web 2.0 的迅猛发展以及大数据时代的到来，使关系数据库的发展越来越力不从心
- C. 传统的关系数据库由于数据模型不灵活、水平扩展能力较差等局限性，已经无法满足各种类型的非结构化数据的大规模存储需求
- D. 传统关系数据库引以为豪的一些关键特性，如事务机制和支持复杂查询，在 Web 2.0 时代成为不可或缺的核心特性
- 解析：Web 2.0 时代更注重数据的扩展性和实时性，传统关系数据库的事务机制和复杂查询在海量非结构化数据场景下效率低下，并非 “不可或缺”（D 错误）。A、B、C 均正确描述了传统数据库的优势和局限性。
题目：以下关于 NoSQL 数据库描述错误的是：（C）
- A. NoSQL 是一种不同于关系数据库的数据库管理系统设计方式，是对非关系型数据库的统称
- B. NoSQL 所采用的数据模型并非传统关系数据库的关系模型，而是类似键 / 值、列族、文档等非关系模型
- C. NoSQL 数据库有固定的表结构，通常存在较多连接操作
- D. 与关系数据库相比，NoSQL 具有灵活的水平可扩展性，可以支持海量数据存储
- 解析：NoSQL 数据库无固定表结构（Schema-free），不支持复杂连接操作（C 错误），适合非结构化数据存储。A、B、D 均正确描述了 NoSQL 的特点。
题目：在数据库的发展历史上，先后出现过多种数据库类型，但是，不包括：（B）
- A. 网状数据库
- B. 球形数据库
- C. 层次数据库
- D. 关系数据库
- 解析：数据库发展经历了层次数据库（如 IMS）、网状数据库（如 IDMS）、关系数据库（如 MySQL），不存在 “球形数据库”（B 错误）。
题目：下面关于关系数据库特点的描述，错误的是：（D）
- A. 采用表格的储存方式，数据以行和列的方式进行存储，要读取和查询都十分方便
- B. 为了规范化数据、减少重复数据以及充分利用好存储空间，把数据按照最小关系表的形式进行存储
- C. 由于关系数据库将数据存储在数据表中，数据操作的瓶颈出现在多张数据表的连接操作中，而且数据表越多这个问题越严重
- D. 关系数据库采用非结构化查询语言来对数据库进行查询
- 解析：关系数据库采用结构化查询语言（SQL）进行查询（D 错误），而非非结构化语言。A、B、C 均正确描述了关系数据库的存储和操作特点。
题目：下面关于 NewSQL 数据库的描述，错误的是：（B）
- A. NewSQL 数据库保持了传统数据库支持 ACID 和 SQL 等特性
- B. 不同的 NewSQL 数据库的内部结构基本相同
- C. 都支持关系数据模型
- D. 都使用 SQL 作为其主要的接口
- 解析：NewSQL 数据库（如 CockroachDB、MongoDB）为兼顾传统数据库的 ACID 特性和 NoSQL 的扩展性，内部结构差异较大（B 错误），但均支持关系模型和 SQL 接口（A、C、D 正确）。
题目：下面关于 Hadoop 的描述错误的是：（C）
- A. Hadoop 是一个能够对大量数据进行分布式处理的软件框架
- B. 作为并行分布式计算平台，Hadoop 采用分布式存储和分布式处理两大核心技术，能够高效地处理 PB 级数据
- C. Hadoop 只支持 Java 编程语言
- D. Hadoop 可以高效稳定地运行在廉价的计算机集群上，可以扩展到数以千计的计算机节点上
- 解析：Hadoop 主要用 Java 开发，但也支持其他语言（如 Python 通过 Pig、Hive 接口）（C 错误）。A、B、D 均正确描述了 Hadoop 的特点和优势。
题目：下面哪个不是 Hadoop 生态系统的组件：（B）
- A. HDFS
- B. SQL Server
- C. MapReduce
- D. HBase
- 解析：SQL Server 是微软的关系数据库，不属于 Hadoop 生态（B 错误）。HDFS（存储）（A）、MapReduce（计算）（C）、HBase（NoSQL 数据库）（D）均为 Hadoop 核心组件。
题目：下面组件哪个是负责在 Hadoop 和关系数据库之间实现数据导入导出的：（C）
- A. MySQL
- B. HDFS
- C. Sqoop
- D. Flume
- 解析：Sqoop 用于 Hadoop 与关系数据库的数据交换（如将 MySQL 数据导入 HDFS）（C 正确）。MySQL 是数据库（A），HDFS 是存储（B），Flume 是日志采集（D）。
题目：下面组件哪个是负责分布式资源调度与管理的：（A）
- A. YARN
- B. Flume
- C. Zookeeper
- D. Kafka
- 解析：YARN（Yet Another Resource Negotiator）是 Hadoop 的资源调度框架，负责分配 CPU、内存等资源（A 正确）。Flume 是日志采集（B），Zookeeper 是分布式协调（C），Kafka 是消息队列（D）。
题目：下面组件哪个是数据挖掘库：（B）
- A. Zookeeper
- B. Mahout
- C. MySQL
- D. HBase
- 解析：Mahout 是 Hadoop 生态中的数据挖掘库，提供聚类、分类等算法（B 正确）。Zookeeper 是协调服务（A），MySQL 是数据库（C），HBase 是 NoSQL 存储（D）。
题目：下面组件哪个是负责日志收集的：（D）
- A. Ambari
- B. Zookeeper
- C. HDFS
- D. Flume
- 解析：Flume 专门用于收集、聚合、传输日志数据（D 正确）。Ambari 是 Hadoop 管理工具（A），Zookeeper 是协调服务（B），HDFS 是存储（C）。
题目：下面组件哪个是负责 Hadoop 集群的安装、部署、配置和管理的：（C）
- A. Kafka
- B. YARN
- C. Ambari
- D. Flume
- 解析：Ambari 提供 Hadoop 集群的可视化管理界面，支持安装、配置和监控（C 正确）。Kafka 是消息队列（A），YARN 是资源调度（B），Flume 是日志采集（D）。
题目：下列哪一项不属于 NoSQL 的四大类型：（D）
- A. 文档数据库
- B. 图数据库
- C. 列族数据库
- D. 时间戳数据库
- 解析：NoSQL 四大类型包括文档数据库（如 MongoDB）（A）、图数据库（如 Neo4j）（B）、列族数据库（如 Cassandra）（C）、键值数据库（如 Redis），不包括时间戳数据库（D 错误）。
题目：下列关于键值数据库的描述，哪一项是错误的：（D）
- A. 扩展性好，灵活性好
- B. 大量写操作时性能高
- C. 无法存储结构化信息
- D. 条件查询效率高
- 解析：键值数据库（如 Redis）通过键快速查询，但不支持复杂条件查询（D 错误）。A、B、C 均正确描述了键值数据库的特点。
题目：下列关于列族数据库的描述，哪一项是错误的：（A）
- A. 查找速度慢，可扩展性差
- B. 功能较少，大都不支持强事务一致性
- C. 容易进行分布式扩展
- D. 复杂性低
- 解析：列族数据库（如 HBase）支持海量数据的分布式存储，查找速度快（A 错误），可扩展性好（C 正确）。B、D 正确描述了其功能特点。
题目：关于文档数据库的说法，下列哪一项是错误的：（A）
- A. 数据是规则的
- B. 性能好（高并发）
- C. 缺乏统一的查询语法
- D. 复杂性低
- 解析：文档数据库（如 MongoDB）存储半结构化文档，数据结构灵活不规则（A 错误）。B、C、D 正确描述了其性能和使用特点。
题目：下列关于云数据库的描述，哪个是错误的？（C）
- A. 云数据库是部署和虚拟化在云计算环境中的数据库
- B. 云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法
- C. 云数据库价格不菲，维护费用极其昂贵
- D. 云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点
- 解析：云数据库采用按需付费模式，相比传统自建数据库成本更低（C 错误）。A、B、D 正确描述了云数据库的定义和优势。
题目：下列哪一个不属于云数据库产品？（A）
- A. 本地安装 MySQL
- B. 阿里云 RDS
- C. Oracle Cloud
- D. 百度云数据库
- 解析：本地安装 MySQL 属于传统部署方式，不属于云数据库（A 错误）。阿里云 RDS、Oracle Cloud、百度云数据库均为云数据库产品（B、C、D 正确）。
题目：下面哪一项不是云数据库的特性？（B）
- A. 动态可扩展
- B. 高成本
- C. 易用性
- D. 大规模并行处理
- 解析：云数据库具有动态扩展（A）、易用性（C）、大规模并行处理（D）等特性，成本低于传统数据库（B 错误）。
题目：下列关于 BigTable 的描述，哪个是错误的？（A）
- A. 爬虫持续不断地抓取新页面，这些页面每隔一段时间地存储到 BigTable 里
- B. BigTable 是一个分布式存储系统
- C. BigTable 起初用于解决典型的互联网搜索问题
- D. 网络搜索应用查询建立好的索引，从 BigTable 得到网页
- 解析：BigTable 是谷歌的分布式数据库，用于存储结构化和半结构化数据，而非直接存储网页内容（A 错误）。爬虫抓取的网页通常存储在分布式文件系统（如 GFS）中，索引存储在 BigTable 中（D 正确）。B、C 正确描述了 BigTable 的定位和用途。

二、多选题

题目：数据仓库的特性包括：（ABCD）
- A. 面向主题的
- B. 集成的
- C. 相对稳定的
- D. 反映历史变化的
- 解析：数据仓库用于支持决策分析，具有面向主题（如销售主题）（A）、集成多源数据（B）、数据相对稳定（不频繁更新）（C）、存储历史数据（D）等特性。
题目：NoSQL 数据库具有以下几个特点：（ABC）
- A. 灵活的可扩展性
- B. 灵活的数据模型
- C. 与云计算紧密融合
- D. 数据模型比较死板
- 解析：NoSQL 数据库支持水平扩展（A）、无固定数据模型（B）、常与云计算结合（C），D 选项与 B 矛盾，错误。
题目：一个典型的数据仓库系统通常包含哪几个组成部分：（ABCD）
- A. 数据源
- B. 数据存储和管理
- C. OLAP 服务器
- D. 前端工具和应用
- 解析：数据仓库系统包括数据源（如业务数据库）（A）、数据存储（如数据仓库）（B）、OLAP 服务器（支持多维分析）（C）、前端工具（如报表系统）（D）。
题目：下面关于并行数据库的描述正确的是：（ABD）
- A. 并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统
- B. 大部分采用了关系数据模型并且支持 SQL 语句查询
- C. 并行数据库系统具有较好的弹性
- D. 并行数据库的另一个问题并行数据库的另一个问题就是系统的容错性较差
- 解析：并行数据库采用无共享架构（A），支持关系模型和 SQL（B），但容错性差（D），弹性（扩展性）较差（C 错误）。
题目：Hadoop 的特性主要包括：（ABC）
- A. 高可靠性
- B. 高可扩展性
- C. 高容错性
- D. 成本高
- 解析：Hadoop 设计用于廉价硬件，成本低（D 错误），具有高可靠性（数据多副本）（A）、可扩展性（支持节点动态添加）（B）、容错性（节点故障自动恢复）（C）。
题目：HDFS 要实现哪些设计目标：（BCD）
- A. 复杂的文件模型
- B. 兼容廉价的硬件设备
- C. 流数据读写
- D. 强大的跨平台兼容性
- 解析：HDFS 目标包括兼容廉价硬件（B）、支持流数据读写（如一次写入多次读取）（C）、跨平台（D），采用简单文件模型（A 错误）。
题目：HDFS 的局限性包括：（ACD）
- A. 不适合低延迟数据访问
- B. 无法用于大规模数据存储
- C. 无法高效存储大量小文件
- D. 不支持多用户写入及任意修改文件
- 解析：HDFS 适合大规模数据存储（B 错误），但不适合低延迟访问（A）、小文件存储效率低（C）、仅支持单用户追加写入（D）。
题目：下面关于 HDFS 的体系结构描述正确的是：（ABC）
- A. HDFS 采用了主从（Master/Slave）结构模型，一个 HDFS 集群包括一个名称节点和若干个数据节点
- B. 名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问
- C. 集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读 / 写请求
- D. 名称节点会周期性地向数据节点发送 “心跳” 信息，报告自己的状态
- 解析：数据节点向名称节点发送心跳（D 错误），A、B、C 正确描述了 HDFS 的主从架构和节点职责。
题目：下列关于文档数据库的描述，哪些是正确的？（AD）
- A. 性能好（高并发），灵活性高
- B. 具备统一的查询语法
- C. 文档数据库支持文档间的事务
- D. 复杂性低，数据结构灵活
- 解析：文档数据库（如 MongoDB）性能高、灵活性高（A）、数据结构灵活（D），但无统一查询语法（B 错误）、不支持跨文档事务（C 错误）。
题目：下列关于图数据库的描述，哪些是正确的？（ABCD）
- A. 专门用于处理具有高度相互关联关系的数据
- B. 比较适合于社交网络、模式识别、依赖分析、推荐系统以及路径寻找等问题
- C. 灵活性高，支持复杂的图算法
- D. 复杂性高，只能支持一定的数据规模
- 解析：图数据库（如 Neo4j）处理关联数据（A），适用于社交网络等场景（B），支持复杂图算法（C），但数据规模受限（D）。
题目：下列关于数据模型的描述，哪些是正确的？（ABCD）
- A. HBase 采用表来组织数据，表由行和列组成，列划分为若干个列族
- B. 每个 HBase 表都由若干行组成，每个行由行键（row key）来标识
- C. 列族里的数据通过列限定符（或列）来定位
- D. 每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引
- 解析：HBase 是列族数据库，表由行、列族、列限定符组成（A、B、C），单元格数据按时间戳版本化（D）。
题目：HBase 的系统架构包括哪几个组成部分：（ABCD）
- A. 客户端
- B. Zookeeper 服务器
- C. Master 主服务器
- D. Region 服务器
- 解析：HBase 架构包括客户端（A）、Zookeeper（协调）（B）、Master（管理 Region 服务器）（C）、Region 服务器（存储数据）（D）。
题目：下面关于 Google Spanner 的描述正确的是：（ABCD）
- A. Spanner 是一个可扩展的、全球分布式的数据库
- B. 在最高抽象层面，Spanner 就是一个数据库，把数据分片存储在许多 Paxos 状态机上，这些机器位于遍布全球的数据中心内
- C. 随着数据的变化和服务器的变化，Spanner 会自动把数据进行重新分片，从而有效应对负载变化和处理失败
- D. Spanner 被设计成可以扩展到几百万个机器节点，跨越成百上千个数据中心，具备几万亿数据库行的规模
- 解析：Spanner 是谷歌的全球分布式数据库，基于 Paxos 算法（A、B），支持自动分片（C），可扩展至海量规模（D）。

第 5 章大数据计算框架、第 6 章大数据分析与挖掘

一、单选题

题目：下面描述错误的是：（C）
- A. 数据分析可以分为广义的数据分析和狭义的数据分析
- B. 广义的数据分析就包括狭义的数据分析和数据挖掘
- C. 数据挖掘就是指狭义的数据分析
- D. 数据挖掘是指从大量的数据中挖掘出未知的、且有价值的信息和知识的过程
- 解析：广义的数据分析包含狭义数据分析和数据挖掘。狭义数据分析侧重于描述性统计分析，数据挖掘则是从海量数据中发现未知有价值信息和知识的过程，二者概念不同，C 选项错误。A、B、D 选项对数据分析和数据挖掘的描述正确。
题目：下面描述错误的是：（A）
- A. 数据挖掘的目标明确，先做假设，然后通过数据分析来验证假设是否正确，从而得到相应的结论
- B. 数据挖掘的重点在寻找未知的模式与规律
- C. 数据分析一般都是得到一个指标统计量结果，如总和、平均值等
- D. 数据挖掘则是输出模型或规则，并且可相应得到模型得分或标签
- 解析：数据挖掘是在大量数据中探索未知模式和规律，没有明确假设，A 选项描述的是传统假设检验的过程，并非数据挖掘，所以 A 错误。B 选项准确说明了数据挖掘的重点；C 选项符合数据分析的特点，通常是对数据进行统计计算得出指标结果；D 选项正确阐述了数据挖掘的输出形式，会得到如分类模型、关联规则等，并可基于此得到模型得分或标签。
题目：下面关于机器学习和数据挖掘的描述错误的是：（D）
- A. 机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科
- B. 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程
- C. 数据挖掘可以视为机器学习与数据库的交叉
- D. 数据挖掘是机器学习的底层技术
- 解析：机器学习是实现数据挖掘的重要手段，数据挖掘利用机器学习算法从数据中提取知识，但数据挖掘不是机器学习的底层技术，D 选项错误。A 选项正确描述了机器学习的学科交叉性；B 选项准确说明了数据挖掘的概念；C 选项体现了数据挖掘与机器学习、数据库之间的关系。
题目：以下哪个不是典型的分类方法：（C）
- A. 决策树
- B. 朴素贝叶斯
- C. K-Means
- D. 人工神经网络
- 解析：决策树、朴素贝叶斯、人工神经网络都用于将数据分类到不同类别，是典型分类方法。而 K-Means 是聚类算法，用于将数据划分成不同簇，不涉及类别预先定义，C 选项符合题意。
题目：以下哪个不是聚类方法：（D）
- A. GMM（高斯混合模型）
- B. LDA（潜在狄利克雷分配，可用于聚类等）
- C. DBSCAN（密度 - based 空间聚类算法）
- D. TPLINK（是网络设备品牌，并非聚类方法）
- 解析：GMM 基于概率模型进行聚类，LDA 可用于文本聚类等场景，DBSCAN 基于数据密度进行聚类。TPLINK 不是聚类方法，D 选项符合题意。
题目：聚类分析的常见应用场景不包括：（A）
- A. 发现关联购买行为（属于关联规则挖掘应用场景，如 “啤酒与尿布” 案例）
- B. 目标用户的群体分类（聚类可按用户特征划分群体）
- C. 不同产品的价值组合（根据产品特性聚类分析其价值组合）
- D. 探测发现离群点和异常值（聚类时偏离多数簇的数据点可能是离群点或异常值）
- 解析：聚类分析是将数据对象分组，使同一组内对象相似，不同组间差异大。B、C、D 选项均是聚类分析常见应用。A 选项发现关联购买行为主要通过关联规则挖掘实现，如 Apriori 算法，不属于聚类分析应用场景。
题目：下面关于回归分析的描述错误的是：（C）
- A. 是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
- B. 回归分析按照涉及的变量的多少，分为一元回归和多元回归分析
- C. 按照因变量的多少，可分为线性回归分析和非线性回归分析（应按变量间关系的性质分为线性和非线性回归，而非因变量数量）
- D. 在大数据分析中，回归分析是一种预测性的建模技术
- 解析：A 选项正确阐述了回归分析的本质；B 选项关于一元回归（涉及一个自变量）和多元回归（涉及多个自变量）的分类描述正确；D 选项符合回归分析在大数据预测建模中的应用。C 选项对线性和非线性回归分析分类依据的描述错误。
题目：下面关于协同过滤算法的描述错误的是：（D）
- A. 基于用户的协同过滤算法（简称 UserCF 算法）是推荐系统中最古老的算法，可以说，UserCF 的诞生标志着推荐系统的诞生
- B. 基于物品的协同过滤算法（简称 ItemCF 算法）是目前业界应用最多的算法
- C. 基于模型的协同过滤算法（ModelCF）是通过已经观察到的所有用户给产品的打分，来推断每个用户的喜好并向用户推荐适合的产品
- D. UserCF 算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品（UserCF 是基于用户间的相似性，推荐与目标用户相似的其他用户喜欢的物品；ItemCF 才是推荐与目标用户之前喜欢的物品相似的物品，D 选项错误）
- 解析：A 选项说明了 UserCF 算法在推荐系统发展中的重要地位；B 选项符合 ItemCF 算法在实际应用中的广泛程度；C 选项准确描述了基于模型的协同过滤算法原理。D 选项混淆了 UserCF 和 ItemCF 算法的推荐逻辑。
题目：下面属于批处理技术的是：（A）
- A. MapReduce（针对大规模数据集的批处理计算模型）
- B. Storm（实时流计算框架，处理实时数据流）
- C. Spark Streaming（微批处理实现流计算，本质接近流计算技术）
- D. GraphX（用于图计算的 Spark 组件，不是批处理技术）
- 解析：MapReduce 将大任务拆分成多个小任务在多台机器上并行处理，适合处理大规模批数据，A 选项正确。Storm 用于实时处理数据，B 选项错误；Spark Streaming 以微小批处理模拟流计算，更侧重流计算，C 选项错误；GraphX 专注于图结构数据计算，D 选项错误。
题目：下面属于流计算技术的是：（C）
- A. Spark MLLib（Spark 的机器学习库，用于机器学习算法实现，不是流计算技术）
- B. GraphX（如上述，用于图计算）
- C. S4（专门的流计算框架，对实时数据流进行持续处理）
- D. Hive（基于 Hadoop 的数据仓库工具，用于查询和分析处理存储在 Hadoop 文件中的数据集，属于批处理和查询分析计算技术）
- 解析：S4 能够实时获取和处理数据流，C 选项正确。A、B 选项功能与流计算无关；Hive 主要处理批量数据查询分析，D 选项错误。
题目：下面属于图计算技术的是：（A）
- A. Pregel（Google 开发的分布式图计算框架，为图算法提供高效计算平台）
- B. Dremel（谷歌的交互式查询系统，用于处理大规模结构化数据，属于查询分析计算技术）
- C. Impala（开源大数据分析引擎，支持实时计算，类似 Hive，用于查询分析）
- D. DStream（Spark Streaming 中的离散流抽象，是 Spark Streaming 流计算的一部分，不是图计算技术）
- 解析：Pregel 专为图计算设计，A 选项正确。B、C 选项是查询分析工具；D 选项是流计算相关概念，均不符合图计算技术定义。
题目：下面属于查询分析计算技术的是：（C）
- A. Spark Streaming（流计算技术）
- B. Storm（流计算框架）
- C. Hive（基于 Hadoop 的数据仓库工具，提供类似 SQL 的查询语言 HiveQL，用于查询和分析数据，属于查询分析计算技术）
- D. Pregel（图计算技术）
- 解析：Hive 允许用户通过 HiveQL 语句对存储在 Hadoop 文件中的数据进行查询和分析，C 选项正确。A、B 选项是流计算技术；D 选项用于图计算，均不符合查询分析计算技术范畴。
题目：下列关于流计算的说法，哪项是错误的？（D）
- A. 实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息
- B. 流计算秉承一个基本理念，即数据的价值随着时间的流逝而降低
- C. 对于一个流计算系统来说，它应该支持 TB 级甚至是 PB 级的数据规模
- D. 流计算只需要保证较低的延迟时间，即只达到秒级别即可处理一切问题（流计算不仅要求低延迟，还需具备高吞吐量、正确性等特性，且秒级延迟不一定能处理所有问题，不同场景对延迟要求不同，D 选项错误）
- 解析：A 选项准确描述了流计算的处理流程；B 选项体现了流计算快速处理数据的必要性；C 选项符合流计算应对大数据规模的要求。D 选项对流计算特性的描述过于片面。
题目：下列关于数据处理流程，说法有误的是？（D）
- A. 在传统的数据处理流程中，存储的数据是旧的（传统流程先采集存储，使用时数据存在滞后性）
- B. 在传统的数据处理流程中，需要用户主动发出查询来获取结果（用户主动查询以获取分析结果）
- C. 传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中（传统流程的基本步骤）
- D. 流计算的处理流程一般包含三个阶段：数据实时采集、数据批量计算、实时查询服务（流计算是实时采集、实时计算和实时查询，不是批量计算，D 选项错误）
- 解析：A、B、C 选项对传统数据处理流程的描述正确。流计算强调实时性，数据实时采集后进行实时计算，D 选项中 “数据批量计算” 不符合流计算流程。
题目：下面哪个属于图数据库：（A）
- A. Neo4j（典型的图数据库，以图结构存储和查询数据）
- B. MySQL（关系型数据库，采用表格形式存储数据，基于关系模型）
- C. HBase（分布式、面向列的 NoSQL 数据库，不是图数据库）
- D. Oracle（关系型数据库，用于结构化数据存储和管理）
- 解析：Neo4j 专门用于处理具有高度相互关联关系的数据，A 选项正确。B、D 选项是关系型数据库；C 选项 HBase 属于 NoSQL 数据库中的列族数据库，均不属于图数据库。
题目：下列关于 MapReduce 模型的描述，错误的是哪一项？（D）
- A. MapReduce 采用 “分而治之” 策略（将大任务分解为多个小任务并行处理）
- B. MapReduce 设计的一个理念就是 “计算向数据靠拢”（减少数据传输开销）
- C. MapReduce 框架采用了 Master/Slave 架构（Master 负责调度管理，Slave 执行任务）
- D. MapReduce 应用程序只能用 Java 来写（MapReduce 可使用多种语言开发，如 Python、C++ 等，通过相应接口实现，D 选项错误）
- 解析：A、B、C 选项对 MapReduce 模型的特点和架构描述正确。D 选项限制了 MapReduce 应用程序的开发语言，不符合实际情况。
题目：关于数据仓库 Impala 的描述错误的是：（D）
- A. Impala 作为开源大数据分析引擎，支持实时计算，它提供了与 Hive 类似的功能，并在性能上比 Hive 高出 3 - 30 倍
- B. Impala 是由 Cloudera 公司开发的查询系统
- C. Impala 提供了 SQL 语义，能查询存储在 Hadoop 的 HDFS 和 HBase 上的 PB 级别海量数据
- D. Impala 最初是参照 MySQL 系统进行设计的（Impala 是为解决 Hive 查询延迟高问题开发，参考 MPP 并行关系数据库设计，并非 MySQL，D 选项错误）
- 解析：A、B、C 选项准确介绍了 Impala 的功能、开发公司及数据查询能力。D 选项对 Impala 设计参照对象的描述错误。
题目：下面关于 Spark 和 Hadoop 的关系，描述错误的是：（D）
- A. Spark 和 Hadoop 一样，既包含了存储的组件，也包含了计算的组件（Spark 有存储弹性分布式数据集 RDD，计算组件如 Spark Core 等；Hadoop 有 HDFS 存储和 MapReduce 计算等组件）
- B. Spark 作为计算框架，只能解决数据计算问题，无法解决数据存储问题（Spark 自身存储能力有限，主要依赖外部存储系统，如 HDFS）
- C. Spark 只是取代了 Hadoop 生态系统中的计算框架 MapReduce，而 Hadoop 中的其他组件依然在企业大数据系统中发挥着重要的作用（Spark 计算性能更优，但 Hadoop 其他组件如 HDFS 存储、YARN 资源调度仍有价值）
- D. 越来越多的企业放弃 MapReduce，转而使用 Spark 开发企业应用（虽然 Spark 优势明显，但 MapReduce 在一些场景下仍有应用，并非完全被放弃，D 选项错误）
- 解析：A、B、C 选项正确阐述了 Spark 和 Hadoop 的组件构成、功能特点及相互关系。D 选项表述过于绝对，MapReduce 在一些对稳定性要求高、数据处理逻辑简单的场景仍在使用。
题目：以下哪个不是 Spark 的生态系统的组件：（C）
- A. Spark Streaming（用于实时流数据处理，是 Spark 生态的实时计算组件）
- B. Structured Streaming（基于 Spark SQL 的流处理框架，是 Spark 生态一部分）
- C. Zookeeper（分布式协调服务，用于管理和协调分布式系统，不属于 Spark 生态系统，主要为 Hadoop 等提供服务）
- D. GraphX（用于图计算的 Spark 组件）
- 解析：A、B、D 选项均为 Spark 生态系统的重要组件，分别负责流计算和图计算。Zookeeper 主要用于分布式协调，C 选项符合题意。
题目：以下哪个组件是 Spark 中的机器学习算法库：（A）
- A. MLlib（Spark 提供的可扩展的机器学习库，包含分类、回归、聚类等算法）
- B. Spark Core（Spark 的核心引擎，提供基本的执行环境和分布式计算功能，不是机器学习库）
- C. Machine Learning（不是 Spark 特有的组件，且表述不明确）
- D. Spark SQL（用于结构化数据处理和查询，支持 SQL 查询和 DataFrame 操作，不是机器学习库）
- 解析：MLlib 集成了多种机器学习算法，方便在 Spark 平台进行机器学习任务，A 选项正确。B、D 选项功能与机器学习无关；C 选项不是 Spark 中明确的组件名称。
题目：以下哪个组件是 Spark 中用于结构化数据处理的组件：（A）
- A. Spark SQL（通过 DataFrame 和 Dataset 提供结构化数据处理能力，支持 SQL 查询和数据操作）
- B. Spark Core（如上述，是 Spark 的基础执行引擎）
- C. Spark Streaming（主要处理实时流数据，对结构化数据处理不是其核心功能）
- D. Structured Streaming（是基于 Spark SQL 的流处理框架，重点在流处理，相比之下 Spark SQL 更侧重结构化数据处理本身）
- 解析：Spark SQL 专为结构化数据处理设计，A 选项正确。B 选项提供基础计算能力；C 选项侧重实时流处理；D 选项是流处理框架，虽涉及结构化数据但不是主要用于结构化数据处理。
题目：Shark 与 Spark SQL 的关系是：（B）
- A. 二者没有任何关系
- B. Shark 是 Spark SQL 的前身（Shark 基于 Spark 开发，为了在 Spark 上实现类似 Hive 的功能，后来发展成为 Spark SQL）
- C. Spark SQL 是 Shark 的前身
- D. 二者是一个软件的两个不同名称，本质上是一个东西（Shark 和 Spark SQL 在功能演进和架构设计上有差异，不是同一软件的不同名称）
- 解析：Shark 在发展过程中逐渐演变为 Spark SQL，B 选项正确。A 选项忽略了二者的继承关系；C 选项颠倒了先后顺序；D 选项对二者关系判断错误。

题目：下面关于 TensorFlow 和 TensorFlowOnSpark 的描述错误的是：（B）
- A. TensorFlow 是一个采用数据流图（Data Flow Graph）、用于数值计算的开源软件库
- B. TensorFlow 是一个开源的、基于 Java 的机器学习框架（TensorFlow 主要基于 C++ 开发，支持多种语言如 Python 等，并非基于 Java，B 选项错误）
- C. TensorFlowOnSpark 项目是由 Yahoo 开源的一个软件包，能将 TensorFlow 与 Spark 结合在一起使用
- D. TensorFlowOnSpark 为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习功能
- 解析：A 选项正确阐述了 TensorFlow 采用数据流图进行数值计算的特点；C 选项符合 TensorFlowOnSpark 的开源背景和功能；D 选项体现了其在 Hadoop 和 Spark 集群中实现深度学习扩展的作用。B 选项对 TensorFlow 开发语言的描述错误。
题目：以下哪个不是 Storm 的特点：（D）
- A. 可扩展性（Storm 通过增加节点能处理更大规模的数据流，具备可扩展性）
- B. 可靠的消息处理（Storm 采用 Acker 机制确保消息不丢失，实现可靠的消息处理）
- C. 支持各种编程语言（Storm 的拓扑组件可使用多种语言开发，如 Java、Python 等）
- D. 复杂的 API（Storm 提供简单直观的 API，方便开发人员构建实时计算应用，D 选项错误）
- 解析：A、B、C 选项分别说明了 Storm 在扩展能力、消息处理可靠性和编程语言支持方面的优势。D 选项与 Storm 实际简单易用的 API 特点不符。
题目：下面关于 Spark Streaming 和 Storm 的描述错误的是：（A）
- A. Spark Streaming 可以实现毫秒级的流计算（Spark Streaming 以微小批处理模拟流计算，处理延迟通常在秒级，无法实现毫秒级，A 选项错误）
- B. Storm 可以实现毫秒级响应（Storm 是真正的实时流计算框架，能达到毫秒级响应）
- C. Spark Streaming 构建在 Spark Core 之上（Spark Streaming 基于 Spark Core 提供的分布式计算能力实现流计算功能）
- D. Spark Streaming 可以同时兼容批量和实时数据处理的逻辑和算法（Spark Streaming 可结合批处理和交互查询，适合对历史数据和实时数据进行结合分析的场景）
- 解析：B、C、D 选项对 Storm 和 Spark Streaming 的特点描述正确。A 选项中，Spark Streaming 由于采用微批处理方式，其延迟高于毫秒级。
题目：下面关于 Flink 的描述错误的是：（C）
- A. Flink 是一个针对流数据和批数据的分布式计算框架（Flink 既能处理实时流数据，也能处理批量数据）
- B. Flink 的设计思想主要来源于 Hadoop、MPP 数据库、流计算系统等（Flink 借鉴了这些技术的优点，形成自己独特的架构）
- C. Flink 主要是由 Python 代码实现的（Flink 主要由 Java 和 Scala 实现，并非 Python，C 选项错误）
- D. Flink 所要处理的主要场景是流数据，批数据只是流数据的一个特例而已（Flink 以流计算为核心，将批数据视为特殊的流数据进行处理）
- 解析：A、B、D 选项对 Flink 的功能、设计思想和应用场景描述准确。C 选项对 Flink 实现语言的描述错误。

二、多选题

题目：数据分析主要实现哪三大作用：（BCD）
- A. 误差分析（不属于数据分析主要实现的三大作用）
- B. 现状分析（通过数据分析了解业务当前状况，如销售数据反映当前销售业绩）
- C. 原因分析（探究业务现象背后的原因，如分析销售额下降的原因）
- D. 预测分析（基于历史数据预测未来趋势，如预测产品销量）
- 解析：数据分析的主要作用是现状分析、原因分析和预测分析。A 选项误差分析主要用于评估数据测量或模型预测的准确性，不是数据分析的核心作用。B、C、D 选项分别从当前状态、因果关系、未来趋势三个方面体现了数据分析的价值。
题目：数据挖掘主要侧重解决哪几类问题：（ABCD）
- A. 分类（将数据划分到不同类别，如区分垃圾邮件和正常邮件）
- B. 聚类（把相似数据聚成簇，如用户聚类分析）
- C. 关联（发现数据之间的关联关系，如商品关联购买）
- D. 预测（根据历史数据预测未来值，如预测股价走势）
- 解析：数据挖掘旨在从大量数据中发现有价值信息，分类、聚类、关联和预测都是其主要解决的问题类型。A 选项通过分类算法实现数据分类；B 选项利用聚类算法对数据进行分组；C 选项使用关联规则挖掘算法发现数据关联；D 选项借助预测算法进行数据预测。
题目：下面关于数据分析与数据处理的描述，正确的是：（ACD）
- A. 数据分析过程通常会伴随着发生数据处理（或者说伴随着大量数据计算）（数据分析需对原始数据处理计算，如计算均值、汇总数据等）
- B. 数据分析和数据处理不存在紧密的关联关系（二者紧密相关，数据处理为数据分析提供支持，B 选项错误）
- C. 二者是融合在一起的，很难割裂开来（数据分析和数据处理相互依存，处理后的数据才能用于分析，分析结果又指导进一步的数据处理）
- D. 当用户在进行数据分析的时候，底层的计算机系统会根据数据分析任务的要求，使用程序进行大量的数据处理（如使用 MapReduce、Spark 等框架处理数据）
- 解析：A 选项说明了数据分析依赖数据处理提供数据基础；C 选项强调了二者融合的关系；D 选项体现了计算机系统在数据分析和数据处理中的作用。B 选项错误，数据分析和数据处理紧密联系，数据处理是数据分析的前提。
题目：下面关于大数据处理与分析的描述，正确的是：（ABCD）
- A. 在理论层面，数据分析需要统计学、机器学习和数据挖掘等知识（统计学提供基础分析方法，机器学习和数据挖掘用于深入分析数据）
- B. 在技术层面，包括单机分析工具（比如 SPSS、SAS 等）或单机编程语言（比如 Python、R），以及大数据处理与分析技术（比如 MapReduce、Spark、Hive 等）（不同规模数据处理需求对应不同技术工具）
- C. 在大数据时代到来之前，数据分析主要以小规模的抽样数据为主，一般使用单机分析工具（比如 SPSS 和 SAS）或者单机编程（比如 Python、R）的方式来实现分析程序（受数据量和计算能力限制，早期多处理小规模数据）
- D. 到了大数据时代，数据量爆炸式地增长，数据分析就需要采用分布式实现技术，比如使用 MapReduce、Spark 或 Flink 编写分布式分析程序，借助于集群的多台机器进行并行数据处理分析（分布式技术适应大数据规模和速度要求）
- 解析：A 选项阐述了大数据分析的理论知识基础；B 选项列举了不同层面的分析技术工具；C 选项回顾了大数据时代前的数据分析状况；D 选项说明了大数据时代分布式技术在数据分析中的应用。四个选项均正确。
题目：常见的关联规则挖掘算法包括：（BC）
- A. MP - Growth 算法（不存在该算法，常见的是 FP - Growth 算法）
- B. FP - Growth 算法（一种高效的频繁项集挖掘算法，用于关联规则挖掘）
- C. Apriori 算法（经典的关联规则挖掘算法，通过生成候选集并剪枝来发现频繁项集和关联规则）
- D. Bpriori 算法（不存在该算法）
- 解析：FP - Growth 算法和 Apriori 算法是常见的关联规则挖掘算法。A、D 选项中提及的算法不存在，B、C 选项正确。
题目：协同过滤主要包括：（ABC）
- A. 基于用户的协同过滤（根据用户间的相似性，为目标用户推荐相似用户喜欢的物品）
- B. 基于物品的协同过滤（依据物品间的相似性，为用户推荐与已喜欢物品相似的物品）
- C. 基于模型的协同过滤（通过建立模型，如矩阵分解等，推断用户喜好并进行推荐）
- D. 基于分类的协同过滤（不属于协同过滤的主要类型，协同过滤主要基于用户、物品或模型）
- 解析：协同过滤主要有基于用户、基于物品和基于模型三种类型。A、B、C 选项分别描述了这三种类型的协同过滤算法原理；D 选项不属于协同过滤分类范畴。
题目：大数据处理分析技术主要包括哪几种类型：（ABCD）
- A. 批处理计算（如 MapReduce，对大规模数据集进行批量处理）
- B. 流计算（实时处理持续到达的数据流，如 Storm、Flink）
- C. 图计算（处理具有关联关系的数据，如 Pregel 用于图算法计算）
- D. 查询分析计算（如 Hive、Impala 用于查询和分析存储在大数据平台中的数据）
- 解析：大数据处理分析技术包含批处理计算、流计算、图计算和查询分析计算。A 选项批处理适合处理大规模静态数据；B 选项流计算处理实时数据；C 选项图计算针对关联数据；D 选项查询分析计算用于数据查询和分析。四个选项均正确。
题目：一次 BSP 计算过程包括一系列全局超步（超步就是指计算中的一次迭代），每个超步主要包括哪几个组件：（ACD）
- A. 局部计算（每个节点在超步内进行本地数据计算）
- B. 中间计算（不属于超步主要组件）
- C. 通信（节点间交换中间结果，为下一步计算做准备）
- D. 栅栏同步（确保所有节点完成当前超步计算后再进入下一个超步）
- 解析：BSP（Bulk Synchronous Parallel）计算模型中，超步主要包含局部计算、通信和栅栏同步。A 选项是超步内节点的计算操作；C 选项实现节点间数据交互；D 选项保证计算的同步性。B 选项中间计算不是超步的主要组件。
题目：下面关于 MapReduce 工作流程的描述，正确的是：（ABD）
- A. 一个大的 MapReduce 作业，会被拆分成许多个 Map 任务在多台机器上并行执行（将大任务分解为多个小的 Map 任务并行处理，提高处理效率）
- B. 每个 Map 任务通常运行在数据存储的节点上（遵循 “计算向数据靠拢” 原则，减少数据传输开销）
- C. 当 Map 任务结束后，会生成以 <key, value - list> 形式表示的许多中间结果（Map 任务输出 < key, value > 键值对，不是 < key, value - list>，C 选项错误）
- D. Reduce 任务会对中间结果进行汇总计算得到最后结果（Reduce 任务按 key 对中间结果进行聚合计算，得到最终输出）
- 解析：A 选项体现了 MapReduce “分而治之” 的策略；B 选项是 MapReduce 优化数据处理的方式；D 选项说明了 Reduce 任务的作用。C 选项对 Map 任务输出形式的描述错误。
题目：Hadoop 的 MapReduce 的缺点包括：（ABC）
- A. 表达能力有限（复杂计算逻辑用 MapReduce 表达困难，如复杂的迭代计算）
- B. 磁盘 IO 开销大（中间结果写入磁盘，增加磁盘读写开销）
- C. 延迟高（数据在磁盘和网络间传输，处理过程涉及多次磁盘 IO，导致延迟较高）
- D. 中间结果多（中间结果数量并非 MapReduce 本质缺点，且可通过优化减少，D 选项错误）
- 解析：A 选项反映了 MapReduce 编程模型在处理复杂逻辑时的局限性；B 选项指出了其磁盘 IO 性能瓶颈；C 选项说明了延迟高的问题。D 选项不是 MapReduce 的核心缺点。
题目：Hive 底层所依赖的计算引擎可以是：（BCD）
- A. Flink（Hive 底层默认不依赖 Flink 作为计算引擎，虽然可以进行集成，但不是其常见依赖）
- B. MapReduce（Hive 默认计算引擎，将 HiveQL 语句转化为 MapReduce 任务执行）
- C. Tez（可作为 Hive 计算引擎，优化了 MapReduce 执行计划，提高性能）
- D. Spark（可以作为 Hive 计算引擎，借助 Spark 的内存计算优势提升 Hive 查询性能）
- 解析：B 选项 MapReduce 是 Hive 最初和常用的计算引擎；C 选项 Tez 能优化 Hive 计算；D 选项 Spark 与 Hive 集成可提高查询效率。A 选项 Flink 不是 Hive 常见的底层计算引擎。
题目：下面关于 Hive 的描述正确的是：（ABCD）
- A. Hive 是一个基于 Hadoop 的数据仓库工具，可以用于对存储在 Hadoop 文件中的数据集进行数据整理、特殊查询和分析处理（利用 Hadoop 存储，提供数据处理和查询功能）
- B. Hive 的学习门槛比较低，因为它提供了类似于关系数据库 SQL 语言的查询语言 ——HiveQL（方便熟悉 SQL 的用户快速上手）
- C. 当采用 MapReduce 作为执行引擎时，Hive 可以通过 HiveQL 语句快速实现简单的 MapReduce 统计，Hive 自身可以将 HiveQL 语句快速转换成 MapReduce 任务进行运行（体现了 Hive 对 MapReduce 的调用和转换能力）
- D. Hive 在某种程度上可以看作是用户编程接口，其本身并不存储和处理数据（依赖 Hadoop 的 HDFS 存储数据，计算依赖底层计算引擎）
- 解析：A 选项说明了 Hive 的数据仓库定位和功能；B 选项体现了 HiveQL 的易用性；C 选项描述了 Hive 与 MapReduce 的协作方式；D 选项指出了 Hive 在数据存储和处理方面的特点。四个选项均正确。
题目：关于 Hive 与 Hadoop 生态系统中其他组件的关系，下面描述正确的是：（ABC）
- A. HDFS 作为高可靠的底层存储，用来存储海量数据（为 Hive 提供数据存储支持）
- B. MapReduce 对这些海量数据进行批处理，实现高性能计算（作为 Hive 默认计算引擎处理数据）
- C. 用 HiveQL 语句编写的处理逻辑，最终都要转化为 MapReduce 任务来运行（在默认配置下，Hive 将 HiveQL 转化为 MapReduce 任务执行）
- D. Hive 的目标是取代 HBase（Hive 和 HBase 功能不同，Hive 用于数据仓库分析，HBase 用于随机读写，Hive 不是为取代 HBase，D 选项错误）
- 解析：A 选项体现了 HDFS 在 Hive 数据存储中的作用；B 选项说明了 MapReduce 与 Hive 的计算关系；C 选项反映了 HiveQL 与 MapReduce 的转换关系。D 选项对 Hive 和 HBase 的定位理解错误。
题目：Hive 的系统架构主要包括哪几个模块：（BCD）
- A. 探查模块（不属于 Hive 系统架构主要模块）
- B. 驱动模块（负责解析 HiveQL 语句、生成执行计划等）
- C. 元数据存储模块（存储 Hive 表结构、分区信息等元数据，一般使用关系数据库）
- D. 用户接口模块（提供多种用户访问接口，如命令行、JDBC/ODBC 等）
- 解析：B 选项驱动模块是 Hive 的核心模块之一；C 选项元数据存储模块对 Hive 数据管理至关重要；D 选项用户接口模块方便用户与 Hive 交互。A 选项不是 Hive 系统架构主要组成部分。
题目：关于数据仓库 Impala 的描述正确的是：（BC）
- A. Impala 是由 Oracle 公司开发的查询系统（Impala 是由 Cloudera 公司开发，不是 Oracle，A 选项错误）
- B. 与 Hive 类似，Impala 也可以直接与 HDFS 和 HBase 进行交互（能查询 HDFS 和 HBase 上的数据）
- C. Impala 采用了与商用 MPP 并行关系数据库类似的分布式查询引擎，可以直接从 HDFS 或者 HBase 中用 SQL 语句查询数据，而不需要把 SQL 语句转化成 MapReduce 任务来执行（体现了 Impala 的高效查询特点）
- D. Impala 和 Hive 采用了不同的 SQL 语法、ODBC 驱动程序和用户接口（Impala 提供与 Hive 类似的 SQL 语法、ODBC 驱动和用户接口，D 选项错误）
- 解析：B 选项体现了 Impala 的数据交互能力；C 选项说明了 Impala 的查询优势。A 选项开发公司错误；D 选项对 Impala 和 Hive 的语法、驱动和接口描述错误。
题目：Spark 的特点主要包括：（ABC）
- A. 运行速度快（基于内存计算，减少磁盘 IO，提升运行速度）
- B. 容易使用（提供简洁的编程模型，支持多种语言，如 Scala、Java、Python 等）
- C. 通用性（可用于批处理、流计算、图计算、机器学习等多种场景）
- D. 运行模式单一（Spark 支持多种运行模式，如 Local 模式、Standalone 模式、Spark on YARN 模式等，D 选项错误）
- 解析：A 选项内存计算特性使 Spark 速度快；B 选项多语言支持和简洁 API 便于使用；C 选项体现了 Spark 在不同计算场景的适用性。D 选项与 Spark 实际多运行模式不符。
题目：Spark 相对于 MapReduce 的优点包括：（ABD）
题目：不同的计算框架统一运行在 YARN 中，可以带来哪些好处：（BCD）
- A. 减少了所使用的编程语言的种类（不同计算框架运行在 YARN 中，并不会减少编程语言的使用种类，各框架仍支持多种语言开发，A 选项错误）
- B. 计算资源按需伸缩（YARN 可以根据不同计算任务的需求动态分配和调整计算资源，提高资源利用率）
- C. 不用负载应用混搭，集群利用率高（多个计算框架共享 YARN 集群资源，避免了不同负载应用单独部署的资源浪费，提高集群整体利用率）
- D. 共享底层存储，避免数据跨集群迁移（各计算框架基于 YARN 运行时，可共享 HDFS 等底层存储，无需在不同集群间迁移数据，减少数据传输成本和复杂性）
- 解析：B 选项体现了 YARN 资源管理的弹性；C 选项说明了 YARN 对集群资源整合利用的优势；D 选项反映了共享底层存储带来的便利。A 选项不符合实际情况，YARN 的使用与编程语言种类无关。
题目：在实际应用中，大数据处理主要包括哪几种类型：（ABC）
- A. 复杂的批量数据处理：时间跨度通常在数十分钟到数小时之间（如对历史销售数据进行全面分析，涉及大量数据的读取、计算和存储，处理时间较长）
- B. 基于历史数据的交互式查询：时间跨度通常在数十秒到数分钟之间（用户对历史数据进行实时查询，如在电商系统中查询过去一年的订单数据，要求快速响应）
- C. 基于实时数据流的数据处理：时间跨度通常在数百毫秒到数秒之间（对实时产生的数据进行即时处理，如实时监控系统对传感器数据的处理，要求低延迟）
- D. 基于历史数据的流查询：时间跨度在数十秒到数分钟之间（不属于大数据处理的常见类型，历史数据是静态的，与流查询的实时性特点不符，D 选项错误）
- 解析：A、B、C 选项分别描述了大数据处理中批量处理、交互式查询和实时流处理的时间跨度和应用场景特点。D 选项概念混淆，历史数据不适用于流查询。
题目：下面关于 Spark 的运行架构的描述，正确的是：（ABD）
- A. Spark 运行架构包括 Cluster Manager、Worker Node、Driver Program 和 Executor（这是 Spark 运行架构的基本组成部分，各组件协同工作完成计算任务）
- B. Spark 集群资源管理器可以是 Spark 自带的资源管理器，也可以是 YARN 或 Mesos 等资源管理框架（Spark 支持多种资源管理器，具有良好的兼容性和灵活性）
- C. Spark 采用 “P2P 架构”（Spark 采用的是主从（Master/Slave）架构，并非 P2P 架构，C 选项错误）
- D. Spark 利用多线程来执行具体的任务（Spark 在 Executor 中通过多线程并行执行任务，提高计算效率）
- 解析：A 选项准确列举了 Spark 运行架构的核心组件；B 选项体现了 Spark 对不同资源管理框架的支持；D 选项说明了 Spark 的任务执行方式。C 选项对 Spark 架构的描述错误。
题目：下面关于 RDD 的描述正确的是：（ABC）
- A. 一个 RDD 就是一个分布式对象集合（RDD 作为 Spark 的核心数据结构，是分布式存储在多个节点上的对象集合）
- B. 一个 RDD 本质上是一个只读的分区记录集合（RDD 具有不可变性，一旦创建，其数据内容不能被修改，以分区形式存储在不同节点）
- C. RDD 提供了一组丰富的操作以支持常见的数据运算，分为 “行动”（Action）和 “转换”（Transformation）两种类型（Action 操作会触发实际计算并返回结果，如 count、collect 等；Transformation 操作返回新的 RDD，如 map、filter 等，是惰性求值的）
- D. RDD 不适合对于数据集中元素执行相同操作的批处理式应用，而比较适合用于需要异步、细粒度状态的应用（RDD 非常适合对数据集中元素执行相同操作的批处理应用，通过并行操作提高处理效率；但在需要异步、细粒度状态管理的场景下存在局限性，D 选项错误）
- 解析：A、B、C 选项正确阐述了 RDD 的概念、特性和操作类型。D 选项对 RDD 适用场景的描述错误，RDD 在批处理场景优势明显。
题目：Spark 的集群部署方式包括：（ABC）
- A. Spark on Mesos 模式（Mesos 是一种分布式资源管理框架，Spark 可以部署在 Mesos 上进行资源调度和任务执行）
- B. Spark on YARN 模式（YARN 是 Hadoop 的资源调度框架，Spark on YARN 是常用的部署方式，借助 YARN 实现资源管理和任务调度）
- C. Spark on Kubernetes 模式（Kubernetes 是容器编排平台，Spark 可以在 Kubernetes 上进行容器化部署，实现更灵活的资源管理和应用部署）
- D. Local 模式（Local 模式是在本地单节点上运行 Spark，用于开发和测试，不属于集群部署方式，D 选项错误）
- 解析：A、B、C 选项是 Spark 在不同集群环境下的部署方式。D 选项 Local 模式与集群部署概念不同，Local 模式主要用于本地开发调试。
题目：下面关于 Spark SQL 的描述正确的是：（ACD）
- A. Spark SQL 在 Hive 兼容层面仅依赖 HiveQL 解析和 Hive 元数据（Spark SQL 可以读取 Hive 的元数据，解析 HiveQL 语句，实现与 Hive 的兼容，且依赖程度主要在这两方面）
- B. Spark SQL 目前支持 Scala、Java 编程语言，暂时不支持 Python 语言（Spark SQL 支持 Scala、Java、Python 等多种编程语言，方便不同开发者使用，B 选项错误）
- C. Spark SQL 执行计划生成和优化都由 Catalyst（函数式关系查询优化框架）负责（Catalyst 框架负责优化执行计划，提高 Spark SQL 的查询性能）
- D. Spark SQL 增加了 DataFrame（即带有 Schema 信息的 RDD），使用户可以在 Spark SQL 中执行 SQL 语句（DataFrame 提供了结构化数据的表示和操作方式，结合 SQL 语句方便进行数据查询和处理）
- 解析：A 选项说明了 Spark SQL 与 Hive 的兼容机制；C 选项体现了 Catalyst 在 Spark SQL 中的重要作用；D 选项解释了 DataFrame 在 Spark SQL 中的功能。B 选项对 Spark SQL 支持编程语言的描述不准确。
题目：下面关于 Spark Streaming 的描述正确的是：（ABCD）
- A. Spark Streaming 是构建在 Spark Core 上的实时计算框架，它扩展了 Spark 处理大规模流式数据的能力（基于 Spark Core 的分布式计算能力，实现对流式数据的实时处理）
- B. Spark Streaming 可结合批处理和交互查询，适合一些需要对历史数据和实时数据进行结合分析的应用场景（能在同一应用中处理实时数据和历史数据，如实时监控结合历史数据进行趋势分析）
- C. Spark Streaming 可整合多种输入数据源，如 Kafka、Flume、HDFS，甚至是普通的 TCP 套接字（支持从多种数据源获取数据，满足不同场景下的数据接入需求）
- D. Spark Streaming 实际上是以一系列微小批处理来模拟流计算（将实时流数据拆分成多个小的批处理作业，利用 Spark Core 进行快速处理，实现流计算功能）
- 解析：A 选项明确了 Spark Streaming 与 Spark Core 的关系；B 选项体现了其处理混合数据的优势；C 选项展示了数据源的多样性；D 选项解释了 Spark Streaming 模拟流计算的原理。四个选项均正确。
题目：Structured Streaming 包括哪两种处理模型：（AD）
- A. 微批处理（将数据流按时间窗口划分为多个微小批次进行处理，是 Structured Streaming 的一种处理模型）
- B. 高阶处理（不存在这种处理模型，B 选项错误）
- C. 分层处理（不属于 Structured Streaming 的处理模型，C 选项错误）
- D. 持续处理（持续处理模型支持低延迟、端到端的一致性处理，是 Structured Streaming 的另一种处理模型）
- 解析：Structured Streaming 提供微批处理和持续处理两种模型。A、D 选项正确，B、C 选项不属于其处理模型。
题目：关于 Structured Streaming、Spark SQL、Spark Streaming，下面描述正确的是：（ACD）
- A. Structured Streaming 处理的数据跟 Spark Streaming 一样，也是源源不断的数据流（两者都处理流式数据，只是处理方式和底层机制有差异）
- B. Spark Streaming 采用的数据抽象是 DataFrame，Structured Streaming 采用的数据抽象是 DStream（Spark Streaming 采用 DStream 作为数据抽象，Structured Streaming 采用 DataFrame/Dataset，B 选项错误）
- C. Structured Streaming 可以使用 Spark SQL 的 DataFrame/Dataset 来处理数据流（借助 DataFrame/Dataset 的结构化数据处理能力，处理流式数据）
- D. Spark SQL 只能处理静态的数据，而 Structured Streaming 可以处理结构化的数据流（Spark SQL 主要处理静态结构化数据，Structured Streaming 专注于结构化数据流处理）
- 解析：A 选项说明了两者数据来源的共性；C 选项体现了 Structured Streaming 与 Spark SQL 的联系；D 选项指出了 Spark SQL 和 Structured Streaming 适用数据类型的差异。B 选项对两者数据抽象的描述错误。
题目：Spark MLlib 主要提供了哪几个方面的工具：（ABCD）
- A. 算法工具（包含多种机器学习算法，如分类、回归、聚类算法等，帮助用户构建机器学习模型）
- B. 特征化工具（用于数据特征提取、转换和选择，提升数据质量和模型性能）
- C. 流水线（支持构建和评估机器学习工作流，将多个算法和数据处理步骤组合成一个完整的流程）
- D. 实用工具（提供如数据导入、模型评估等辅助功能的工具，方便机器学习任务的实施）
- 解析：Spark MLlib 为机器学习提供了全面的支持，A、B、C、D 选项分别从算法实现、数据处理、工作流构建和辅助功能方面介绍了其工具类型。
题目：下面关于 Storm 框架设计描述正确的是：（ABD）
- A. Storm 运行在分布式集群中，其运行任务的方式与 Hadoop 类似（都基于分布式集群环境，通过多个节点协作完成任务）
- B. 在 Hadoop 上运行的是 MapReduce 作业，而在 Storm 上运行的是 “Topology”（Topology 是 Storm 中任务的抽象，定义了数据处理流程和任务间的依赖关系）
- C. Storm 集群采用 P2P 架构（Storm 集群采用主从（Master/Slave）架构，并非 P2P 架构，C 选项错误）
- D. Storm 采用了 Zookeeper 来作为分布式协调组件（借助 Zookeeper 实现集群节点间的协调、状态管理和故障检测等功能）
- 解析：A 选项体现了 Storm 与 Hadoop 运行环境的相似性；B 选项明确了两者运行任务的不同抽象；D 选项说明了 Zookeeper 在 Storm 集群中的作用。C 选项对 Storm 架构的描述错误。
题目：下面关于 Flink 的描述正确的是：（BCD）
- A. Flink 和 Spark 一样，都是基于磁盘的计算框架（Flink 和 Spark 都支持内存计算，并非基于磁盘，A 选项错误）
- B. 当全部运行在 Hadoop YARN 之上时，Flink 的性能甚至还要略好于 Spark（在特定场景下，Flink 在 YARN 上的性能表现优于 Spark，如在流计算场景下，Flink 的低延迟优势更明显）
- C. Flink 的流计算性能和 Storm 差不多，可以支持毫秒级的响应（Flink 在流计算方面性能强劲，能够实现毫秒级响应，与 Storm 相当）
- D. Spark 的市场影响力和社区活跃度明显超过 Flink（目前 Spark 在大数据领域应用更广泛，市场影响力和社区活跃度相对更高）
- 解析：B 选项说明了 Flink 在特定环境下的性能优势；C 选项体现了 Flink 流计算的性能特点；D 选项反映了 Spark 和 Flink 在市场和社区方面的差异。A 选项对 Flink 计算框架的描述错误。
题目：Flink 系统主要由哪两个组件组成：（AB）
- A. JobManager（负责调度和管理作业，协调任务执行，监控作业执行状态等）
- B. TaskManager（负责执行具体的任务，处理数据并将结果返回给 JobManager）
- C. JobTracker（JobTracker 是 Hadoop MapReduce 中的组件，用于跟踪作业状态，Flink 中不存在，C 选项错误）
- D. TaskTracker（TaskTracker 也是 Hadoop MapReduce 中的组件，负责执行任务，Flink 中不存在，D 选项错误）
- 解析：JobManager 和 TaskManager 是 Flink 系统的核心组件，A、B 选项正确。C、D 选项中的 JobTracker 和 TaskTracker 属于 Hadoop MapReduce 组件，与 Flink 无关。
题目：下面关于大数据编程框架 Beam 的描述正确的是：（BCD）
- A. Beam 是由微软公司贡献的 Apache 顶级项目（Beam 是由 Google 贡献的 Apache 顶级项目，并非微软，A 选项错误）
- B. Beam 的目标是为开发者提供一个易于使用、却又很强大的数据并行处理模型，能够支持流处理和批处理（Beam 提供统一编程模型，方便开发者进行流批一体化处理）
- C. Beam 是一个开源的统一的编程模型，开发者可以使用 Beam SDK 来创建数据处理管道，然后，这些程序可以在任何支持的执行引擎上运行（Beam 的 SDK 提供统一接口，开发的程序可在多种执行引擎上运行，如 Flink、Spark 等）
- D. Beam SDK 定义了开发分布式数据处理任务业务逻辑的 API 接口，即提供一个统一的编程接口给到上层应用的开发者（Beam SDK 为开发者提供了方便的编程接口，降低开发复杂度）
- 解析：B 选项体现了 Beam 的设计目标；C 选项说明了 Beam 的开源特性和跨引擎运行能力；D 选项解释了 Beam SDK 的作用。A 选项对 Beam 贡献公司的描述错误。
题目：查询分析系统 Dremel 的特点主要包括：（BD）
- A. Dremel 是一个面向小规模数据的、稳定的系统（Dremel 是面向大规模数据的查询系统，可处理 PB 级数据，A 选项错误）
- B. Dremel 的数据模型是嵌套的（Dremel 采用嵌套数据模型，能够有效处理复杂结构化数据）
- C. Dremel 中的数据是用行式存储的（Dremel 采用列式存储，提高查询性能，尤其是聚合查询，C 选项错误）
- D. Dremel 结合了 Web 搜索和并行 DBMS 的技术（融合 Web 搜索的快速查询和并行数据库管理系统的分布式处理能力，实现高效数据查询）
- 解析：B 选项反映了 Dremel 数据模型的特点；D 选项体现了 Dremel 技术融合的优势。A 选项对 Dremel 适用数据规模的描述错误；C 选项对其数据存储方式的描述错误。

第 7 章大数据可视化

一、单选题

题目：下列关于数据可视化的描述，哪个是错误的？（D）
- A. 数据可视化是指将大型数据集中的数据以图形图像形式表示
- B. 利用数据分析和开发工具发现其中未知信息的处理过程
- C. 数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示
- D. 将数据的各个属性值以一维数据的形式表示（数据可视化是将数据以图形图像展示，多维度呈现数据特征，并非以一维数据形式表示，D 选项错误）
- 解析：A、B、C 选项准确描述了数据可视化的概念和基本思想。D 选项不符合数据可视化多维度展示数据的特点，通常会利用图表、图形等将数据的多个属性以直观的方式呈现。

题目：下列哪个不属于可视化工具？（D）
- A. Google Chart API（谷歌提供的可视化接口，支持生成折线图、饼图等）
- B. D3（基于 JavaScript 的可视化库，支持交互式图表开发）
- C. Visual.ly（在线信息图制作平台，提供模板和数据可视化工具）
- D. Spark（大数据计算框架，主要用于数据处理和分析，而非可视化，D 选项正确）
- 解析：A、B、C 选项均为专业可视化工具或库。Spark 的核心功能是分布式计算（如 MapReduce、流处理），虽可与可视化工具集成（如通过 Matplotlib 展示结果），但本身不具备可视化能力。
题目：下列说法错误的是？（B）
- A. 大数据魔镜是一款优秀的国产数据分析软件，支持探索式数据分析
- B. Tableau 是桌面系统中最简单的商业智能工具软件，是一个用于网页作图的 JavaScript 函数库（Tableau 是独立的商业智能工具，并非 JavaScript 库；用于网页作图的库如 D3、ECharts，B 选项错误）
- C. Google Fusion Tables 支持制作专业统计地图，非专业用户也可轻松使用
- D. Modest Maps 是小型交互式地图库，提供卫星地图 API 接口
- 解析：A 选项正确，大数据魔镜具备数据清洗、分析及可视化功能；C 选项中，Google Fusion Tables 通过简单操作即可生成地理可视化图表；D 选项 Modest Maps 轻量级设计适用于移动设备。B 选项混淆了 Tableau（桌面软件）与网页可视化库的定位。
题目：下面关于 Timetoast 的描述，哪个是错误的？（D）
- A. Timetoast 是在线时间轴事件记载服务平台
- B. 提供个性化时间线创建功能，支持添加多媒体内容
- C. 基于 Flash 平台实现交互式时间轴编辑
- D. Timetoast 是提供复杂统计图表的工具（Timetoast 专注于时间轴可视化，不支持复杂统计图表如热力图、桑基图，D 选项错误）
- 解析：A、B、C 选项准确描述了 Timetoast 的核心功能，例如用户可创建历史事件时间轴并嵌入图片、链接。D 选项错误，其功能局限于时间序列可视化，而非通用统计图表。
题目：下列关于可视化工具中高级分析工具的说法，错误的是？（B）
- A. R 是 GNU 开源项目，支持统计分析与可视化，拥有丰富绘图包
- B. Weka 主要用于社交图谱数据可视化分析，可生成酷炫图形（Weka 是机器学习工具，侧重分类、聚类算法，社交图谱分析常用工具为 Gephi，B 选项错误）
- C. Gephi 是专业社交网络可视化工具，支持复杂图算法和布局
- D. R 常用于大数据集统计分析，可视化结果可高度定制
- 解析：A 选项正确，R 的 ggplot2 包支持高质量图表绘制；C 选项中，Gephi 可展示节点关系网络（如社交网络连接）；D 选项 R 的灵活性适用于学术和商业分析场景。B 选项错误，Weka 的可视化功能集中于算法结果（如聚类簇分布），而非社交图谱。

二、多选题

题目：在大数据时代，可视化技术可以支持实现哪些目标？（ABCD）
- A. 观测、跟踪数据动态变化（如实时监控系统用仪表盘展示数据流）
- B. 辅助分析数据模式与趋势（如折线图展示销量增长趋势）
- C. 帮助用户理解复杂数据关系（如桑基图展示资金流向）
- D. 增强数据吸引力，促进传播（如信息图在社交媒体分享）
- 解析：可视化技术通过图形化手段解决数据理解难题：A 选项对应实时监控场景；B 选项支持数据驱动决策；C 选项将高维数据降维展示；D 选项利用视觉设计提升传播效果。
题目：信息图表是信息、数据的视觉化表达，下列说法正确的是？（ABCD）
- A. Google Chart API 支持动态生成统计图片，可嵌入网页
- B. D3 是 Web 端可视化库，支持 SVG、Canvas 等渲染方式
- C. ECharts 是百度开源图表库，兼容 PC 与移动设备
- D. 大数据魔镜提供拖拽式可视化功能，适合非技术用户
- 解析：各选项均正确：A 选项 Google Chart API 无需复杂开发即可生成图表；B 选项 D3 的灵活性支持自定义交互效果；C 选项 ECharts 的中国特色适配国内场景；D 选项大数据魔镜降低可视化使用门槛。
题目：下列关于数据可视化的描述，正确的有？（ABC）
- A. 将大型数据集转化为图形图像，便于理解
- B. 每个数据项作为图元素（如散点图中每个点代表一条记录）
- C. 结合数据分析工具挖掘隐藏信息
- D. 将数据属性以一维形式表示（与多维可视化原则矛盾，D 选项错误）
- 解析：A、B、C 选项符合可视化定义与实践，例如金融数据通过 K 线图展示价格波动；D 选项错误，多维数据（如时间、价格、交易量）需通过三维图表或多子图组合展示。
题目：下列说法中，正确的有？（ABCD）
- A. Modest Maps 是轻量级地图库，适合移动应用开发
- B. Leaflet 是开源地图框架，支持交互操作与插件扩展
- C. Google Fusion Tables 简化统计地图制作流程
- D. 大数据魔镜支持数据公式与算法可视化
- 解析：A 选项 Modest Maps 体积小，适配移动设备性能；B 选项 Leaflet 常用于开源 GIS 项目；C 选项 Google Fusion Tables 通过表格数据自动生成地理热力图；D 选项大数据魔镜的可视化功能与分析算法集成。
题目：下面关于可视化图表的描述正确的是：（ABD）
- A. 漏斗图适用于流程转化分析（如电商购物车转化率）
- B. 树图用嵌套矩形展示层次数据（如文件系统目录结构）
- C. 桑基图用于展示用户页面区域点击偏好（热力图用于点击偏好，桑基图展示流量流向，C 选项错误）
- D. 词云突出文本中高频关键词（如新闻标题词频分析）
- 解析：A 选项漏斗图的层级递减形状直观展示流程损耗；B 选项树图的空间利用率高，适合大型层次数据；D 选项词云通过字体大小反映关键词重要性。C 选项错误，桑基图（如能源流动）与热力图（如网页点击分布）应用场景不同。

第 8 章大数据与云计算

一、单选题

题目：早期的云计算产品 AWS 是由哪家企业提出的？（C）
- A. IBM
- B. 微软
- C. 亚马逊（2006 年亚马逊推出 AWS，是云计算早期标志性产品）
- D. 谷歌
- 解析：AWS（Amazon Web Services）是云计算领域的开创性产品，率先实现基础设施即服务（IaaS）商业化，其他选项中 IBM 的 Blue Cloud、微软的 Azure 均晚于 AWS 推出。
题目：面向所有注册付费用户提供服务的云计算类型是？（A）
- A. 公有云（如 AWS、阿里云，资源共享且按需付费）
- B. 私有云（仅企业内部使用）
- C. 混合云（公有云与私有云结合）
- D. 独立云（非标准分类）
- 解析：公有云的开放性和共享性使其适合中小企业，无需自建基础设施；私有云适合对安全要求高的机构（如银行）；混合云用于数据敏感与非敏感业务分离场景。
题目：只为特定企业内部提供服务的云计算类型是？（B）
- A. 公有云
- B. 私有云（企业自建或托管，如金融机构私有云）
- C. 混合云
- D. 独立云
- 解析：私有云的核心特点是服务对象的专一性，可部署在企业数据中心或托管机房，满足合规性要求（如医疗数据隐私保护）。
题目：下列关于大数据、云计算和物联网的区别，描述错误的是？（C）
- A. 大数据侧重海量数据价值挖掘
- B. 云计算通过网络以服务形式提供 IT 资源
- C. 云计算旨在从数据中发现价值（大数据侧重价值发现，云计算侧重资源服务，C 选项错误）
- D. 物联网目标是实现物物相连
- 解析：云计算的核心是资源池化与弹性调度（如虚拟机按需分配），而大数据的核心是算法与分析（如 Hadoop 处理 PB 级数据）。物联网通过传感器网络产生数据，是大数据的重要来源。
题目：下列关于机器学习的描述错误的是？（C）
- A. 涉及统计学、神经网络等多学科交叉
- B. 研究计算机模拟人类学习行为
- C. 机器学习强调三个关键词：算法、模型、训练（核心关键词应为数据、算法、算力，C 选项错误）
- D. 基于数据的机器学习是智能技术基础
- 解析：机器学习三要素是数据（训练集质量）、算法（如决策树、神经网络）、算力（GPU 集群加速训练），训练是模型构建过程，而非核心要素。
题目：下列关于知识图谱的描述错误的是？（C）
- A. 又称科学知识图谱，展示知识领域关联
- B. 图书情报界称为知识域可视化
- C. 知识图谱属于密码学研究范畴（属于人工智能、知识表示领域，C 选项错误）
- D. 可用于反欺诈场景（如识别组团诈骗网络）
- 解析：知识图谱通过三元组（实体 - 关系 - 实体）构建语义网络（如百度百科人物关系），密码学研究加密算法，二者无直接关联。反欺诈中，知识图谱可发现异常账户的关联关系（如共享地址、联系人）。
题目：下列关于人机交互的描述错误的是？（B）
- A. 研究系统与用户的交互关系
- B. 人机交互界面通常指用户不可见的部分（界面是用户可见的操作入口，如 APP 按钮、键盘，B 选项错误）
- C. 系统可以是机器或软件
- D. 用户通过界面与系统交流
- 解析：人机交互界面（HCI）的设计目标是易用性（如手机触摸屏手势操作），不可见部分属于系统底层逻辑（如代码、算法）。
题目：下列关于计算机视觉的描述错误的是？（D）
- A. 研究机器 “看” 的科学
- B. 用摄影机和电脑替代人眼识别目标
- C. 综合性学科，涉及图像处理、深度学习
- D. 语音识别属于计算机视觉的典型应用（语音识别属于自然语言处理，D 选项错误）
- 解析：计算机视觉处理视觉信息（如图像分类、目标检测），自然语言处理处理文本和语音（如语音转文字），二者同属人工智能分支但研究对象不同。
题目：关于大数据与区块链的联系，描述错误的是？（D）
- A. 区块链降低大数据信用成本（如数据溯源防篡改）
- B. 区块链是大数据时代的信任基石（如医疗数据共享中的可信存证）
- C. 区块链是数据价值流通管道（如数据交易中的智能合约结算）
- D. 区块链会提升大数据的信用成本（区块链通过分布式共识降低信用成本，D 选项错误）
- 解析：区块链的分布式账本特性使数据一旦上链不可篡改，减少数据共享中的信任摩擦（如供应链金融中物流数据可信验证），从而降低信用成本。

二、多选题

题目：传统 IT 资源获取方式的主要缺点是？（ABC）
- A. 初期采购成本高（如服务器、机房建设）
- B. 后期维护成本高（如硬件升级、运维人员工资）
- C. 资源供应量有限（物理服务器数量限制）
- D. 资源供应量无限（与实际情况矛盾，D 选项错误）
- 解析：传统 IT 模式需企业自建数据中心，前期投入大且扩容困难；云计算通过资源池化实现弹性扩展（如阿里云按需增加虚拟机数量）。
题目：云计算的主要优点是？（BCD）
- A. 初期投入大，需自行维护（传统模式特点，云计算初期零投入，A 选项错误）
- B. 瞬时获取资源（如分钟级创建虚拟机）
- C. 后期免维护（云服务商负责硬件升级）
- D. 资源 “予取予求”（可动态调整 CPU、内存）
- 解析：云计算的 “即用即付” 模式降低中小企业 IT 门槛，例如初创公司无需购买服务器，直接使用 AWS EC2 实例部署应用。
题目：云计算的三种典型服务模式是？（ABD）
- A. IaaS（基础设施即服务，如虚拟机、存储）
- B. PaaS（平台即服务，如数据库、开发环境）
- C. MaaS（非标准术语，常见为 DaaS 数据即服务）
- D. SaaS（软件即服务，如在线 CRM、邮箱）
- 解析：IaaS 提供底层资源；PaaS 提供开发平台（如 Google App Engine）；SaaS 提供完整应用（如 Salesforce 客户管理系统），三者形成层级化服务体系。
题目：云计算的三种类型是？（ACD）
- A. 公有云（如 Azure）
- B. 独立云（非标准分类）
- C. 私有云（如企业自建云）
- D. 混合云（公有云 + 私有云）
- 解析：混合云适合复杂场景，例如企业将非敏感业务放公有云（如官网），核心数据放私有云（如财务系统），通过专线互联。
题目：从技术架构看，物联网主要包括哪几层？（ABCD）
- A. 感知层（传感器、RFID 采集数据）
- B. 网络层（4G/5G、NB-IoT 传输数据）
- C. 处理层（大数据平台分析数据）
- D. 应用层（智能交通、智能家居等场景应用）
- 解析：物联网架构呈金字塔形，感知层是数据入口，网络层是传输通道，处理层是智能核心，应用层是价值体现（如智能电表通过感知层采集用电数据，经网络层传至处理层分析，应用层生成电费账单）。
题目：关于大数据、云计算和物联网的联系，描述正确的是？（ABCD）
- A. 三者相辅相成（物联网产生数据，云计算处理数据，大数据挖掘价值）
- B. 大数据根植于云计算（Hadoop 等大数据框架运行在云计算资源上）
- C. 大数据为云计算提供应用场景（如云计算资源调度需大数据分析历史负载）
- D. 物联网依赖云计算和大数据（传感器数据存储于云，分析需大数据技术）
- 解析：例如智慧工厂中，传感器（物联网）实时采集设备数据，通过 5G 传至云端（云计算），Hadoop 分析数据发现设备故障前兆（大数据），实现预测性维护。
题目：关于比特币和区块链的关系，描述正确的是？（BC）
- A. 两者无关联（区块链是比特币的底层技术，A 选项错误）
- B. 区块链是比特币的底层技术（比特币交易记录存储于区块链账本）
- C. 比特币是区块链的一种应用（区块链还可用于供应链、政务等）
- D. 比特币是比区块链更先进的技术（区块链技术范围更广，D 选项错误）
- 解析：区块链的去中心化、不可篡改特性支撑了比特币的分布式记账，二者是技术与应用的关系，类似互联网与电子邮件的关系。

Hercules

第 1 章大数据概述

一、单选题

二、多选题

第 2 章大数据技术基础

一、单选题

二、多选题

第 3 章数据采集与清洗

一、单选题

二、多选题

第 4 章大数据的存储与管理

一、单选题

二、多选题

第 5 章大数据计算框架、第 6 章大数据分析与挖掘

一、单选题

二、多选题

第 7 章大数据可视化

一、单选题

二、多选题

第 8 章大数据与云计算

一、单选题

二、多选题

参与讨论

第 1 章 大数据概述

一、单选题

二、多选题

第 2 章 大数据技术基础

一、单选题

二、多选题

第 3 章 数据采集与清洗

一、单选题

二、多选题

第 4 章 大数据的存储与管理

一、单选题

二、多选题

第 5 章 大数据计算框架、第 6 章 大数据分析与挖掘

一、单选题

二、多选题

第 7 章 大数据可视化

一、单选题

二、多选题

第 8 章 大数据与云计算

一、单选题

二、多选题

参与讨论

第 1 章大数据概述

第 2 章大数据技术基础

第 3 章数据采集与清洗

第 4 章大数据的存储与管理

第 5 章大数据计算框架、第 6 章大数据分析与挖掘

第 7 章大数据可视化

第 8 章大数据与云计算