Hadoop使用场景以及组件选择

admin•2025-04-20 13:14:00•小程序•阅读36

Hadoop使用场景以及组件选择

2023年7月17日发(作者：)

Hadoop使用场景以及组件选择

云计算平台发展到现在一般都提供大数据分析能力，大数据平台作为传统数据库的一次发展已经有了丰富的能力，今天我们看看基于Hadoop架构的一些大数据组件可以做些什么？

Hadoop作为大数据分析平台越来越成熟，发展到现在组件变成了一大堆，一眼看上去挺乱的，但其实在不同的场景，组件的选择是有差异的，我们来做个简单的梳理。

Hadoop的使用场景一般分为四类：离线处理，交互查询，实时流处理，实时检索。

一、离线处理

1、典型应用如数据清理，特点是处理数据量大，耗时长。

2、核心组件选择：MapReduce + Hive，或者Spark + Spark SQL。

3、数据流动：

（1）流式数据/文件/数据库 -> flume/第三方ETL -> HDFS -> Yarn -> Spark -> Spark SQL -> 数据仓库；

（2）流式数据/文件/数据库 -> flume/第三方ETL -> HDFS-> Yarn -> MapReduce -> Hive -> 数据仓库；（较老）

二、交互查询

1、典型应用如数据库联合查询，特点是响应要求较高，3s左右，越快越好，数据量比离线查询小，查询条件较为复杂。（例如找出全国双十一期间买了啤酒和尿布的男性）

2、核心组件选择：MapReduce + Hive，或者Spark + Spark SQL。

3、数据流动：

（1）流式数据/文件/数据库 -> flume/第三方ETL -> HDFS -> Yarn -> Spark -> Spark SQL -> 查询；

（2）流式数据/文件/数据库 -> flume/第三方ETL -> HDFS-> Yarn -> MapReduce -> Hive -> 查询；

（较老）但是目前来看，原生组件性能一般，查询很慢，并且对SQL语法支持不好，所以很多厂商做了优化，国外有Cloudera的Impala，国内做的比较好的有华为FusionInsight 的Elk（自研SQL引擎），星环的Inceptor等。

华为FusionInsight中Elk的数据流动为：

流式数据/文件/数据库 -> flume/第三方ETL -> HDFS-> Yarn

-> Elk -> 查询；

三、实时流处理

1、典型应用如银行实时风控，特点是响应要求实时，数据不落盘（硬盘）。

2、核心组件选择：Flink，或者Spark Streaming。某些情况需要缓存数据时使用Kafka组件，处理完结果可以放在redis（内存数据库）中暂时存储，供上层应用使用。

3、数据流动：

实时流/实时文件/数据库 -> flume/第三方ETL -> Kafka -> Flink/Spark Streaming -> redis/Kafka ->

实时应用

注意：这里不会使用HDFS，因为数据不落盘。

四、实时检索

1、典型应用如查询一个人的购买记录，特点是响应基本实时，但是不支持负责查询。

2、核心组件选择：ES/Solr/Hbase。

3、数据流动：

流式数据/文件/数据库 -> flume/第三方ETL -> HDFS -> Yarn -> ES/Solr/Hbase -> 检索。

发布者：admin，转转请注明出处：http://www.yc00.com/xiaochengxu/1689543445a264794.html

网站建设
A BRACELET
A BRACELET
admin
2023-7-17
410
网站建设
ELK整合SpringBoot日志收集
ELK整合SpringBoot日志收集
admin
2023-7-17
310
小程序
ELK7.x日志系统搭建3.采用轻量级日志收集Filebeat
ELK7.x日志系统搭建3.采用轻量级日志收集Filebeat
admin
2023-7-17
340
网站建设
蛋白激酶信号通路在海马神经元可塑性中的作用_亓晓丽
蛋白激酶信号通路在海马神经元可塑性中的作用_亓晓丽
admin
2023-7-17
290
建站资讯
LogStash输出中文乱码问题
LogStash输出中文乱码问题
admin
2023-7-17
300
网站建设
10KV线路继电保护计算公式
10KV线路继电保护计算公式
admin
2023-7-17
730
网站建设
2013上海玛雅水上乐园最全的攻略指南
2013上海玛雅水上乐园最全的攻略指南
admin
2023-7-17
300
建站资讯
Linux运维番外篇高效且清晰的日志分析系统--ELK日志系统
Linux运维番外篇高效且清晰的日志分析系统--ELK日志系统
admin
2023-7-17
240
小程序
大数据分析挖掘工程师中级认证培训阶段性作业
大数据分析挖掘工程师中级认证培训阶段性作业
admin
2023-7-17
280
小程序
EDA期末考试试卷习题及答案.docx
EDA期末考试试卷习题及答案.docx
admin
2023-7-17
330
建站资讯
Overcurrent and Ground Fault Protection
Overcurrent and Ground Fault Protection
admin
2023-7-17
280
小程序
ELK入门(十八)——KibanaAPMserver安装部署
ELK入门(十八)——KibanaAPMserver安装部署
admin
2023-7-17
260
建站资讯
ELK系统之logstash问题:retryingfailedactionwithresp。。。_...
ELK系统之logstash问题:retryingfailedactionwithresp。。。_...
admin
2023-7-17
270
建站资讯
微服务下实现自定义日志格式(AOP)与ELK技术栈的整合(1)
微服务下实现自定义日志格式(AOP)与ELK技术栈的整合(1)
admin
2023-7-17
400
小程序
logback+kafka+ELK实现日志记录(操作)
logback+kafka+ELK实现日志记录(操作)
admin
2023-7-17
340
建站资讯
ELK_1miRNA干扰质粒构建及鉴定
ELK_1miRNA干扰质粒构建及鉴定
admin
2023-7-17
280
建站资讯
elk之如何在kibana高效精准查询日志
elk之如何在kibana高效精准查询日志
admin
2023-7-17
990
小程序
八年级上册数学单元测试题elk 第3章直棱柱
八年级上册数学单元测试题elk 第3章直棱柱
admin
2023-7-17
200
网站建设
榄香烯乳对人宫颈癌Hela细胞转录因子ELK1及其靶基因的影响
榄香烯乳对人宫颈癌Hela细胞转录因子ELK1及其靶基因的影响
admin
2023-7-17
300
建站资讯
springcloud日志收集ELK
springcloud日志收集ELK
admin
2023-7-17
430

发表回复

评论列表（0条）

暂无评论

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信