利用Scala语言开发Spark应用程序

admin•2025-03-28 15:47:13•网站建设•阅读40

2024年4月10日发(作者：)

利用Scala语言开发Spark应用程序

park内核是由Scala语言开发的，因此使用Scala语言开发Spark应用程序是自然而然的事情。

如果你对Scala语言还不太熟悉，可以阅读网络教程A Scala Tutorial for Java Programmers或者

相关Scala书籍进行学习。

本文将介绍3个Scala Spark编程实例，分别是WordCount、TopK和SparkJoin，分别代表了Spark

的三种典型应用。

1. WordCount编程实例

WordCount是一个最简单的分布式应用实例，主要功能是统计输入目录中所有单词出现的总次

数，编写步骤如下：

步骤1：创建一个SparkContext对象，该对象有四个参数：Spark master位置、应用程序名称，

Spark安装目录和jar存放位置，对于Spark On YARN而言，最重要的是前两个参数，第一个参

数指定为 yarn-standalone ，第二个参数是自定义的字符串，举例如下：

valsc=newSparkContext(args(0),

WordCount ,( SPARK_HOME ),Seq(( SPARK_TEST_JAR )))

步骤2：读取输入数据。我们要从HDFS上读取文本数据，可以使用SparkCon

valtextFile=le(args(1))

当然，Spark允许你采用任何Hadoop InputFormat，比如二进制输入格式SequenceFileInputFormat，

此时你可以使用SparkContext中的hadoopRDD函数，举例如下：

valinputFormatClass=classOf[SequenceFileInputFormat[Text,Text]]varhadoopRdd=RDD(c

onf,inputFormatClass,classOf[Text],classOf[Text])

或者直接创建一个HadoopRDD对象：

varhadoopRdd=newHadoopRDD(sc,conf,classOf[SequenceFileInputFormat[Text,Text,classOf[Text],c

lassOf[Text])

步骤3：通过RDD转换算子操作和转换RDD，对于WordCount而言，首先需要从输入数据中

每行字符串中解析出单词，水草玛瑙然后将相同单词放到一个桶中，最后统计每个

桶中每个单词出现的频率，举例如下：

valresult=p{case(key,value)= ng().split( s+ }.map(word=

(word,1)).reduceByKey(_+_)

其中，flatMap函数可以将一条记录转换成多条记录（一对多关系），map函数将一条记录转换

为另一条记录（一对一关系），高山茶 uceByKey函数将key相同的数据划分到一

个桶中，并以key为单位分组进行计算，这些函数的具体含义可参考：Spark Transformation。

步骤4：将产生的RDD数据集保存到HDFS上。可以使用SparkContext中的saveAsTextFile哈

数将数据集保存到HDFS目录下，默认采用Hadoop提供的TextOutputFormat，每条记录以

（key,value）的形式打印输出，你也可以采用 saveAsSequenceFile函数将数据保存为

SequenceFile格式等，举例如下：

SequenceFile(args(2))

当然，一般我们写Spark程序时，需要包含以下两个头文件：

._importSparkContext._

WordCount完整程序已在 Apache Spark学习：利用Eclipse构建Spark集成开发环境一文中进

行了介绍，在次不赘述。

需要注意的是，指定输入输出文件时，需要指定hdfs的URI，比如输入目录是

hdfs:hadoop-testtmpinput，输出目录是hdfs:hadoop-testtmpoutput，其中， hdfs:hadoop-test 是由

Hadoop配置文件core- 中参数指定的，具体替换成你的配置即可。

2. TopK编程实例

TopK程序的任务是对一堆文本进行词频统计，并返回出现频率最高的K个词。如果采用

MapReduce实现，则需要编写两个作业：WordCount和TopK，而使用Spark则只需一个作业，

其中WordCount部分已由前面实现了，接下来顺着前面的实现，找到Top K个词。注意，本文

的实现并不是最优的，有很大改进空间。

步骤1：首先需要对所有词按照词频排序，如下：

valsorted={case(key,value)= (value,key);exchangekeyandvalue}.sortByKey(true,1)

步骤2：返回前K个：

valtopK=(args(3).toInt)

步骤3：将K各词打印出来：

h(println)

注意，对于应用程序标准输出的内容，YARN将保存到Container的stdout日志中。在YARN中，

每个Container存在三个日志文件，分别是stdout、stderr和syslog，前两个保存的是标准输出

产生的内容，第三个保存的是log4j打印的日志，通常只有第三个日志中有内容。

本程序完整代码、编译好的jar包和运行脚本可以从这里下载。下载之后，按照 Apache Spark

学习：利用Eclipse构建Spark集成开发环境一文操作流程运行即可。

3. SparkJoin编程实例

在推荐领域有一个著名的开放测试集是movielens给的，下载链接是：datasetsmovielens，该测

试集包含三个文件，分别是、、，具体介绍可阅读：，

本节给出的SparkJoin实例则通过连接和两个文件得到平均得分超过4.0

的电影列表，采用的数据集是：ml-1m。程序代码如下：

._importSparkContext._objectSparkJoin{defmain(args:Array[String]){if(args.l

ength!=4){println( unt master rating movie

output )return}valsc=newSparkContext(args(0),

WordCount ,( SPARK_HOME ),Seq(( SPARK_TEST_JAR )))Readratin

gfromHDFSfilevaltextFile=le(args(1))extract(movieid,rating)valrating=(line=

{valfileds=( :: )(fileds(1).toInt,fileds(2).toDouble)})valmovieScores=yKey().ma

p(data=

{valavg=data._a._(data._1,avg)})ReadmoviefromHDFSfilevalmovies=le(args(

2))valmovieskey=(line= {valfileds=( :: )(fileds(0).toInt,fileds(1))}).keyBy(tup=

tup._1)byjoin,weget movie,averageRating,movieName valresult=(tup=

tup._1).join(movieskey).filter(f= f._2._1._2 4.0).map(f=

(f._1,f._2._1._2,f._2._2._2))TextFile(args(3))}}

你可以从这里下载代码、编译好的jar包和运行脚本。

这个程序直接使用Spark编写有些麻烦，可以直接在Shark上编写HQL实现，Shark是基于Spark

的类似Hive的交互式查询引擎，具体可参考：Shark。

4. 总结

Spark 程序设计对Scala语言的要求不高，正如Hadoop程序设计对Java语言要求不高一样，只

要掌握了最基本的语法就能编写程序，且常见的语法和表达方式是很少的。通常，刚开始仿照

官方实例编写程序，包括Scala、Java和Python三种语言实例。

原文链接：framework-on-yarnspark-scala-writing-application

【编辑推荐】

Linux环境下C编程指南

本书系统地介绍了在Linux平台下用C语言进行程序开发的过程，通过列举大量的程序实例，

使读者很快掌握在Linux平台下进行C程序开发

发布者：admin，转转请注明出处：http://www.yc00.com/web/1712738597a2113582.html

数据进行语言实例开发

admin

网站建设
Microsoft office 办公工具 OneNote同步冲突、同步失败问题解决，以及导入印象笔记数据
一、OneNote 功能很强大，界面也很友好，跟平时用的office办公软件都十分类似，符合习惯，但由于云笔记需要数据库服务器Onedrive&
admin
1月前
20
网站建设
2024第二届“pangushi杯”全国电子数据取证大赛总决赛-备注
01 — 手机取证 1、分析安卓手机检材，空闲的磁盘空间是多少：[答案格式：3.12GB][★☆☆☆☆] 146.34 GB 2、分析安卓手机检材，
admin
1月前
80
网站建设
u盘恢复数据，快速找回删除文件，请认准这4招
U盘，作为我们日常生活中常见的存储工具，里边可能放着工作文档、学习资料或拍摄的美照。如果你在电脑上使用U盘时，不小心将数据删除了，该怎么办呢&#
admin
1月前
40
网站建设
U盘中毒后文件乱码？数之寻软件助你高效恢复数据
一、U盘中毒与文件乱码的困扰在数字化时代，U盘作为便携式存储设备，广泛应用于数据传输与备份中。然而，U盘在方便我们生活与工作的同时，也面临着诸多安全
admin
1月前
50
网站建设
u盘删除的文件怎么找回？3个策略，恢复数据乐开颜
U盘常常是打工人必备工具，方便我们携带、传输、备份和存储各种重要的数据。但失误经常发生，导致其中的数据“一贫如洗”。u盘删除的文件怎么找回呢？有什么简单快速的方法帮助恢复&a
admin
1月前
50
网站建设
1800亿参数，支持中文，3.5万亿训练数据！开源类ChatGPT模型
这个必须推荐一下：1800亿参数，支持中文，3.5万亿训练数据！开源类ChatGPT模型阿联酋阿布扎比技术创新研究所（Tech
admin
1月前
50
网站建设
Python-记一次U盘中病毒及文件找回_python恢复u盘数据(1)
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了
admin
1月前
20
网站建设
数据销毁，确保硬盘数据无法恢复
数字化时代，数据的价值不言而喻，保护数据安全不仅仅是防止数据丢失，我们还要知道如何防止数据泄露。比如，当我们不再需要某些数据时，要
admin
1月前
20
网站建设
世界各国浏览器语言代码本地化对照表
阿尔巴尼亚语 [sq] 阿尔巴尼亚语(阿尔巴尼亚) [sq-AL]阿尔萨斯语 [gsw]阿尔萨斯语(法国) [gsw-FR] 阿拉伯语 [ar] 阿拉伯语(阿尔及利亚) [ar-DZ]阿拉伯语(阿联酋) [ar-AE]阿拉伯语(阿曼) [a
admin
1月前
10
网站建设
shp地图如何导入奥维地图手机_奥维地图如何导入路线数据？
【www.520z-2 - 话题作文】篇一:《手机奥维互动地图使用经验以及操作指南》手机奥维互动地图使用经验以及操作指南(支持IOS、Android、WP8) 作者：[路游] (@[路游]，若介意侵权请联系，告知后立即删除) 来源：新丝
admin
1月前
50
网站建设
主数据如何成就业务？深入剖析与实际应用
想象一下,你正在经营一家跨国连锁咖啡店。每天,全球数千家门店都在使用你的品牌,制作相同的饮品,为客户提供服务。但是,你突然发现一个问题:纽约的"拿铁"和东京的"拿铁"配方似乎不太一样。更糟糕的是,你的
admin
1月前
90
网站建设
使用 ReclaiMe Pro 恢复群晖 Synology NAS 设备数据
ReclaiMe Pro 软件提供对复杂阵列的分析及恢复功能。对于复杂的智能存储设备 ReclaiMe Pro 提供了一键式识别阵列信息的功能。为用户免去了使用其他数据恢复软件所要求的复杂软件应用技巧。如何使用 ReclaiMe Pro
admin
25天前
60
网站建设
Curl【实例 01】curl下载使用及cmd实例脚本分享（通过请求下载文件）
Curl 官方下载地址可下载不同平台不同版本的安装包，本次使用的是Windows解压版本curl-8.0.1_9-win32-mingw.zip。curl下载使用及cmd实例 1.是什么1.1 curl1.2 b
admin
25天前
20
网站建设
西门子PLC密码保护与解除功能,保护数据安全的实用指南
今天我们主要对西门子主流PLC系列S7-1500、S7-1200、S7-200 SMART的密码保护与解除进行简介，通过不同的保护等级配置，用户可以控制对PLC的访问权限，确
admin
24天前
40
网站建设
影刀---实现我的第一个抓取数据的机器人
你们要的csdn自动回复机器人在这里文末哦！ 这个上传的资源要vip下载，如果想了解影刀这个软件的话可以私聊我，我发你目录 1.网页对象2.网页元素3.相似元素组4.元素
admin
24天前
40
网站建设
Oracle数据库分别在WindowsLinux环境下普通数据泵方式导入导出示例
1 Linux普通导出入1.1 终端下导出 exp userpwd192.168.100.100dbPro owner(mm_app,mm_sys) fileorabackupdb_201408131200.dmp log or
admin
22天前
20
网站建设
C语言windows系统库，windows.h
1.弹出对话框首先调用Windows.h这个头文件 #include<windows.h> 接下来调用MessageBox(1,2,3,4); 第一个参数设置为0，第一个参数是依赖的窗口的编号&#
admin
8天前
40
网站建设
Windows下vscode配置C语言编程环境（初学者入门超详细）
目录一、前言二、配置环境 2.1 下载MinGW 2.1.1 通过MinGW官网下载 2.1.2 直接点击下方链接下载 2.1.3 解压文件 2.2 配置环境变量 2.2.1 配置环境变量 2.2.2 测试环境变量
admin
8天前
40
网站建设
配置windows C语言环境
配置c语言运行环境下载mingw-w64 在线安装.exe文件。mingw-64 file 然后，双击“mingw-w64-install.exe”，就出现安装提示框。 x86_64&
admin
8天前
30
网站建设
使用Charles抓包Android App数据
版权归作者所有，如有转发，请注明文章出处：https:cyrus-studio.github.ioblog 抓包环境准备 1. 下载安装charles charl
admin
8天前
20

发表回复

评论列表（0条）

暂无评论

利用Scala语言开发Spark应用程序

发表回复

评论列表（0条）

联系我们

400-800-8888

利用Scala语言开发Spark应用程序

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888