2024年1月10日发(作者:)
粘学术论文ADHESION接Academicpapers技术创新与交流收稿日期:2020-11-30作者简介:董晋(1982-)男,汉族,山西太原人,本科,工程师,研究方向:测绘与地理信息系统。基于云架构的地质测绘管理系统构建董晋(中晋环境科技有限公司,太原030000)摘要:为了解决地质测绘工作中所产生的海量数据,运用我国的大数据技术,建议构建基于Hadoop架构的地质测绘管理系统。为了该系统的作用能够充分实现,在系统中运用Hadoop框架的思想和技术,该系统由存储层、物理层和数据层等7层所组成,应用HDFS文件管理子系统对大量数据进行集中管理;为了提升该系统的运算效果和速度,采用MapReduce框架模型来实现大规模数据集的并行运算。构建完成后将该系统进行部署测试,测试结果显示系统逻辑明晰、易于实现,能够在地质测绘工作中发挥实用价值。关键词:Hadoop框架;HDFS;地质测绘管理中图分类号:P623;P208文献标识码:A文章编号:1001-5922(2021)03-0166-05ConstructionofGeologicalSurveyingandMappingManagementSystemBasedonCloudArchitectureDongJin(ZhongjinEnvironmentalTechnologyCo.,Ltd.,Taiyuan030000,China)Abstract:Inordertosolvethemassivedatageneratedingeologicalsurveyingandmappingwork,usingthebigda⁃tatechnologyinChina,itissuggestedtobuildageologicalmappingmanagementsystembasedonHadooparchitec⁃rtofullyrealizethefunctionofthesystem,theideaandtechnologyofHadoopframeworkareusedintioneffectandspeedofthesystem,MapReduceframeworkmodelisusedtorealizetheparalleloperationoflarge-systemlogicisclear,easytoimplement,ds:Hadoopframework;HDFS;geologicalmappingmanagement随着地质测绘工作的开展和深入,对于如何提升测绘工作中的检索效率和对产生的大量数据进行管理,是测绘工作中需要解决的问题。我国常用依托关系型数据库对测绘工作中产生的数据进行管理,再对数据检索系统和管理模块进行构建,进而提高数据的存储。在地质测绘工作中,包括了关系型数据和各类异构数据。对此,传统的测绘数据管理方法在如今的temiscomposedof7layersincludingstoragelayer,heconstructioniscompleted,thesystemisdeployedandtested,thetestresultsshowthatthemanagementsubsystemisusedforcentralizedmanagementoflargeamountofdata;Inordertoimprovetheopera⁃测绘界已不适用。在云计算技术兴起的当下,Hadoop框架不仅能够存储大量数据,也能储存种类不同的数据,因此成为了当前的应用热点。例如潘云(2020)和王永才(2020)会将Hadoop框架运用与系统构建以及数据挖掘工作中,以此来提升挖掘数据的效率和系统的运行效率。不难看出,Hadoop技术逐渐受到了人们的关注,因此本文以Hadoop为前提,提出了166
技术创新与交流Academicpapers学术论文粘接ADHESION基于大数据对地质测绘产生大量数据的存储及管理方案,在该方案的基础上对该系统进行了设计。1Hadoop框架由于地质条件的差异性,造成了地质测绘数据的多样性、异构性、随机性、非线性、相关性等特点。因为地质测绘的数据具有多样性,例如地质元素、构造和地质形成等。因此,从以上分析来看,地质测绘管理系统应当兼具多维度、结构化与非结构化并用等特性。HDFS文件管理系统采用分布式架构设计,能够顺序访问机构化、非结构化数据,对于硬件条件的要求较低;HBase数据库对于硬件条件的要求较高,能够快速随机访问数据。显然,将HDFS系统与HBase数据库进行结合,则能够更好地实现海量地质测绘数据的存储、访问及管理。对此,本文利用HDFS系统来存储地质测绘数据。其中,当地质数据量过多时可直接存储到HDFS系统,体量较小的地质数据直接经过文件合并再存储到HDFS系统。利用HBase数据库来存储地质数据条目的索引信息,从而实现两类文件管理系统的结合。当一个HDFS文件发生变化,与之相对应的HBase索引数据也会同步更新,从而提升数据检索效率。具体架构示意图如图1所示。(安装、部署、Ambari配置和管理工具)(数据仓库Hive)(数据流处理Pig)(数据挖掘库Mahout)(数据仓库Hivc2)(数据流处理Pig2))具u工)mu集l)冬库据F收志re服e数旧(psa(分布式离线计算框架MapReduce)(DAGilTez算框架)(流式计算框架Storm)e作B式ek协H)式布ooZ布分时具分实工.pI(((集群资源管理系统YARN)oToqES库据(分布式文件系统HDFS)数(Fig.1图Hadoop1HadoopHadoop架构的特点有以下system系统架构3architecture点:普通1PC)分布式文件管理系统服务器集群中,内置流式访问接口,嵌入HDFS:该系统可部署在实现可靠的数据存储功能,而且其数据访问速率优于集中式文件管理系统。此外,HDFS系统的容错能力强,且支持跨平台移植。2)分布式处理模型MapReduce:该模型集中了Map彼此独立的子任务,然后引用计算处理节点对各子任与Reduce机制,能够将复杂问题简化分解为多个务进行高效处理,整体上保证了对于海量数据的处理功能。此外,MapReduce模型利用数据/代码互定位技术切断了各节点间的联系,从而为单项任务的处理创造了条件;MapReduce模型还为系统开发中的系统层设计提供了技术支持。式数据库,3)非关系型数据库HBase可用于存储半结构化、非结构化的HBase:作为一种新型的分布松散数据,并且通过主键range实现了快速检索功能,在应用中表现出性能优越、实时读写等优势特征。2地质云计算平台技术框架针对Hadoop特点和测绘管理系统的业务进行分析,把系统整体架构分成存储层、物理层和数据层等,架构示意图如图2所示。客户端应用层网络层Internet接口层云服务端QueryingDataPreprocessorMapReduceQueriesandRulesAmlyzer逻辑层ReasoingandGraphQueryEngineGeenatorPlanQuergSolutionPattemReaultModifyerProcessorMapReduceTableaulReasonerMapRedbuceReasonerSWRLDataConstrucAdaptertor数据层HBaseHBaseHBaseHBaseHBase存储层HDFSHDFSHDFSHDFSHDFS物理层PCPCPCPCPCPCFig.2Hadoop图2本系统的architectureHadoopof架构thesystem源,除了实现通信、数据传输等功能外,还为上层提1)物理层。物理层是系统架构的底层硬件资供存储、运算资源。据库的数据存储层负责地质测绘数据的存储管理、查2)存储层及数据层。基于HDFS系统和HBase数询检索,在系统架构下实现了数据输入、云存储、日志记录、数据迁移、安全管理、索引等服务。doop3)逻辑层。基于MapReduce模型的逻辑层是Ha⁃处理器、接口分析机、查询引擎等角色,对于系统运系统框架的核心层,在系统框架内充当着数据预167“一次写入、多次读取”的文件访问模型,不仅能够
粘学术论文ADHESION接Academicpapers技术创新与交流行发挥着重要作用。算法对子网之间的通信进行控制,包括信息传输、数4)网络及接口层。网络及接口层利用路由选择据维护、连接切断等,在系统架构内实现了查询检索、算法接口、空间分析等功能。直接面向用户,为用户提供数据挖掘、数据分析、数5)应用层。应用层位于Hadoop架构的顶端,它据操作、资源调控等服务,并且对各项服务进行统筹协调,在系统架构内实现了网络、应用程序与用户之间的联结功能。3系统设计与实现3.1地质数据云存储设计与实现因为地质测绘数据具有体量大、种类多的特点,本文采用HDFS文件管理系统对数据进行存储。与集中式数据库Oracle作对比,本文选用的HDFS系统将地质数据分散存储于Hadoop集群中,这种独特的存储管理方式有效保障了地质测绘数据的高效处理和安全存储。由于地质测绘文件是由许多个子文件构成的,每一个子文件的体量并不大,若是将这些子文件进行单独存储,必然会大幅度降低数据处理效率,因而需要利用其它方法对小文件进行预处理。对此,本文设计了小文件合并算法,首先对多个小文件进行合并,然后再存储于HDFS中,在MapReduce模型的配合下,能够实现高效的数据处理功能。具体实现如下图所示。输入数据基础地质矿产资源……环境地质数据预处理(小文件合并)DataNode……DataNodeN块1块12DataNode块3块12块2块2块n块3块n块3块n块1Map1Map2Map3MapnReduce输出数据Fig.3根据Cloud图3HDFSstorage基于HDFS的存储特征,结合地质测绘数据的特ofgeological的地质数据云存储databasedonHDFS点,需要对地质测绘小文件进行合并处理,从而更加安全、高效地存储于HDFS中。HDFS采用数据块(Block)管理方式,一个Block的体量介于64~128MB之168间。如若不对小文件进行合并处理,则一个小文件就会占用一个Block,导致Block数量激增,继而使得NameNode处理速率。对此,在清理冗余小文件的同时,还需对小在运算过程中占用大量内存,并且严重拉低Hadoop文件进行合并处理,从而保持Hadoop集群的高效运行。3.2地质数据MapReduce的计算模型设计与实现测绘数据进行排序,并从中提取出有价信息,在此MapReduce并行编程模型按照Key对海量地质基础上对原始数据进行打包处理,并以打包后的升了系统运算效率。具体实现流程如图SequenceFile作为基础单位进行并行运算,整体上提4所示。文件1分区分区1分区23文件分区文件2分区1分区分区23ReduceTast1分区1分区23Reduce文件1Tast2分区分区1分区23文件分区文件2分区1分区23分区分区1分区23Fig.4图43.3系统负载平衡设计与实现WorkflowMapReduceof模型的工作流程MapReducemodel在Hadoop集群的运行过程中,总是会持续不断地进行着新建、检索、读取、分析、清除等操作,这使得集群内部不同DataNode上的磁盘空间使用率存在显著差别。在Hadoop集群内部DataNode上的磁盘空间已趋近于饱和的情况下,若是管理员继续增加一批DataNode,这一操作不会影响原有DataNode磁盘使用率,但却会出现新增DataNode磁盘使用率偏低的问题,从而破坏DataNode运算。因此,有必要引用某种机制来维持集群中吞吐量的负载平衡,并且影响数据I/ODataNode的并发数据的均衡态,避免出现少数DataNode密集承载数据请求的情况,这不仅能够提高用户响应速率,而且能够防范因某一DataNode失效而造成系统宕机的风险,从而有效改善了Hadoop集群性能。对此,在Hadoop系统中内置了一套基于数据均衡算法的平衡(Balancer)机制,其命令符是Hadoopbalanc⁃er[-threshold
技术创新与交流Academicpapers学术论文粘接ADHESION评估,并且维持DataNode数据处于均衡状态。在以上命令符中,“threshold”指的是平衡阈值,其取值范围是0~100%小,则需要投用更多资源和时间来实现。在执行Balancer机制时,若设定的DataNodethreshold数据的值过均衡分布。Balancer机制的实现步骤为:DataNode1)RebalancingServer调用NameNode对计算出Hadoop数据的分布情况进行评估,并根据评估结果集群的整体空间利用率以及各个DataNode据,结合2)Rebalancing节点上的磁盘利用率。threshold值对ServerDataNode确定待迁移的进行分类,规划出最DataNode数佳的Block迁移路线。行Block3)在遍历各迁移的目标结点,然后开启DataNode结点以后,找寻到适宜进Block迁移过程。Block4,然后粘贴至目标)ProxySourceDataDataNodeNode复制一块待迁移的5节点。发出迁移任务完结信号。6))将原始目标DataNodeBlock清除,避免数据库冗余。节点向ProxySourceDataNode出迁移任务完结信号。在完成一轮7)ProxySourceDataNode向RebalancingDataNode数据迁移过Server发程以后,若Hadoop集群仍未达到负载均衡标准,则需要再次执行Balancer机制。根据经验,在进行5轮迭代以后,Hadoop集群通常即可实现负载均衡。在评价各DataNode节点的负载时,本文选用了带宽利用率NUi、内存利用率MUi、CPU利用率CUi量,并根据主观经验赋予各项参量以特定的权值,在此等三个参基础上求解出Hadoop集群的总负载:XXCU×NU1×CUi+X2×MUi+3i。需要说明的是,根据主观经验对参量NUi、MUi、i得评估结果也难免与实际情况存在偏差。进行赋权,这一方法虽然简易但不够严谨,由此所针对于此,本文利用信息熵算法来确定各DataNode础,通过衡量一个随机变量出现的期望值,同时兼顾节点的负载值,该算法以实际负载值作为基指标的变异性,最终客观确定权重大小,以上过程摆脱了主观经验的干扰。依据信息熵算法,指标值的变异程度越小,指标信息熵越大,则该指标的作用越小,其所对应的权重越小;反则反之。设定DataNode节点i的虚拟机数量为ni,那么,njj该节点所对应的三项分量依次是CUj=1i=∑Cn、injjjMUj=11i=∑MMT、NUi∑njNj=i=NT。i套用信息熵算法,执行以下运算过程:们的属性值构成的决策矩阵1)假定存在n个属性X1P、。X2……、Xn,构建由它éCUMUNUP=êêêêCU12MU1NU1ùêêëCU⋯⋯2NU⋯2úúúúúúnMUnnû阵Q。2)对矩阵P执行归一化处理,由此建立决策矩éQ=êr11r12r13ùêêêêêë⋯r21r22r23úúúú其中rCUiMUii1=n,ri2=n/r⋯⋯úún1rn2rn3û∑CUIMUIi=1∑i=1ri3=∑NUin。NUIi=13)求解出熵Emj:Ej=-2,3...,n,显然,0ln14)如果(rEn∑rijlnrij,其中j=1,i=1j1。1jEj=1;如果(r5)1j,⋯求rmj)解=出(0,⋯0,1,0,⋯,⋯rmj)=(1/m属性X),⋯1/,那么m),E那么j=0;j对于方案的区分度:FF∑jj=1-Ej,并利用式Xj=n,j=1,2,3,...,nFkk=1求解出属性Xj6)最后计算节点的权值。i的负载:Load=x1×CUi+x2×MUi+x3×NUi。通过以上流程计算出各个节点的负载值,将负载值最大的节点设定为迁移虚拟机。4系统测试4.1虚拟机的安装设置根据VMware虚拟机的运行要求,用户需要在Windows后启用虚拟机10及以上版本的操作系统中进行安装,然workstation,嵌入VMwareESXi,最后在ESXi中部署Linux操作系统虚拟机。根据Hadoop架构的配置要求,Linux操作系统的版本及配置条件169
粘学术论文ADHESION接Academicpapers技术创新与交流是:6.x86-64,Ja⁃va1.7.0-91,Hadoop2.7.2。4.2地质测绘系统测试务器的均衡。而测试结果也表明,在本服务集群下,本系统下载文件的耗时时间明显较短,由此验证了本系统构建的可行性。而通过以上构建,也为地质测绘数据的存储等提供了新的方式。参考文献为对系统性能进行测试,在eclipse中编写代码,并对平台上传和下载对应函数的执行时间进行计算。通过前端页面对事件进行上传、下载和记录操作时的起止时间。由此,得到表1的结果。根据结果看出,当文件大小100M时,上传速度达到毫秒级;当文件大于500M时,上传速度在10s之内;当文件大于1G时,上传时间约60s。当文件大小>2G时,上传的速度会更慢。由此看出,当文件大小不断增大时,上传文件的速度也会增加。表1上传与下载文件的耗时Tab.1Timeconsumptionofuploadinganddownloadingfiles文件大小23MB78MB470MB980MB2.4GB上传耗时00:00.16400:00.75400:07.48900:56.24201:48.664下载耗时00:00.28400:01.22200:05.19400:09.17900:24.675[1]王永才.基于Hadoop平台的用电行为数据特征挖掘方法[J].自动化与仪器仪表,2020(11):227-230.进[J].生命科学仪器,2020,18(05):59-65.[2]潘云.基于Hadoop技术的疗养中心信息化建设与改[3]阮志敏,李明,唐菲菲基于移动互联网平台的公路地质测绘系统研发[J]公路交通技术,2019,35(06):1-5.研究[J]西部交通科技,2019(10):162-165.[4]赵继新基于Hadoop的交通物流数据仓库构建技术[5]金国栋,卞昊穹,陈跃国,等.HDFS存储和优化技术研究综述[J].软件学报,2020,31(01):137-161.[6]蔡艳婧,王强,程实.基于分布式集群的网络浏览行为2019,14(01):1-7.大数据分析平台构建[J].中国电子科学研究院学报,[7]杨莲,郭良君,马磊,等.大数据环境下hadoop分布式医院统计,2019,26(01):75-78.在文件下载方面,当文件大小为30M时,下载所需时间为284μs;在文件大小为2.4GB时,下载所需时间为24s659μs。从该测试结果来看,即便是大于2GB的数据,下载所需时间仍可控制在秒级。因此,单个文件的下载所需时间能够满足地质测绘数据下载要求。文件系统分散式动态副本存储优化策略研究[J].中国[8]黄丽娟,邹文君,吴凡.基于HDFS的高校教学实践信息资源整合系统设计[J].现代电子技术,2019,42(19):18-22.制工程,2019,26(10):1882-1891.[9]崔美姬,李莉.大数据环境下的管理决策研究[J].控[10]鲁志芳.基于Hadoop技术的大数据分析应用系统的研究与设计[J].电子设计工程,2019,27(16):11-14+19.5结语通过以上研究看出,在Hadoop集群下,能大量存储海量的地质测绘数据。同时通过Balancer机制实现了集群负载的平衡,很好的实现了地质测绘系统服(上接第131页)用下结构应力法焊接结构抗疲劳性能研究[J].大连交通大学学报,2019,40(01):43-48.[3]许立宁,张颖怀,路民旭.有机粘结剂/金属粘接界面疲劳断裂机理研究[C]//第十五届全国疲劳与断裂学术会议摘要及论文集,2010.[4]李旺旺,梁庭,张迪雅,等.表面处理对碳化硅直接键合的影响研究[J].仪表技术与传感器,2016(7):12-14.[5]uche,ui,rfacedebondinglawsubjecttoviscousregularizationforavoidinginstability:Applicationtothedelaminationproblems[J].En⁃gineeringFractureMechanics,2007,75(10):3084-3100.[6]a,ves,veandcontinuummixed-modedamagemodelsappliedtothesimulationofthemechanicalbehaviourofbondedjoints[J].InternationalJournalofAdhesion&Adhesives,2008,28(8):419-426.[7]韩亚利.质量统计过程控制SPC技术及其应用[J].长沙航空职业技术学院学报,2009,9(1):48-52.[8]马敏莉.应用SPC技术对机械零件加工过程的管理和控制[J].机械设计与制造,2005(5):154-156.170
发布者:admin,转转请注明出处:http://www.yc00.com/web/1704840912a1377393.html
评论列表(0条)