解决方案 > 万方大数据平台

基于云与大数据的解决方案资助企业乐成转型


1平台概述

当前数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,也是军事情报数据的重要来源,大数据将推动军队作战指挥的生长和创新,对付海量数据的运用将预示着新一波生产率增长和社会各行业厘革的到来,在全球已经全面进入信息时代的今天,据IDC预测,全球大数据市场范围有望在2017年达530亿美元,并在未来几年内依然保持30%以上的年复合增长率。迅速积聚的海量数据蕴含着重大的社会代价和军事代价,对付军队,大数据技能可以提高指挥决策效率、危机应对能力和作战水平,建立更高水平的信息化步队。
国产化大数据机主要针对国度面向大型企业应用的共性云盘算底子平台研制,用于生长具有自主可控的云盘算技能,提高峻数据挖掘与智能办事的能力。国产大数据机的研制切合国度信息宁静政策导向,从CPU芯片、办事器系统设计和制造到操纵系统、共性支撑软件、虚拟化技能和系统集群实现了完全国产化。
图1 国产大数据平台
国产大数据平台处于系统的平台办事层,是国产平台上定制开发的大数据处理惩罚软件,在国产大数据机集群上,通过虚拟化为大数据处理惩罚提供资源池,形成大数据处理惩罚集群,软件在集群上进行了充实的适配和优化,将检索查询、图算、呆板学习、数据挖掘、实时数据处理惩罚等模型统一到一个底子平台下,并以一致的接口API公然,提供种种业务应用信息引接,多源数据处理惩罚的国产大数据平台办事,并能提供种种大数据处理惩罚、阐发东西,对种种业务信息、多源数据做阐发、提取,为帮助决策系统提供有效支撑。

2 平台设计

WFCloud大数据平台主要解决漫衍式存储和盘算底层实现,接纳漫衍式集群做底层实现,利用漫衍式文件系统存储数据,利用漫衍式盘算实现大数据的任务处理惩罚,帮助使用内存盘算解决漫衍式盘算写文件系统带来的速度问题。对上通过提供种种数据存储、盘算以及挖掘接口,提供业务办事盘算和数据支撑,在具备海量数据的情况下可以专注业务开发而无需体贴底层数据组织方法,尤其是现有的一些基于Hadoop、HBase、Hive的步伐可以越发简单的迁移到国产办事器系统上。

2.1 平台架构

WFCloud大数据平台搭建在国产办事器上,在国产办事器上做了大量适配和优化,并凭据硬件特点进行架构重写,满足大数据国产化自主可控需求。其中主要针对大数据软件的可靠性、性能调优等方面着重进行了优化和提升。大数据平台在实际生产情况中尽可能的对所有软件都提供主从双机的HA形式,接纳主备或负荷分管配置,有效制止单点妨碍场景对系统可靠性的影响。提供大数据软件的自动化摆设东西,实现一键式安装步伐和一键式集群控制成果。大数据平台软件架构如下图所示。
图2 大数据平台软件架构

2.2.焦点组件

2.2.1 WFCloud大数据底子平台

WFCloud大数据底子平台基于开源大数据架构Apache Hadoop构建,可构建在国产集群上办事器,基于HDFS构建漫衍式文件系统实现海量存储,基于MapReduce框架实现漫衍式并行处理惩罚,结合主从备份架构实现系统高可用,为国产大数据处理惩罚系统提供漫衍式盘算和漫衍式存储能力,为上层数据库系统和其他应用系统提供平台支撑。
3 漫衍式存储架构
漫衍式存储是一个主/从(Master/Slave)体系结构,如上图所示。由于漫衍式存储的性质,存储集群拥有主备控制节点和若干数据节点。控制节点治理文件系统的元数据,数据节点则存储实际的数据。客户端通过与控制节点和数据节点的交互访问文件系统。客户端联系控制节点以获取文件的元数据,而真正的文件I/O操纵是直接和数据节点进行交互的。
WFCloud大数据底子平台通过冗余备份、副本存放、心跳检测、宁静模式、数据完整性检测、空间接纳、元数据磁盘失效和快照等要领可以有效保障漫衍式文件系统的可靠性。平台接纳Yarn作为资源治理系统,可以为种种应用步伐进行资源治理和调治。基于国产平台优化的MapReduce框架提供快速并行处理惩罚大量数据的能力,作为漫衍式数据处理惩罚模式以及执行情况。
WFCloud大数据底子平台针对差别的应用场景和差别的应用偏重点,如存储、离线盘算、漫衍式盘算等偏向,能够有针对性地对配置进行优化,具备高度的可定制性和扩展性。

2.2.2 WFCloud大数据内存盘算框架

WFCloud大数据内存盘算框架是基于开源框架Apache Spark构建,针对国产平台将其相关的集群软件、监控软件进行了重新定制开发。Spark是一个围绕速度、易用性和庞大构建的大数据处理惩罚框架。它提供了一个全面、统一的框架用于治理种种有着差别性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理惩罚的需求。Spark使用了内存内运算技能,能在数据尚未写入硬盘时即在内存内阐发运算。Spark项目主要由RDDs(弹性漫衍式数据集)、Spark SQL、Spark Streaming、Spark MLib和Spark GraphX这几个要素组成。
WFCloud大数据内存盘算框架的特点如下:
● 支持漫衍式内存盘算
● 支持迭代式的盘算
● 兼容Hadoop系统文件读写方法
● 盘算历程容错
● 支持多种语言开发应用(Scala/Java/Python)
● 盘算能力线性扩展
WFCloud大数据内存盘算框架是基于内存的迭代盘算框架(如图4所示),适用于需要多次操纵特定命据集的应用场合,如呆板学习,图挖掘算法以及交互式数据挖掘算法等。在盘算历程中需要重复操纵的次数越多,所需读取的数据量越大,受益越大,数据量小但是盘算密度较大的场合,受益则相对较小。由于弹性数据集的特性,不适用于异步细粒度更新状态的应用,例如Web应用办事的数据存储。
图4 内存盘算架构图
WFCloud大数据内存盘算框架中盘算的数据可以来自多个数据源,如Local File、HDFS等。WFCloud云盘算平台使用HDFS作为其底层数据存储,用户能够快速的从MapReduce切换到WFCloud大数据内存盘算框架,可以一次读取大范围的数据进行并行盘算。在盘算完成后,将盘算结果存储到HDFS中,WFCloud大数据内存盘算框架可以提供比MapReduce高10到100倍的性能。WFCloud大数据内存盘算框架作为盘算引擎,还支持小批量流式处理惩罚、离线批处理惩罚、SQL查询、数据挖掘,制止用户在这几类差别的系统中加载同一份数据带来的存储和性能上的开销。
在国产办事器与X86设备性能存在差距的情况下,接纳内存盘算框架能在一定水平上弥补MapReduce在执行性能上的缺陷,如中间结果输出、数据格式和内存漫衍、执行战略以及任务调治的开销等方面的提升。

2.2.3 WFCloud大数据库系统

种种型军事信息系统中,数据库支撑了种种类型数据的存储、查询和统计阐发等成果,但随着一些特定类型数据的数据量的不绝增长,如传感器、目标轨迹和日志信息数据等,已到达普通数据库存储和访问的极限,NoSQL数据库访问性能和存储拓展性方面的优越性成为解决问题的要害。干系型数据库不再是唯一选择,数据库领域正进入殽杂长期化时代,即接纳多种数据库解决方案,并使用差别数据存储模型,这种解决数据长期化存储问题的殽杂方法逐渐被接纳。
WFCloud大数据库系统(WFBase)基于开源数据库Apache HBase构建,是高可靠、高性能、面向列、可伸缩的漫衍式数据库,能够提供海量数据的存储成果,大抵架构如图5所示。大数据数据库基于One Rule Them All设计思想,用于处理惩罚半结构化和非结构化数据的存储和检索,为业务系统,数据堆栈构建和数据挖掘提供数据库级数据存储和检索,方便应用开发。系统紧密结合国产平台,充实发挥了硬件性能,提升了数据库系统的整体性能。


图5 WFBase架构
WFBase利用HDFS作为其文件存储系统,除了WFBase产生的一些日志文件,WFBase中的所有数据文件都可以存储在HDFS文件系统上。HDFS为WFBase提供了高可靠性的底层存储支持。
WFBase适合于存储大表数据(表的范围可以到达数十亿行以及数百万列),并且对大表数据的读、写访问可以到达实时级别,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。WFBase利用ZooKeeper作为协同办事,可使用WFCloud大数据内存盘算框架和MapReduce来处理惩罚WFBase中的海量数据。

2.2.4 WFCloud大数据堆栈

WFCloud大数据堆栈基于开源数据堆栈Apache Hive构建,主要提供类似SQL的语言操纵结构化数据存储办事和根本的数据阐发办事。WFCloud大数据堆栈为单实例的办事进程,提供办事的原理是将WQL编译解析成相应的MapReduce大概HDFS任务。
WFCloud大数据堆栈作为一个基于HDFS和MapReduce架构的数据堆栈(如图6所示),其主要能力是通过对WQL(WFCloud Query Language)编译息争析,生成并执行相应的MapReduce任务大概HDFS操纵。
WFCloud大数据堆栈主要特点如下:
l 海量结构化数据阐发汇总
l 将庞大的MapReduce编写任务简化为SQL语句
l 灵活的数据存储格式,支持JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFILE这几种存储格式
图6 数据堆栈架构图
WFCloud大数据堆栈包罗如下相关组件:
l 用户接口:包罗WFCloud shell,Thrift客户端,Web治理
l Thrift办事器:当WFCloud大数据堆栈以办事器模式运行时,可以作为Thrift办事器,供客户端连接
l 元数据库:通常存储在干系型数据库(MySQL、Derby等)中
l 解析器:包罗解释器、编译器、优化器、执行器,通过一系列的处理惩罚对HiveQL查询语句的词法阐发、语法阐发、编译、优化以及查询筹划的生成。查询筹划由MapReduce调用执行

3 案例

3.1 信息办事中心大数据融合平台

大数据融合平台摆设在网络上,主要为海量多源异构数据提供实时入库、实时检索、实时阐发等成果。同时提供漫衍式数据处理惩罚平台,具备流数据处理惩罚和数据挖掘能力。大数据融合平台数据处理惩罚层结构如下图所示:
7信息中心大数据融合平台框架
大数据融合平台基于漫衍式文件系统构建,集成Hadoop漫衍式盘算平台,支持传统MapReduce和内存盘算的漫衍式盘算架构,具有超强的漫衍式盘算能力,能支持从TB级乃至PB级数据的快捷、高效处理惩罚。
大数据融合平台的焦点为数据库系统,主要解决海量数据存储与海量数据高速检索两个问题。大数据融合平台基于SQL on Hadoop自主研制大数据数据库系统,解决结构化和非结构化数据存储,对入口数据进行实时索引,对数据进行阐发、支解、提取后将其存储在大数据数据库系统。同时紧密结合硬件平台,基于平台进行优化,充实发挥硬件性能,提升数据库性能。
数据处理惩罚层支持实时处理惩罚、流处理惩罚、图算以及数据挖掘,数据挖掘可以基于数据库中数据进行检索,处理惩罚和建模,支持数据的深度挖掘和商业智能阐发。

3.2 目标区气象保障系统

目标区气象保障系统是用于保障打击目标区域情况判定的专用系统。专用气象保障系统近17个子系统,由信息接收处理惩罚、精细化预报预警、决策支持、保障应用和业务支撑平分系统组成,各分系统的背景处理惩罚单位接纳国产设备。
气象数据是一类非常典范的非结构化数据,在实际应用中其日增量达数十TB。为满足该项目需求,创建一个集成种种应用办事、数据预处理惩罚、实时存储、快速检索、智能阐发以及二、三维可视化展示为一体的气象保障大数据处理惩罚平台。
气象保障系统软件框架如图所示:
8气象保障大数据平台应用拓扑
数据存储层是业务的重要部分,其中内存存储接纳内存数据库Redis进行集群搭建,对需要实时处理惩罚的数据进行有效快速处理惩罚;长期化存储接纳传统国产达梦数据库集群搭建,对需要长期化的数据进行存储备份,起到宁静防护作用;漫衍式文件存储接纳MongoDB数据库进行集群搭建,对非干系型数据进行快速有效存储,供多用户进行实时访问;近线存储由WFBase集群搭建,主要用于存储访问量不大且访问性能较高的应用,同时要求设备具有相当大的存储容量和灵活的集群伸缩性。
平台办事层为业务应用提供底子办事及系统平台,主要包罗国产云盘算大数据平台及国产二、三维地理信息系统平台。数据办事层针对具体应用可进行弹性插件式扩展。数据处理惩罚办事包罗数据分发、数据接收两部分。
业务可视化层是为用户提供数据阐发、推演的展示单位,通过国产终端可对气象数据实时阐发和办事监控。
整个气象保障系统焦点数据存储和处理惩罚部分主要利用WFCloud国产大数据平台构建,实现系统的国产化的同时保障了系统处理惩罚性能。

3.3某数据中心建立

该项目以国产申威大数据机和睿思操纵系统为底子平台,提供虚拟化和大数据处理惩罚技能,完成海量非结构化数据的存储和检索平台的搭建。为上层传统数据库应用、数据挖掘应用、数据可视化提供底层支撑。
漫衍式处理惩罚平台构建在国产申威大数据机集群上,利用神威虚拟化技能扩充集群范围,接纳漫衍式文件系统实现漫衍式存储,利用漫衍式盘算和Map Reduce设计实现漫衍式盘算框架,结合主从备份架构实现系统高可用,为国产神威大数据处理惩罚系统提供漫衍式盘算和存储能力,具体软件架构如图所示。
9 数据中心软件架构图
项目具体实施分为以下几步:
1)国产申威平台下的漫衍式处理惩罚平台的移植和优化;
2)利用WFCloud大数据平台构建漫衍式处理惩罚平台系统、WFBase数据库的具体实施、测试;
3)大数据平台搭建后,和国产神通数据库进行交互使用。提供相关数据挖掘和检索接口,提供底子平台应用系统移植支撑,提供数据交互模块接口;
4)与神通数据库配合完成数据库测试事情。
5)与南大通用配合完成GBase8A数据库测试事情。

3.4某学院申威大数据平台建立

该项目打造以国产申威大数据机和睿思操纵系统为底子平台,虚拟化和大数据处理惩罚技能为焦点支撑的国防大数据信息融合平台。
国防作为对宁静要求极高的行业,对自主可控软硬件尤为亲睐。申威大数据一体化解决方案,从硬件、操纵系统、大数据软件、虚拟化软件、应用接口几大部分均接纳国产自主可控技能,并融合宁静中间件和宁静数据库,为国防大数据建立新型信息化融合平台。
为满足某学院信息融合中心的国产化研制需求,需完成底子情况、平台应用以及系统办事三个条理的建立事情。其中,平台应用层中国产焦点应用支撑情况是较为重要的环节之一,包罗对底子库、底子中间件、底子开发运行情况、底子开发驱动等系统软件的融合搭建。WFCloud大数据底子平台、WFCloud大数据内存盘算框架以及WFBase系统基于国产自主可控软硬件底子情况(申威办事器)进行创建。结合国内化先进的云盘算大数据架构、技能,通过源码重构、软件架构重构,形成了申威大数据平台架构,大抵如图所示。
10 申威大数据平台架构
国产操纵系统依赖于国产硬件平台,但又有其特殊性。解决了开源Linux的移植、底子库移植、驱动的移植等问题,然后技能人员进行优化适配。国产焦点应用支撑情况就是为了创建一个用户反馈和技能人员优化的一个一体化平台。凭据用户对应用的指标需求,结合国产操纵系统开源底子软件的优化,解决用户使用的难题。