大数据处理平台:网络安全攻防

随着互联网信息应用的普及,越来越多的企业和机构拥有大量的数据。这些数据的收集和分析主要取决于大型数据平台。数据经历了复杂的大数据处理过程,从收集到分析最终形成结果和可视化模型。以下主要介绍了大数据处理的基本过程和方法,以及当前的一般大数据平台。

通常分为4个步骤进行大数据处理。

1.采集数据。

数据采集,主要是指通过某种方式收集数据并存储在数据库中,用户可以通过数据库进行简单的查询和处理。例如,电子商务平台使用传统的关系数据库(MySQL、Oracle等)来存储每一个事务数据,或者使用NoSQL类型的数据库,如Redis或MongoDB。以下是一些常见的数据收集方法。

(1)采集系统日志的方法。

大型互联网企业一般都会开发自己的数据采集工具,多用于日志数据采集。比如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等。这些工具都是分布式结构,可以满足日志数据采集和传输的需要,每秒数百兆。

(2)采集网络数据的方法。

网络数据收集是指通过网络爬虫或网站公开API等方式,从网站中获取数据信息。该方式可从网页中提取非结构化数据,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持收集文件或附件,如图片、音频、视频等。

(3)采集数据的具体方法。

通过与企业或研究机构合作,使用特定的系统接口等相关方法,可以收集企业生产经营数据或研究数据等高保密要求的数据;也可以使用特定的传感器获取指定的数据,然后加密并传输到数据库中。

2.预处理数据。

因为数据信息搜集方式多种多样,数据信息种类繁多,搜集的数据信息具备多源异构特点,而且另外存有数据信息不全,有噪音,不一致等状况。因而,将搜集的数据信息开展统计分析或运用数据挖掘算法建模,都必须数据清理,即统一数据信息格式,提升数据信息品质,从而提高数据挖掘实际效果。

数据预处理的方法主要包括:数据清洗,用于去除噪音数据;数据集成,将多个数据源中的数据集成到一致的数据存储中;数据转换,将原始数据转换为适合数据挖掘的形式;数据规则,包括数据聚类、维度归属、数据压缩、数值归属、离散量化等。

3.数据统计分析。

为了满足后续的数据挖掘需求,统计和分析主要使用分布式数据库或分布式计算集群来总结和分析海量数据。常用的结构化关系数据实时统计分析工具,包括EMC的Greenplum、Oracle的EXadata、基于MySQL的列式存储Infobright;Hadoop可用于其他半结构化数据处理或非关系批处理。

4.机器学习和数据挖掘。

在数据统计分析的基本上,数据挖掘根据对数据信息进行高級剖析和模型运算,借助机器设备学习模型,最后产生数据处理的智能化决策。具有代表性的数据挖掘算法有K-means聚类,SVM预测方式,NA?vebayes分类等,大数据挖掘的一体化服务平台有HADOO的MAUT等。自Alphago问世以来,深层学习培训刚开始运用于各行各业的大数据信息领域,Google推出的深层学习培训一体化服务平台Tensoflow,大幅度降低了大数据应用深层学习培训的门坎。

淘宝、12306等大型平台的并发量非常大,采用了分布式大数据架构。Hadoop和spark是目前常用的大数据分布平台。

ApacheHaoop是以Google公司提出的Mapreduce和GFS文件系统为基础的支持数据密集型分布式集群计算应用开源软件框架。Hadoop框架可以为应用提供透明、可靠的数据分布式处理,即Mapreduce编程范式:应用被分区成多个小部分,每个部分都可以在集群中的任意节点上运行。同时,Hadoop还提供了一个分布式文件系统,用于存储所有计算节点的数据。Mapreduce和分布式文件系统的设计,使得Hadoop框架可以自动处理节点故障,应用程序可以与数千台具有独立运算的计算机共享数据。整个ApacheHadoop平台包括Hadop内核、MapReduce、Hdoop文件系统(HDFS)和Hdopop等数据处理工具。

Apacospark也是由加利福尼亚大学伯克利分校AMLAB开发的一个开源集群计算框架。Hadoop的Mapreduce节点需要在运行完成任务后将数据存储到磁盘中,而Spark使用存储内存运算技术,可以在硬盘数据尚未写入的情况下在内存中完成运算。Spark在内存中运行的计算速度是Mapreduce的100倍以上,即使在硬盘上运行,Spark也可以比Mapreduce快10倍以上。Spark允许用户将数据加载到集群内存中,并多次查询,特别适用于机器学习算法。

Spark支持与HDFS、Casandra、OpenstackSwift和Amazons3等分布式存储系统对接的独立模式(本地Spark簇),可以与HDFS、Casandra、Openstackswift和Amazons3等分布式存储系统对接。Spark还支持伪分布式(Pseudo-Distridbuted)本地模式,但在开发或测试过程中,通常只使用分布式存储系统来替换本地文件系统。

© 版权声明
THE END
喜欢就支持以下吧
点赞13
分享
相关推荐
  • 暂无相关文章
  • 评论 抢沙发
    源码客的头像-源码客

    昵称

    取消
    昵称表情图片