600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > 数据安全技术讲堂 |基于流处理的大数据多层切片和分析应用

数据安全技术讲堂 |基于流处理的大数据多层切片和分析应用

时间:2021-03-07 00:07:17

相关推荐

数据安全技术讲堂 |基于流处理的大数据多层切片和分析应用

在各行业数据规模呈TB级增长的大数据时代,如何确保网络数据的完整性、可用性和保密性,不受到信息泄漏和非法篡改的安全威胁影响,已成为政府机构、事业单位信息化健康发展所要考虑的核心问题。

安全监测作为网络安全的核心环节,在数据的监测方面,发挥着重要作用,可如何提高安全监测的能力,一直是困扰研究人员的难题,思维世纪安全研究团队攻坚克难,找到了解决这一难题的核心,研究出基于流处理的大数据多层切片技术,在采用该方法后使得监测能力大大提高,下面就该技术做一简单介绍:

技术背景

1

随着大数据业务高速发展,流处理技术在大数据分析,特别是网络安全的大数据应用上逐步发挥出重要作用。传统的网络安全设备和平台基于网络包处理、流量特征分析,结合特征库和专家系统,能否发现并抵御一定的异常行为,但对网络传输的数据内容的识别能力不足(基于包过滤),对新型攻击行为的甄别响应迟缓(基于特征库)。

在此背景下,基于大数据的安全监测系统得以发挥其新鲜度高、分析能力强、响应迅速的特点,使得网路安全应用正在向大数据时代迈进,并在态势感知、行为监测等方面取得了一定建设成果。

现状分析

2

现有的大数据处理系统可以分为两类:批处理大数据系统与流处理大数据系统。以Hadoop为代表的批处理大数据系统需先将数据汇聚成批,经批量预处理后加载至分析型数据仓库中,以进行高性能实时查询。这类系统虽然可对完整大数据集实现高效的即席查询,但无法查询到最新的实时数据,存在数据迟滞高等问题,无法满足网络安全快速响应的目标。相较于批处理大数据系统,以Spark Streaming、Storm、Flink为代表的流处理大数据系统将实时数据通过流处理,逐条加载至高性能内存数据库中进行查询。此类系统可以对最新实时数据实现高效预设分析处理模型的查询,数据迟滞低。

其中在实现大数据流处理时,一般采用成熟的流处理组件,如Spark Streaming、Storm、Kafka等技术,并基于该组件的原生数据切片能力,对数据单元进行简单数据分类,甚至不做分类,继而转入数据分析过程,虽然一定程度上降低了流处理的时延,但给后续的数据分析过程带来了建模复杂、计算开销大等问题,并牺牲了分析精准性。

实现原理

3

思维世纪引入Storm大数据流处理技术的基础上,利用Storm自身的“字段分组”能力(而同类流处理组件Spark只支持按时间分片),结合Storm计算单元的数据处理和分发能力,构建“三层数据切片”架构,实现更精细化的数据流切片,用于后续多样化的数据模型分析。

具体而言,首先利用Storm自身的流分组(Stream grouping)功能,按“应用层协议”(如HTTP、FTP等)对数据流进行分组切片,并将不同协议的数据流传递给下一级分组计算单元(Grouping bolts);

之后分组计算单元再筛选不同目的IP、源IP数据进行第二次、第三次数据切片,最终得到按“四元组”(协议、源IP、目的IP、业务URL)分组后的若干数据流切片,并传递给数据分析层。

同时,为解决Storm自身静态拓扑(Topology,即计算单元数据传递关系,必须预先定义,一经执行无法改变,直到该Storm节点停止运行)的特性与IP数据动态变化之间的矛盾,系统引入Zookeeper Cluster用于动态创建二级切片节点。

最终,Zookeeper Server根据拓扑配置信息(包含一类协议名、一个目的IP和一个源IP数组,数组中包含所有源IP,业务URL),利用平衡算法分配若干计算节点(Node),完成后续第三级数据动态切片,以及后续的数据分析。此时,Zookeeper Server收到一个新的拓扑配置(此时协议名、目的IP固定,源IP数组中的IP有变化),即创建一个新的计算节点(应对新的IP数据),同时利用Zookeeper临时节点(EPHEMERAL)的特性自动删除被弃用的计算节点。

图1 .“动态切片”技术

技术优点

4

本方案的优势在于精细化数据切片、快速横向扩展、大流量处理能力。

01

精细化数据切片

利用三层切片技术,完成了对网络流量包的初步筛选分析,方便后续的数据分析过程针对不同类型的网络协议进行更精准的数据分析建模,为后续数据分析做了良好铺垫。

02

快速横向扩展

支持快速的横向扩展,利用动态的拓扑配置,创建若干分组节点,在保证硬件性能足够的前提下,快速应对流量增加的变化。

03

大流量处理能力

实际运行中,在不增加现有计算硬件的基础上,将流量接入能力从1Gbps提升到了10Gbps以上,设备投入数量减少10倍,解决了以前覆盖范围小、投入设备多、横向扩展难等问题。

End

您的每个在看,都是对思维世纪的喜欢!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。