我想知道一个人的位置他这个交叉位置的数是怎么的出的,信息安全

安全大数据的7个V——大数据基础問题与信息安全的交叉探究

如果我们把大数据这个词作为一种新的计算理论、方法、技术和应用的综合体来看那么我们探讨大数据与信息安全之间的关系,就有两种方向:其一就是 如何用大数据来解决安全问题;其二,就是如何保障大数据的安全本文探讨的是前者,並且是通过对于数据根本属性的探究通过大数据基础科学问题的探究,结 合信息安全的根本原则和高端问题探讨大数据应用于安全的科学研究和产业开发重点课题。

谈大数据似乎总要从所谓的“3个V”或者“4个V”谈起自己很想免俗,却好像又没有其他更好的切入点也许这些个V还真的就是大数据的一些根本属性,是绕不开的一些基础问题

在大数据的V中,有些是常说的有些是不常说的,这里总結了7个V:


——Volume海量的数据规模;
——Velocity,快速的数据流转和动态的数据体系;
——Vast数据来自广大无边的空间;
——Variety,多样的数据类型;
——Veracity数据的真实和准确更难判断;
——Value,大数据的低价值密度;
——Visualize大数据可视化的重要性。

【我们需要多大的安全大数据】

在上面嘚这7个V中第1V的Volume表现的是大数据的所谓“大”的状态。

现在信息安全领域的常规市场和应用中所遇到的数据量还都到不了当前大数据所謂的PB级;TB级数据都是比较少的处理对象。而在城域网监控、网络宏观态势感知等应用中其实已经积累并且继续不断增加着大量的数据,將是大数据方法的重要用武之地

【时间轴上的安全大数据】

Velocity所代表的时间范畴,是大数据的重要来源

在当前常规的信息安全产品中,特别是具有代表性的检测响应类产品技术中大量采用实时检测;所谓“实时”当然体现了“快速”的内涵。而在带宽越来越 大、系统越來越复杂采集数据越来越多的同时,安全检测对于时间响应的即时性要求并没有减弱如果对于源源汹涌而来的数据不能及时处理,就將被数据淹没 (DoS)这就需要实时或准实时分析系统中采用更多的“流计算”方法。(流计算是区别对比于批量计算的方法)


课题:流计算在咹全分析中的应用


另外,“实时”常常还隐含着一个缺省的意思——主要根据当前数据(或者数据缓存)作出分析判断也就是说不大量保存长时间的原始数据(或者说时间窗口比较 窄)。而安全事件及其原因本身具有很长的时间跨越性(APT就是跨越长时间的缓慢***模式)這逼迫我们要存储更长时间的日志和网络流等原始数据;而当我 们开始存储更长时间的数据时,也发现了这些动态数据流通过“存储”而變成了静态的数据块于是并行计算、异步计算以及一些智能算法等就可以被应用于其上 了。


我们分析一些IT架构模型:比如Zachman将一个IT系统分荿数据、功能、人、网络、时间和动机等六个方面;再比如DOSH视角将一个IT系统分成数 据、操作、系统和人四个方面说一个很哲学化的结论:“所有的IT系统要素中,只有数据是能够穿越时间的”其他要素如功能、系统、人、网络、操作等等都 只能存在于当下;只有数据天然僦是可以从过去留存到现在,并且可以从当下延续到以后所以,任何一个以数据为核心的方法和技术都要在时间延展上下功夫。 所谓時间延展说得直白一点就是要在(英文同是Memory的)存储和记忆上下功夫。


课题:流数据的高速存储和分析问题(存储结构与分析方法具有罙度关联)

【空间上的安全大数据】

Vast所代表的空间范畴是大数据的三个重要来源之一。也就是从更多的空间位置采集大数据

任何一个***過程、任何一个安全事件蔓延过程都会涉及很多空间位置和空间范围,没有哪个安全问题是孤点问题那么在对一个多空间点的安全事件對象, 要进行更加充分的分析和发现当然是获得更多空间位置的采集数据会更好。数据采集点的增加当然会线性地增加安全分析的数据量而如果每个数据采集点所采集 的数据也比较大的话,那就更成为了一个分布式大数据问题


在空间范围内传输大数据是一个必须回避嘚操作,这样的传输会给网络带来灾难性的性能压力或者说根本不能考虑大数据的传输,而只能考虑将计算移动到数据旁 边也就是要進行分布式存储和分布式计算。这里面一个根本的问题就是“一个全局性安全问题是否可以分解为多空间位置的局部计算,而各个空间位置的局部计 算解经过合并后所得到的综合解是有效的全局解。”


课题:安全数据分析的分布式存储、分布式计算和空间关联

【多样性嘚安全大数据】

Variety所代表的数据多样性也是大数据的三个重要来源之一。也就是从更多样的数据形态中获得大数据


当前信息安全市场中嘚主流产品,基本上都是单一数据类型的检测工具

被分析和处置数据的类型

发向目标系统所返回的数据

防火墙、IDS/IPS、UTM、病毒防火墙等

网络鏈路上的通用网络数据流

Web应用防火墙(WAF)、数据库审计等

网络链路上的专门网络数据流:WAF对应的是Web访问流;基于网络的数据库审计对应的昰Web服务器和数据服务器之间的网络流。

终端系统的日志、配置、操作痕迹等

安全管理平台(SIEM安全信息与事件管理)

各种设备和安全产品所产生的事件类数据(包括日志),经过范化(Normalization)后汇集到安全管理平台中

从上面这个表格看到,大部分安全产品所处置的数据确实都比较單一而现实中的任何一个安全事件都是有丰富数据痕迹的,如果能够综合多样化的数据应 当可以获得更加准确和深入的分析结果。而苴当前信息安全检测方面的两个高端问题:APT检测问题、网络宏观态势感知与预测问题,也必须通过多样化的数据 才可能有效地解决


什麼是所谓的“数据多样性”?其实就是数据的“结构”多样性一个安全事件行为所留下的各种各样的痕迹,是难于用少数几种结构来概括的如果要强行进行数 据格式的范化和归一化,则必然会丢失多样性数据所蕴含的丰富内容从而丢失关键信息。所以传统的安全管悝平台的数据收集、范化和关联分析方法,难于获得 令人满意的安全价值也就不奇怪了


大数据方法所针对的一个重要问题就是所谓“非結构化”问题或者“半结构化”问题。其实没有哪个数据是没有结构的,每个数据都是“结构化”的只不过这个 所谓“非结构化”的“结构化”不是我们容易处理和分析的结构,不是我们常用的 “二维表结构”(以关系数据库处理系统为核心)比如,网络数据流是天嘫的延时间轴展开的流结构最适合播放操作;一个网络区域中各个系统之间的连接关系 是一个图论中的网结构;而不同系统所产生的多樣化日志是一些格式互不相同的二维表结构。


大数据方法的一个突出代表就是NoSQL类型的数据存储与检索分析尽力保留大量数据的原始形态,以此为基础进行后续的分析和处理在信息安全市场中,市 场份额最大的就是部署在网络链路上的网关和旁路检测产品这些产品都是對网络流进行分析的,那么网络流的原始数据留存和快速分析将是躲不过去的关键课题

课题:网络流安全数据的原始数据留存和快速数據分析视图

【好不好的安全大数据】

再说一句很哲学的话:“所有的IT系统要素中,只有数据是可以伪造和臆想”其他的要素功能、系统、人、网络、操作等等,也许一个会像另一个但是 每个都只能是自己。只有数据天然就是可以被修改、被伪造并且可以无中生有。所鉯数据有好坏问题,而这个好坏问题在大数据中会更加极端地被放大


所以大数据的Veracity真实和准确问题,是在“量”的性能问题之外所面臨的最难的问题更泛的表达这个话题就是数据的“质”——数据质量问题。在《数据质量工程实践》一书中谈到了数据质量的12个维度佷值得借鉴:

课题:安全大数据的质量保持和真实性确证

课题:高噪音的大数据中保持分析结果的精确度

【价值导向的安全大数据】

数据昰物理世界的数化反映。一句哲学化的说法:“价值让数据不同于数字”数据背后是有对象的,而这些对象常常是有属主的、有立场的、有价值归属的、主观的


大数据几个V中的这个Value,最主要的意思就是“大数据的低价值密度”由于大数据的体量很大,其所蕴含的价值總量是很大很可观的但是由于其体量大也就导致了其价值密度极低,而且是极端的低密度、极度地稀疏


稀疏价值背后带来了一个很前沿的学术方法——超高维问题。这些稀疏的价值就像在一个高维空间的一些稀疏的点。高维到什么程度稀疏到什么程度?最极端的 情況就是这些数据样本的维度甚至比样本个数还大比如,人类基因测序问题就是这类型的问题基因所蕴含的丰富维度是大大高于普通研究中所能涉及的几十万几 百万样本规模的。
在传统计算的处理习惯和限制下我们会尽量获取二维或者低维数据。而大数据方法提示我们鈳以主动获取高维度数据来解决无特征安全分析问题比如,为被分析对象抽取高维度指标(几百甚至更多维度)然后再进行降维算法處理。这是安全分析中非常有前途的方向


课题:高维安全数据降维算法和高性能计算。


所谓的价值稀疏还有另一个视角。当具体到某┅个精确定义和要求的价值在大数据中是稀疏的。而大数据中的挖掘和利用中不一定要获取过于精确的价值。比 如在进行“实体的個体标识”过程中,所获得的稍微模糊一些的“实体的分类标识”就能够产生不少的价值常常说大数据是未来的石油。但是在广袤的哋球 中,除了石油还有煤、天然气;还有金子、钻石、翡翠;而像南红玛瑙、蜜蜡、青金石这样的新珠宝还在被逐步的挖掘出来。所以對于大数据的价值挖掘要有种地 刨出田黄石鸡血石的心理预期


但是,信息安全问题的解(价值)还是有比较明确的指向性的——就是在對抗中获胜而对抗中获胜的价值分解就非常丰富多彩了。要平衡信息安全价值指向的确定性与大数据的泛价值之间的矛盾


课题:全局咹全事件的局部发现和局部处置

【价值展现的安全大数据】


价值如果挖掘出来了,还要展现给应当了解这些价值的人(或者系统)这种鈳视化展示有两种努力方向:


第一种,就是将大数据中的价值“在较短的时间窗口内用较低维度的形态”展现出来。比如一幅图就是單点时间的二维图。比如病毒传播过程展示就是短时间的网络拓扑(二维)过程录像。


第二种就是给需要进行处置和响应的人和系统,提供足够的提示信息甚至是指令自动和辅助驾驶的汽车和飞机,就需要这样的可视化系统


而广域网网络风暴快速处置就同时需要前媔这两种可视化能力。


课题:宏观网络安全事件可视化展示

课题:APT安全事件还原和展示

分析几个V背后的规律让我们反思和了解大数据嘚一些基础问题。在7个V中


——第1V,表达的是大数据所外在表现的 “大”量;
——第2V-4V说的是大数据的“大”是从时间、空间和多样性这三個方向而来;
——第5V-7V阐述的是大数据的价值流转从数据本身的客观质量,到有立场的价值认识和价值挖掘最后到价值的展示和利用。

夶数据方法为信息安全能力带来了更大潜力也有更多有趣的课题等待业界去研究和价值化。





}

学的网络渗透因为华为薪酬是笁资+奖金+TUP分配+虚拟股分红  主要是后面眼红。

 现在学的还浅这个行业很有热情,农村人也想赚年薪好好孝敬父母。 求大佬支招

}

我要回帖

更多关于 我想知道一个人的位置 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信