DLP浅谈(续完) – 检测之七种武器

作者 appleleaf | 2010-01-08 21:13 | 类型专题分析, 网络安全, 行业动感 | Comments Off

分享到：新浪微博腾讯微信开心人人 Live Digg FB Twitter

笔者非常羡慕硬件达人，无论什么盒子，打开一看就能忽悠一通了。正如首席所说硬件就像人的身体，衣服一脱公母立辩（后半句是我加的）。然而对于商业软件系统，除非变身基努里维斯，从Matrix进去hack一下……

我也并不了解那家DLP厂商的引擎实现。下文是基于某国外达人的文章摘抄编辑并注释而成，稿费版权归他，如果得罪某人，也请不要找我：-）

原文链接“Understanding and Selecting a DLP Solution”

1.Regular Expression

不在多说，在上一篇中网络设备中的DLP实现都是这个东东。比较适合检测信用卡号之类的有明确模式的数据信息。缺点也很明显，太机械化，容易被evade以及产生误报。

2.Database Fingerprinting

是正则表达式匹配的一种enhance。为了避免前者的误报问题，引入了一个数据库，仅仅匹配该表内部的记录，才是真正的leak。例如当发现外发的流量包含了信用卡号，则查询数据库，看看号码是否真是敏感信息，如果不是则bypass。这样目标明确，很大程度减少了误报。另外，还引入了多因素的检测机制，来更精确的定位。

3.Exact File Matching

这种方法在模式建立阶段，抽取数据库条目或整个文件，对其生成hash并最终生成hash值数据库。

在检测阶段，对于查询结果或外发的文件同样计算hash值并比对hash数据库，进而判断是否是敏感信息条目或文件。

4. Partial Document Matching

这种方式是对于方式3的增强，对于文档的部分内容家里hash数据库。

对其不理解可以Wiki一下单模匹配算法中的KR(Karp-Rabin)算法。其实就是维护了滑动窗口。

这种工程技术可以用于检查文件的段落是否被leak出去，例如拷贝文档中的一段，从MSN发送出去。

5.Statistical Analysis

利用贝叶斯算法，机器学习以及其他统计技术进行识别。

笔者认为DLP本质上同Anti-Spam一样，都是根据文本内容进行分类判断，只不过前者分为敏感、非敏感，后者分为垃圾、非垃圾而已。因此可以采用类似技术也就不足为奇了。

6.Conceptual/Lexicon

原文如下，我还真没搞清楚他到底是怎么实现的。有达人帮忙看看。

This technique uses a combination of dictionaries, rules, and other analysis to protect nebulous content that resembles an “idea”. Okay, it’s easier to give an example- a policy that alerts on traffic that resembles insider trading, which uses key phrases, word counts, and positions to find violations. Other examples are sexual harassment, running a private business from a work account, and job hunting.

7.Categories

其实是signature归类技术。国外不同行业对于DLP各有各的政策，例如HIPPA，PCI/DSS什么的。这就类似我们的公安部第几号令之类的。根据不同政策要求，打包DLP的signature，便于用户使用。应该不算是引擎技术了。作者也提到了These 7 techniques (well, really 6) form the basis of most of the DLP products on the market. 其中本条目应该就是被排除在外的。

上述方法，只有pattern match相关方法应用到了网络设备的DLP实现之中。其余的应该多在host和server端。究其原因，资源占用以及performance应该会是一个大的concern。

(1个打分，平均：5.00 / 5)

工具箱
本文链接 | | 打印此页 | Comments Off

雁过留声

Comments are closed.

最新用户评论

最新文章

分类

DLP浅谈(续完) – 检测之七种武器

雁过留声