DLP浅谈(续完) – 检测之七种武器

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




笔者非常羡慕硬件达人,无论什么盒子,打开一看就能忽悠一通了。正如首席所说硬件就像人的身体,衣服一脱公母立辩(后半句是我加的)。然而对于商业软件系统,除非变身基努里维斯,从Matrix进去hack一下……

我也并不了解那家DLP厂商的引擎实现。下文是基于某国外达人的文章摘抄编辑并注释而成,稿费版权归他,如果得罪某人,也请不要找我:-)

原文链接“Understanding and Selecting a DLP Solution

1.Regular Expression

不在多说,在上一篇中网络设备中的DLP实现都是这个东东。比较适合检测信用卡号之类的有明确模式的数据信息。缺点也很明显,太机械化,容易被evade以及产生误报。

2.Database Fingerprinting

是正则表达式匹配的一种enhance。为了避免前者的误报问题,引入了一个数据库,仅仅匹配该表内部的记录,才是真正的leak。例如当发现外发的流量包含了信用卡号,则查询数据库,看看号码是否真是敏感信息,如果不是则bypass。这样目标明确,很大程度减少了误报。另外,还引入了多因素的检测机制,来更精确的定位。

3.Exact File Matching

这种方法在模式建立阶段,抽取数据库条目或整个文件,对其生成hash并最终生成hash值数据库。

在检测阶段,对于查询结果或外发的文件同样计算hash值并比对hash数据库,进而判断是否是敏感信息条目或文件。

4. Partial Document Matching

这种方式是对于方式3的增强,对于文档的部分内容家里hash数据库。

对其不理解可以Wiki一下单模匹配算法中的KR(Karp-Rabin)算法。其实就是维护了滑动窗口。

这种工程技术可以用于检查文件的段落是否被leak出去,例如拷贝文档中的一段,从MSN发送出去。

5.Statistical Analysis

利用贝叶斯算法,机器学习以及其他统计技术进行识别。

笔者认为DLP本质上同Anti-Spam一样,都是根据文本内容进行分类判断,只不过前者分为敏感、非敏感,后者分为垃圾、非垃圾而已。因此可以采用类似技术也就不足为奇了。

6.Conceptual/Lexicon

原文如下,我还真没搞清楚他到底是怎么实现的。有达人帮忙看看。

This technique uses a combination of dictionaries, rules, and other analysis to protect nebulous content that resembles an “idea”. Okay, it’s easier to give an example- a policy that alerts on traffic that resembles insider trading, which uses key phrases, word counts, and positions to find violations. Other examples are sexual harassment, running a private business from a work account, and job hunting.

7.Categories

其实是signature归类技术。国外不同行业对于DLP各有各的政策,例如HIPPA,PCI/DSS什么的。这就类似我们的公安部第几号令之类的。根据不同政策要求,打包DLP的signature,便于用户使用。应该不算是引擎技术了。作者也提到了These 7 techniques (well, really 6) form the basis of most of the DLP products on the market. 其中本条目应该就是被排除在外的。

上述方法,只有pattern match相关方法应用到了网络设备的DLP实现之中。其余的应该多在host和server端。究其原因,资源占用以及performance应该会是一个大的concern。

(1个打分, 平均:5.00 / 5)

雁过留声

Comments are closed.