DLP浅谈(续完) – 检测之七种武器
作者 appleleaf | 2010-01-08 21:13 | 类型 专题分析, 网络安全, 行业动感 | Comments Off
笔者非常羡慕硬件达人,无论什么盒子,打开一看就能忽悠一通了。正如首席所说硬件就像人的身体,衣服一脱公母立辩(后半句是我加的)。然而对于商业软件系统,除非变身基努里维斯,从Matrix进去hack一下…… 我也并不了解那家DLP厂商的引擎实现。下文是基于某国外达人的文章摘抄编辑并注释而成,稿费版权归他,如果得罪某人,也请不要找我:-) 原文链接“Understanding and Selecting a DLP Solution” 1.Regular Expression 不在多说,在上一篇中网络设备中的DLP实现都是这个东东。比较适合检测信用卡号之类的有明确模式的数据信息。缺点也很明显,太机械化,容易被evade以及产生误报。 2.Database Fingerprinting 是正则表达式匹配的一种enhance。为了避免前者的误报问题,引入了一个数据库,仅仅匹配该表内部的记录,才是真正的leak。例如当发现外发的流量包含了信用卡号,则查询数据库,看看号码是否真是敏感信息,如果不是则bypass。这样目标明确,很大程度减少了误报。另外,还引入了多因素的检测机制,来更精确的定位。 3.Exact File Matching 这种方法在模式建立阶段,抽取数据库条目或整个文件,对其生成hash并最终生成hash值数据库。 在检测阶段,对于查询结果或外发的文件同样计算hash值并比对hash数据库,进而判断是否是敏感信息条目或文件。 4. Partial Document Matching 这种方式是对于方式3的增强,对于文档的部分内容家里hash数据库。 对其不理解可以Wiki一下单模匹配算法中的KR(Karp-Rabin)算法。其实就是维护了滑动窗口。 这种工程技术可以用于检查文件的段落是否被leak出去,例如拷贝文档中的一段,从MSN发送出去。 5.Statistical Analysis 利用贝叶斯算法,机器学习以及其他统计技术进行识别。 笔者认为DLP本质上同Anti-Spam一样,都是根据文本内容进行分类判断,只不过前者分为敏感、非敏感,后者分为垃圾、非垃圾而已。因此可以采用类似技术也就不足为奇了。 6.Conceptual/Lexicon 原文如下,我还真没搞清楚他到底是怎么实现的。有达人帮忙看看。 This technique uses a combination of dictionaries, rules, and other analysis to protect nebulous content that resembles an “idea”. Okay, it’s easier to give an example- a policy that alerts on traffic that resembles insider trading, which uses key phrases, word counts, and positions to find violations. Other examples are sexual harassment, running a private business from a work account, and job hunting. 7.Categories 其实是signature归类技术。国外不同行业对于DLP各有各的政策,例如HIPPA,PCI/DSS什么的。这就类似我们的公安部第几号令之类的。根据不同政策要求,打包DLP的signature,便于用户使用。应该不算是引擎技术了。作者也提到了These 7 techniques (well, really 6) form the basis of most of the DLP products on the market. 其中本条目应该就是被排除在外的。 上述方法,只有pattern match相关方法应用到了网络设备的DLP实现之中。其余的应该多在host和server端。究其原因,资源占用以及performance应该会是一个大的concern。 | |