LPC2009、数据去重技术 Data De-Duplication、海外人物 Mingming Cao

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




Linux Plumbers Conference (http://linuxplumbersconf.org/) 自2008年开办首届以来已经成为了 Linux 业界有名的会议, (翻译这个名称比较难,是 “Linux 管道工会议” 还是 意译为 “Linux 底层技术会议”?) 在其开办之前,世界上已有三大 Linux会议,每年产出无数高质量 paper 和 实用开源项目:分别是加拿大 LinuxSymposium.org 覆盖北美区,德国 Linux Kongress 覆盖欧洲区,和 Linux.Conf.Au 覆盖澳纽区;可惜一直无一在美国本土,与其顶级技术诞生地很不相称,花旗国人对此深感痛心疾首,于是在2008年开始有人有组织地预谋 本土的 “Linux 底层技术会议”。终于在08年9月份在 俄勒冈州 波特兰州立大学(此处关于 Portland State University 也需另文另表) 得以实现其”一大”会议。 (此处 colyli 同学当年是其一大见证人,希望有机会也对参加过的技术会议作些总结) (本人当年本来也有机会见证一大的,可惜被万恶的 bureaucracy 审查了两个月才发给 visa, 等到花儿都谢了)。 LPC 诞生之后,显而易见的就是取代了原有北美区 LinuxSymposium 的光辉, 看  LS 2009 Proceedings 就知道了,几乎没有名人到访 ;名人的 paper 都投奔 LPC 去了)

且看 LPC 2009年会议议程 包括了 Keynote, Linus Torvalds – An Advanced Git Tutorial, 音频、网络、实时、安全、启动、内核/用户态接口、存储、嵌入式、XWindow、等多方面的子会议,本文重点详述 其中存储子会议的一个环节: 由 Mingming Cao (from US IBM Linux Technology Center) 做的关于 Linux Data De-duplicaton 的演讲 [slides], 在  Linux Foundation 本来还有它的 视频,可是我身在亚洲区多个ISP网络条件下尝试过,从来没有成功地播放完过。(说明 Linux Foundation 的视频站仍然欠缺访问速度,看身在辽国的同学有没有办法把它转移到 youtube 或者 … )

虽然命题 名为 “Linux Data De-duplicaton”, 但里面所提到的技术并不限定于 Linux, 并且根据 slides 所看到的,可以作为 数据去重技术 的一个很好的入门 (不知视频中现场还说了些什么,观众有些什么提问?):

  1. 当今世界正在经历着数据爆炸,对抗数据冗余是很有必要的;
  2. 已存在的技术: 压缩、链接、Copy on write ;但都无力对抗 复制、修订、备份 中产生的冗余;
  3. 数据去重技术 是  一种通过减少冗余数据来达到减少存储空间需求的方法。
    通过在底层存储级别上扫描,对冗余块只保留唯一一份,其它冗余块替换到唯一块的指针引用;
    可以实现在文件级别、块级、甚至 bit 级别;
  4. 针对备份、归档、虚拟化所产生的冗余 特别有效地减少了存储空间需求;
  5. 有人可能认为磁盘已经足够廉价了,但冗余数据引起的额外能源、灾备、和人力管理成本也是不可估量的;
  6. 实现数据去重所面临的难题:
    - 去重处理 消耗了额外 CPU 内存资源;
    - 进一步产生了文件/文件系统碎片化;
    - 增加了丢失数据的风险;
    - 与加密系统不能良好合作;
    - Hash 冲突;
  7. 压缩比在 2:1 到 10:1
  8. 处理方法: 在数据源头(客户端)和数据终点(存储系统) 进行去重 的优缺点比较;
  9. 处理时机: Inline 与 Post-process 的优缺点比较
  10. 在 btrfs 上的实践;
  11. 讨论: 在 user space 实现去重的可能性;
  12. 结论: Linux 需要 Data De-Duplication 技术以 fight against 数据膨胀。

附:演讲者 Mingming Cao 介绍:

曹明明: 山东人,山东师范大学附中 ’88 级,后来赴美 俄勒冈州立大学学习,工作于 US IBM LTC, 曾多次参与 Linux Kernel Summit 顶级技术会议发表演讲;与上海籍 曹南豫 先生相知、相识于 俄勒冈州立大学,并相爱、结婚,育有二女,一家人幸福地生活在波特兰;并且其夫工作也是 Storage Software Engineer, 可羡慕地称之为 … 神仙眷侣不为过。

其个人 facebook 页面在: http://www.facebook.com/caomingming

(2个打分, 平均:3.00 / 5)

雁过留声

“LPC2009、数据去重技术 Data De-Duplication、海外人物 Mingming Cao”有4个回复

  1. 理客 于 2010-04-03 1:34 下午

    数据去重在OS也许并不是十分重要或者和OS联系的紧密程度有限,但用在internet级一定会成为核心技术之一,没有它,在目前海量的数据增长速度下,付出的成本一定会阻碍IT将来的发展

  2. ABC 于 2010-04-04 1:45 上午

    http://linuxplumbersconf.org/2009/slides/ 可以看到所有的slides,有兴趣的可以全部下载。

  3. Cheng 于 2010-04-07 5:25 上午

    曹明明已不属于”海外学人”吧,”人物评述 (391)”里面是不是要加个子分类,给在海外混得不错的华人做些系列报道,特别是企业界的;

  4. ma 于 2012-03-02 7:49 下午

    1.曹明明和其丈夫是山东大学的大学同班同学啊
    咋相识于美国了?