王大师的WLRU 。博士论文
作者 陈怀临 | 2011-02-06 17:25 | 类型 科技普及, 芯片技术, 行业动感 | 35条用户评论 »
【陈怀临注:说良心话,说王大师啥也不懂是偏激。说其骗人也不是事实。好歹专利和几百页的洋文还是满花功夫的。另外,从文献的列表,感觉王大师还是满有学问的。我对王大师印象的改变来自小样把Xiaodong Zhang的一个LRU的算法列在文献中了。顿时感觉小王不是骗子,而是书呆子:-)。我个人感觉,其这个WLRU算法还是有一定的水平,但为了忽悠国内的政府产业基地,估计有点语不惊人死不休。。。通常而言,一个WLRU算法很难被用来做通用CPU。但我感觉用在高端的,专门用在某个产业的NPU,带Cache的ASIC,例如Cisco的QFP,Juniper的Trio,华为的啥Solar芯片 blah blah,还是比较靠谱一些。例如,卖专利,license fee。。。希望小王,或者老王成功。有需要帮助的地方,请说话。。。:-)。另外,在弯曲评论,有许多国内外大通信厂商的同学。小王应该在这里多阐述你的算法。。。首先要建立credit。才能办事。没有credit;很难成事。】 | |
雁过留声
“王大师的WLRU 。博士论文”有35个回复
ASIC当然可以,只能说这个人对IP的定位有问题,不过鉴于MASK费用的倍增,ASIC是不断萎缩的
University of Western Ontario的Ivey管理学院老有名气的,有加国哈佛之称也。
网络处理器既然是针对特殊应用,而且都是模式相对固定的算法。一般都是提供机制让程序自己控制要缓存哪些数据,哪些不缓存
首席,能把这篇撤掉吗?拜托!
为啥捏?:-)。这可是我淘来的。。。:-)
请看Email
4.tutu 于 2011-02-06 8:27 下午
首席,能把这篇撤掉吗?拜托!
—-怕泄露秘密?
有这篇,我后面的介绍就没必要了。我不用费事发帖了。不过还是我的贴更易读一些。
你的帖子水分太大了
Intel CPU的cache 作多大,你的意思是大家都听Mark Hill的, 其他无数的工程师和专家都是你平常所说的“蠢”货?
你太不懂得事情是怎么运作的了。
你以为练练投三分球,就可以跟姚明比比高低了?
因素是Th 和 Tm。 a 的提高总有副作用: 会使Th变坏,还会使Tm变坏, 程度取决于具体方案。
补答以前的问题: cache 为什么分L1,L2?
因为L1要小,几百K而已。 大了行不?比如4M? 不行,因为每次仅扫描一遍所有cache line花的时间,CPU 都嫌太久。 即: 增加cache size, 提高了a, 但增大了Th, 所以实际设计中L1都采用小的cache size。
(起初还有别的原因 - L1 用memory贵,performance好。 但今天的L2 在performance上赶上L1了,依然用小的L1, 大的L2,甚至更大的L3).
不小心看到下面这篇报道,如果属实,并且可以成功应用,CPU会有一次飞跃。与之相比什么cache什么多核都是小碎碎,这个太给力了。
http://www.eeworld.com.cn/manufacture/2011/0203/article_5626.html
【同硅相比,辉钼的优势之一是体积更小,辉钼单分子层是二维的,而硅是一种三维材料。“在一张0.65纳米厚的辉钼薄膜上,电子运动和在两纳米厚的硅薄膜上一样容易。”凯斯解释说,“但目前不可能把硅薄膜做得像辉钼薄膜那么薄。”
由于辉钼直接就有带隙,可以用单层辉钼制造间带通道场效应晶体管,且在稳定状态下耗能比传统硅晶体管小10万倍。】
看来你不经常看academic的报道。10万倍?小意思啦。。。
这个技术,还需要多少才能够商业化?相邻电路间会不会有干扰?
我们已经基本完成前端设计。如果资金到位,3到6个月,芯片就可以出来。
我们只改动L2缓存,其他的,包括软件和电路板,都可以一点不改。
WLRU缓存实际上是把设计CPU的难度降低了。因为CPU核心不需要太高频率,依然可以保证性能。如果用WLRU缓存, CPU设计真的是简化了许多。不需要担心干扰这些高速时的问题。
大师可以先花几万元做个FPGA Prototype么?对比一下用WLRU和LRU的L2 cache。
大师打算融多少钱?
无论大师是真想做事还是想忽悠人,都可以去找政府资助。大宋政府资助的项目很多,多这一个不会有啥影响。不过国内做CPU的帮派有不少,通用的、专用的,单核的、众核的,各种指令集的都有。如何与这些帮派争夺资源还需要靠大师自己的智慧了。
想骗政府的钱,先把关系打通了再说~经常帮导师准备标书的飘过~
to 15 中医码农
现在自己的钱紧花紧算,也够用了。如果要做得很大,那就是韩信点兵,多多益善。
to 16 zedware
谢谢指教
to 中医码农
问:大师可以先花几万元做个FPGA Prototype么?对比一下用WLRU和LRU的L2 cache。
答:FPGA模拟做过,现在等FPGA的升级版出来。
与硬件等价的软件模拟仿真也做过,比较图在这里:
http://i54.tinypic.com/2vkymtz.jpg
其中 OPT 是理想的缓存替换
University of West Ontario will be frowned upon
非常开心看到同行,有几个问题如下:
1. 首先 lru的问题由来已久,各种解决方案都有。
2. 由于现在通用的cpu 已经实现了类似lfu的替换算法,请与之比较,而不仅仅是lru
3. 看到了您说 接近 Belady OPT cache, 烦请告诉我对应 Public industry benchmark.我就是做系统的优化的,我非常愿意来做深入的比较。
Thanks
Ling
其实不管lru, lfu, 或者其他, 他们都不可能在大多数的 industry benchmak下面接近Belady OPT cache,尤其当 working set 大于 cache set 还有在 data stream情况下比如 大数据搜索更新 in database
马先生可以留个联系方式。
可以给我留言:
http://write.blog.csdn.net/postlist
也可以发到: ling.ma.program@gmail.com
Thanks
Ling
哦,写错了,留言是这里:http://blog.csdn.net/linguranus
email 没问题。
请查邮件。
早就知道那些marketing的忽悠,从来就没相信这个东西能灭掉intel。问题在于这个WLRU是不是有技术上哪怕一点点一丁点的创新?对于特定应用的一个特殊处理器,是不是真的能提高performance?非单机的L1 Cache miss/hit rate十几年前都被研究个稀烂。这东西就能灭Intel,Intel早就死了一千回了。
lfr(或者wlru)都不能在 working set 远远大于 cache set 的时候有很好的效能,现在last levelcache 都基于预测机制,同时也考虑 stream data的模式 比如 大数据搜索,遍历等等(呵呵,但是我认为这样不够好).
冗余发言,没什么价值,将功补过:),看看这个文档吧:
http://www.google.com.hk/url?sa=t&source=web&cd=3&ved=0CC0QFjAC&url=http%3A%2F%2Fwww.jaleels.org%2Fajaleel%2Fpublications%2Fisca2010-rrip.pdf&ei=Z4c2Ttu6N-qJmQWjrNXwCg&usg=AFQjCNEcBsCGkmcpKqlkbyL-QFwdvKVSuA
今天终于实现出AMD Bulldozer 的 动态使用 LRU or MRU 的 算法,cpu2006 中的benchmarks 性能提高最多5%。
提高5%是非常了不起的了。
HP的首席,Norman Jouppi发明的Victim Cache也就5%多点,获得了ACM 25年每年精选大奖。
这是AMD的设计,很有肯能来自 ibm
性能提高最多5%。?不是号称能够灭掉INTEL的吗?