城域网系列 – 5 ALU新ME的前世今生(中3)

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




作者注: 这里基本是high一些的分析,想看技术实现细一点的原理的,在这里会失望了,因为我没去做这部分工作,这和个人的工作内容和相应能力及精力有关,当然如果有湾友能补充相应内容,不胜感激

2、  系统架构和NSR/ISSU(HA)

7750的硬件结构,从单板到chassis,虽不能说是非常优秀,但无疑是比较成功的,从紧凑的三维到很高端口密度以及散热电源,比如其最早提供的40*1GE的单板,就用了特殊的PHY使面板可以布下如此高密度的以太口,7750的设计,出奇之处本身都是为了方案,并非为了吉尼斯,因为7750无疑是一款比较昂贵的产品,因为其转发芯片,大容量查表器和TCAM,支持H-QOS的TM等在当时都属于贵族用品,所以成本要高于C76,欧洲人和美国人的差异就在这里J,但是市场没人理你是否内部用了金子还是铜子,客户在冷漠的时候只关心你要我掏多少银子,你是有足够理性的独立行为能力人,你跳不跳楼不应该由我来负责,那用什么来分担这么好的产品的成本,在当时,10G端口大家都贵,并且主要作为收敛后的上行,从方案上也不合适做高密度收敛板,所以高密的GE口收敛板是非常好的idea,AL不是疯子。

7750的软件架构从外部看也是很成功的,主要有以下几点

(1)        其扩展性好,可以很容易的做到一年一个大R版本,年内可能还有几个个RX.x版本,这在以多业务下的IP/MPLS TE为核心的路由器产品,不是那么容易做到的,当然AL没有思科那么大的历史包袱和产品系列,这个可能会更容易,但那么多新模块代码,项目开发本身并不是很难,但是如何快速的和软件平台做好集成,推出商用版本,这就需要系统架构设计要好,当然没有那么完美的东西,毕竟是新产品平台,售后出现问题多一些也是难免的,大家都如此

(2)        可靠性:AL可能是第一个做了NSR和ISSU,JUNIPER可能也很快做到了。NSR用于主MCU故障时,系统业务不会有任何中断,基本原理就是把所有控制层的session都热备了,使邻居感受不到这个故障,这个和NSF不同,NSF也是要达到这个目的,但是邻居是能感受这个故障的,所以要提前通知邻居,我故障了,别挂电话,我方便一下很快,回来继续聊。另外一个是系统升级的时候,也是业务不中断,具体原理有点复杂,不多说了,因为我不大了解具体实现。但是需要指出的是,AL作为商人,买东西要吹个150%是正常现象,比如NSR,不是所有情况都能NSR,是有条件的,ISSU更是有很多限制,最致命的是,好像升级后24小时还是2小时内记不得了,要重启一下,知道这个隐埋的bomb后,好想笑,不是嘲笑,就是好笑。笑归笑,AL市场包装后的忽悠效果还是很可观的

3、  NSM

NSM在许多国内产商一向不甚重视,而这里放在系统架构后面的第一副领导的位置,可见发达国家市场和发展中国家的不同,也可见AL新ME方案的精心设计,这里有两个原因

(1)        发达国家人力成本昂贵,尤其是IP工程师,所以好的E2E业务的网管对TCO saving非常重要

(2)        多业务的IP/MPLS TE路由器,AL叫SR,系统配置复杂,如果没有好的NSM,这个运维的缺点就会难以掩盖

(3)        思科没有运营山级的ME方案的E2E网管,运营商本身就觉得路由器复杂,没有好的网管就更复杂了,当然思科不是没有能力做这个事,许多网络全网都是思科设备,思科做好网管不是更容易吗?可问题也就出在这里,既然我近乎垄断了,我还费劲巴力的做好网管,给谁省钱?你们和我思科一起玩培训不是让我既能赚钱,还能培养客户的loyalty吗?有何必自断财路呢。这种策略下,以致后来个别熟悉思科产品CLI的用户,不需要GUI的NSM网管,就喜欢CLI

AL是充分分析了市场形势,花了大力气完成SAM6520网管产品(也许名字我记错了),和SR一样,叫SM,业务管理,这些可是AL新ME方案innovation的主要精华之一。并且AL网管的报价方式也不错,把网管价格直接报在端口中,而不是按照网管能管理的节点数来报价,可见AL的报价方式更精细

AL的ME新网管,给似乎已经沉寂了几年的IP网管产品注入了一股新风和活力,重新激活了这部分网管市场,带动了运营商IP网络网管市场的许多供应商的新产品开发动力,AL的新网管对这里的贡献功不可没

(4个打分, 平均:5.00 / 5)

雁过留声

“城域网系列 – 5 ALU新ME的前世今生(中3)”有39个回复

  1. 陈怀临 于 2010-04-13 6:25 上午

    感动。。。也觉得自己的差距很大。我如果写城域网,基本上不可能写出这样的深度和高度。

  2. 理客 于 2010-04-13 6:30 上午

    术业有专攻,首席如果全拿下了,我们还怎么写呀,好歹也得给兄弟们留个活口,混口饭吃:)

  3. Jesse 于 2010-04-13 6:42 上午

    To manjusri:
    1.AL NSR备份路由吗
    2.AL ISSU是依靠GR支持还是NSR支持?
    3.AL NSR和ISSU现在大规模商用了吗?

    Thks

  4. manjusri 于 2010-04-13 6:48 上午

    to Jesse:
    1、TCP session都备份,路由更应该备份了,这是转发的基础
    2、应该是NSR
    3、应该已经商用,但具体表现,在能支持的规格上,应该是OK的,不能支持的当然是不OK

  5. Jesse 于 2010-04-13 6:53 上午

    可是ISSU那么大的缺陷商用客户难道能接受吗?我觉得现网应用重启一次是很大的问题啊,是单板重启还是整机重启啊?

  6. manjusri 于 2010-04-13 7:02 上午

    据说是整机,具体可能和升级版本和原版本的差异有关,可能有的版本可以真的ISSU,有的半ISSU(就是这种情况),有的根本就无法ISSU,比如某些大的R版本,对于大R版本的升级,其实你不重启,客户都未必放心,并且这种版本升级是经过严格的流程控制的,所以没有ISSU未必是大问题,而升级较多的是小版本升级,比如修复BUG,和很微小的特性,也许AL能搞定大部分这种情况,细节规格,如果这里有潜水的网友知道并且愿意共享一下,许多人会很高兴

  7. 陈怀临 于 2010-04-13 7:02 上午

    记忆中是NSR,而非GR。好像ALU还痛批敌人是GR。。。

  8. Jesse 于 2010-04-13 7:10 上午

    hehe,个人感觉现在ISSU和NSR应该是目前比较难和棘手的两个模块了,复杂度太高,感觉现在用NSR支持ISSU还为时太早,两个特性出来都不久,不知道Cisco的NSR怎么样?据说不是很好

  9. Jesse 于 2010-04-13 7:13 上午

    “对于大R版本的升级,其实你不重启,客户都未必放心”————单板重启是应该的,可是感觉整机重启就不应该了,整机重启业务中断时间太久了

  10. ilovebgp4 于 2010-04-13 7:14 上午

    大版本升级重启难以避免,可能会动LC ASIC/NPU的microkernel,光是Control Panel热备session是不够的,转发平面需要动

  11. 陈怀临 于 2010-04-13 7:30 上午

    BTW,这个5上中下,中1,2,3确实有点搞笑。一看就是工程师。。。

    全部写完后,首席要亲自做序,整一个pdf文件。荣誉出品。。。

  12. manjusri 于 2010-04-13 8:03 上午

    to Jesse: 如果两个主控板重启,接口板原则上必须重启,那么也就是整机重启了,ISSU/NSR更多的动作在在主控板上
    多谢首席,这里以侃兄等为代表的文章比较标准,以后多学习

  13. john 于 2010-04-13 8:19 上午

    是的,看完邓侃写的文章,我已经1个多月没有动笔了,学习中。写作也是需要功力的。

  14. HJ 于 2010-04-13 11:49 上午

    - 7750的网管名称是5620 SAM(service aware management)

    - 7750目前仅支持小版本的ISSU,控制模块的升级通过NSR实现(先升级备份模块,重启,然后NSR切换到备份模块,再升级原先的active模块),不会影响业务;而IOM的重启则是可控的,也就是说不是必须所有的IOM都在同一时间重启,可以分开重启,这样可以进一步减少对业务的影响。

    - 真正大版本的ISSU是很难的,记得以前也只有Procket能做到,不知道现在cisco有没有把procket的这个技术用到CRS上

    - 7750的成功除了楼主提到的以为,另外还有两个本人认为很重要的地方:
    -率先在业界提出商业的VPLS解决方案
    -非常完善的QoS能力,7750在当时是唯一一个单板支持32000个队列+HQoS的路由器,也正是这两个特性使得Alcatel在2004年(收购Timtra的第二年)就中标AT&T的light speed计划,一个十几亿美元的大合同。

  15. manjusri 于 2010-04-13 6:07 下午

    感谢HJ的补充,确实如此,在后面的章节会继续说一下几个相比以前ME的key difference和highlights,这些内容大体是以重要性排序的,从技术基础上看,VPLS无疑是核心,但由于个人对VPLS的偏见和实际部署中的问题,更倾向于如果能不用VPLS就不用,所以把它放在后面讲了,具体在后面会详述。
    城域网写这么多并非完全是本意,因为工作生活事务繁琐,本无此精力完成这么多,因为讨厌内部ZZ,近期也无大兴趣把事情做得很精,只想暂时过好个人的日子,所以只想写一点相对新一些的观点和内容,但为了介绍一些ME的背景和历史,所以牵扯出很多内容,一时难以搁笔,如首席所预测,不好停下来。非常感谢首席和湾友的支持,这个系列会写很长,ME涉猎的范围也会做一些拓展,但仍然不好保证后续章节有什么具体计划的保证,请首席谅解。中国式管理常讲组织气氛,与时俱进后就是和谐影响稳定,进而影响到个人待人做事的积极性,其实这也非中国管理特有,具有普遍意义

  16. ABC 于 2010-04-13 8:53 下午

    说到VPLS的推广,7750确实起了很大作用。从本质上解放了运营商的资源也是不争的事实。7750这块太狠了,狠狠的扇了思科一巴掌。
    如HJ所说的,单端口8K队列也是前无古人的,对于运营商精细化运营来说,无疑很具有吸引力。当然最终部署的时候怎么样那且不考虑。
    AL做7750我认为是一个典型的通过产品创新改变市场规则的经典案例。
    Timtra其实是从juniper出来的一拨人做的。单纯的好产品小公司运作很难成名,也是需要有个好靠山才能做起来的。

  17. 黄岩 于 2010-04-14 2:02 上午

    这个写的好,赞一个。
    估计,一个好产品不能拯救ALU命运。

  18. 理客 于 2010-04-14 2:32 上午

    J是从思科出来的,看J的产品和特性开发有精品好价的意思,市场上打价格战的也不多,即使MX系列有低价抢市场的策略,但在3D化后,也比之前的单板也是精进了很多,似乎有回到原来产品风格的嫌疑。J出来的TIMTRA也许也继承了一些J的风格,当初J的这些人出来,也许是有不满思科开始对产品“粗制滥造”的因素

  19. droplet 于 2010-04-14 7:08 上午

    cisco粗制滥造能支撑起internet,这个比较牛。是没有其他选择,还是客户能够容忍?

  20. 理客 于 2010-04-14 8:38 上午

    开玩笑的,也许当时不满的某些人会有这种想法

  21. mpc8240 于 2010-04-14 10:26 上午

    单端口8K队列,运营中具体是怎么用的?谁给讲讲?

    And can’t wait to see why VPLS能不用就不用。

  22. manjusri 于 2010-04-14 11:30 上午

    这个是基于user或者flow分配队列,每个端口8K是指物理端口,实际应用中可以把物理端口逻辑化成N个逻辑接口用于接入不同的用户,所以8K就可以用光了。
    VPLS理论上要处理MAC学习、广播风暴抑制、loop-proof等问题,所以实际使用中经常要做优化处理
    具体在后面的章节会详细一点介绍
    其实许多技术没啥难度,只是一种knowledge而已,不是knowhow

  23. 阿牛 于 2010-04-14 2:21 下午

    manjursri:看了下来,写得很精彩!
    不知道你对802.1aq前景怎么看?

  24. 理客 于 2010-04-14 4:44 下午

    这个了解有限,粗浅的理解是把常用的SFP算法用在L2 Ethernet的路径计算,替代STP,肯定比STP好很多,但问题是用在哪里?坑都被别人占了好久了,很难找到好用的地方,找到一个PBT,但是PBT自己的前景目前都看不到,所以不知道1AQ的前景如何,如果查询历史上的很多标准,真正发挥作用的标准也许要比死去的标准要多,当然,不能说死去的标准就对我们最后选择的路线没有贡献

  25. ilovebgp4 于 2010-04-14 9:34 下午

    manjursri是理客的马甲?呵呵

  26. 陈怀临 于 2010-04-14 9:38 下午

    你这样的反应还做BGP。。。你找块(霉)豆腐撞死算了。。。
    整的现在才反应过来的说。真受不了。

  27. ilovebgp4 于 2010-04-15 6:51 上午

    被打击了…

  28. HJ 于 2010-04-15 10:35 上午

    well,事实上,Timetra的创始人团队都是从Nortel出来的,后期有一些Juniper/Procket/Cisco的人加入

  29. nowhere 于 2010-04-17 11:49 下午

    Apparently HJ knows Timetra a lot better than anybody else here. Rapid City->Bay->Nortel->Timetra->ALU. What a $150M deal for Acatel – it now generates ~1B revenue!

  30. ABC 于 2010-04-20 12:52 上午

    楼上的给说说历史吧。
    我还真是只听说T和J的关系,全然不知道和N。B还是知道,R就闻所未闻了。
    当时还想呢,J怎么会放走这么一批人啊。感情不是那么回事。

  31. TEST 于 2010-04-20 2:08 上午

    It seems nowhere know HJ well .

  32. fpeking 于 2010-04-29 5:59 上午

    Sri的团队还是比较成功的,HJ现在已经算是Sri的嫡系部队了。
    听说QR离开,去华为做总监了。

  33. 老刘 于 2010-05-01 1:23 上午

    客客牛呀!
    对整个网络和行业理解有深度、有看法。
    兄弟只有仰慕的份。
    这个系列应该是湾网上最好的系列文章,精彩!

  34. 老刘 于 2010-05-01 1:33 上午

    华为这两年在美国那边搞了不少牛人
    TI的前CTO fellow Alan Gatherer到Huawei
    做baseband SoC CTO…

  35. 理客 于 2010-05-01 5:17 上午

    老刘过讲了,本人只是基层工程师,业不精,域不广,这样的engineer,people mountain people sea

  36. appleleaf 于 2010-05-01 5:40 上午

    理客还这么害羞,搞个马甲。
    我也一直没有捧你的场,等首秘做成PDF之后通读一下。城域网,IPTV之类的大文章确实还没有勇气去touch。

  37. 理客 于 2010-05-01 5:58 上午

    是的,有一点,同时习惯于文章名字独立,也利于别人更好发表真实的感觉,个人的名誉或者说credit,是好东西,但也有弊端的地方,如果我们只看秦桧/蔡襄的书法,而不认识他们的落款,也许感觉会有不同。说到credit,每个人care的程度和方式也不同。

  38. 楼主 于 2010-05-27 2:31 上午

    楼主是卖7750的吗?

  39. 理客 于 2010-05-27 3:15 上午

    不是,是喜欢7750的