日本NTTDoCoMO网络崩溃事故调查分析报告--智能手机信令风暴

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




(2个打分, 平均:5.00 / 5)

雁过留声

“日本NTTDoCoMO网络崩溃事故调查分析报告--智能手机信令风暴”有6个回复

  1. 陈怀临 于 2012-02-07 9:35 下午

    看了鬼子的分析报告。感觉如下:1。12月底和1月初的算设备handle不了burst traffic。可以理解。2。 但1月25日的Packet Switch的VoIP丢包算人祸,估计是哪个山本或者猪口君配错了QoS。[VoIP算小报文。voice delay不能超过150ms]

  2. 陈怀临 于 2012-02-07 9:54 下午

    鬼子处理12月和1月初的事故里面有一个动作很漂亮。12/30日,shaping和控制基站side往sp-Mode方向的signal traffic:做整体QoS控制。鬼子比我想象的聪明。

  3. midshipman 于 2012-02-08 2:48 上午

    呵呵,在手机端也有解决的办法,T-Mobile NL 也有过类似问题。FastDormancy能够有效减少手机端发起的信令请求。

  4. 理客 于 2012-02-08 4:59 上午

    从报告看,根源是NTT自己对用户增长估计严重不足导致,如果是这个原因,那么就是NTT拼命增加数据用户,但又不想投资更大,因为数据用户的revenue/per bit太低,虽然一般来说incumbent的运营商会有比较充足的资源和容量,但在移动数据竞争和上市年报的压力下,减低成本永远是boss的一个关键需求。
    在这个大背景下,NTT的没能对设备的实际能力给出正确的评估、测试和设计,从而引发了一系列事故,但NTT在系列事故的早期,并没有引起足够的注意,直到事故不断出现,越来越大,以致引来了公众压力,这个过程,似乎和日本核电事故的处理有些类似。从日本人处理事故的方式,也可以看出和德国相对彻底的反省有很大的不同,虽然日本近代最大的老师是德国,但在反省方面,仍然是日本式的,要让日本人彻底服气,一定是美式大棒,菊花与剑没有在书里直接说的,但是美国精英统治层是看明白了的。当然,作为曾经的日本的老师,中国人其实早就知道:中国强,日本就是妾,中国弱,日本就是倭寇

  5. 理客 于 2012-02-08 5:08 上午

    不出问题是不可能的,关键是系统设计对出问题后的预案设计。
    技术上,有一些基本原则很重要,但未必能很好的执行:比如故障最小范围隔离原则;已在线用户优先保证原则等,如果这些原则在产品设计和网络设计中做得好,即使出了问题,造成的影响是比较可控的

  6. EC 于 2012-02-12 7:21 下午

    1月23日割接入新的4台xGSN成果,1月24日半夜割接入新的3台xGSN,25日事故。这样也可以怪信令风暴?估计是人祸或者鲁棒性设计缺陷。对策里(P12)可以看得更清楚,如果真的是信令增长那扩容就不会等到优化、扩容8月甚至更晚了。