Mission Critical系统设计--浅谈Mars Pathfinder 1997(1)

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




公元1997年7月4日 。地球 。天气晴朗 。地球人和往常一样,有人在做乐,有人在做爱。。。在遥远的Mars(火星),来了一个来自地球文明的客人。。。经过接近 7个月的飞行,来到了神秘的火星。。。她就是来自NASA的Pathfinder。

火星人不做乐,也不做爱。他们什么也不做。一切都静悄悄的。。。默默观察着这位来自地球的客人。

Pathfinder从去年(1996年)12月4日,就开始了飞行。7月4日的上午10点07分[Mars的早晨3点,太阳还没有出来],悄悄的降落在火星。这一天是辽国独立日。大家都在后院烧烤,整点小啤酒,过点小生活。有一批人除外。谁?加州理工JPL(喷气式推进实验室)的工程师和科学家们。JPL的创办人之一是谁?是,就是他,钱学森。

辽国整了个喷气式,是整天的;宋朝克隆过去,是整人的。这就是区别。还好,钱学森同学没有被喷气式整过,否则不知如何感想。。。

NASA在1990年代的口号是“”faster, better and cheaper”[FBC] 。这是NASA第9任头Daniel Goldin在1992年提出的口号。Mars Pathfinder是这个精神指导下的第一个航天器系统。

NASA Faster-Better-Cheaper Vision. In 1992, NASA’s chief administrator Dan Goldin proposed the FBC initiative to produce spacecraft that were inexpensive and yet reliable. FBC is defined as significantly reducing the development cost of a spacecraft on a compressed schedule and NASA designating a program as FBC. The average FBC program cost $145M with less than 3 years to develop versus an average of 7 years for a traditional spacecraft. The FBC philosophy is smaller and less expensive spacecraft are not inferior to larger spacecraft. In producing smaller and less complex spacecraft, costs would be reduced by reducing development cost, reducing weight and thus launch costs, reduce operational costs, and reducing risk by making them less complex. Mission loss due to catastrophic failure is reduced by being able to produce several spacecraft for different aspects of a mission. Mission failure is avoided since the entire mission is not encapsulated into one spacecraft and subject to total loss.

Pathfinder有多faster?这个faster不是指运转速度,而是指项目从立项,研发,发射的周期。不到3年!!!

Pathfinder有多better?能带到处跑的小车(rover)上去了。这是人类探索外星球的首次!

Pathfinder有多cheaper?这是NASA对Mars的第3次冲击。前面2次叫做viking。花费是:1974年9.3亿美金,相当与1997年的350亿美金。Pathfinder的研发费用:1.5亿。项目总花费2.8亿。确实很便宜。

97年7月4日,Mars Pathfinder顺利降落在经纬19.13°N 33.22°W。


Pathfinder的生命周期是:从1997年7月4日着陆,中间历经了4,5次主控系统重启,到1997年9月27日最后一次完整的数据通讯,到1997年10月7日最后发回的一个微弱信号。

火星上发生的一切,就象那远古的爱情。那么遥远,但又是那样的近。世界上的距离不是火星,而是爱恨情仇。。。。。。

要理解Pathfinder,要知道起组成。Pathfinder系统是两个大东东:Lander和Rover(小车)。Lander就是那个大的东西,小车是在Lander上面的。降落之后,小车到处跑。Lander是不动的,通过摄像头到处照像。

上面第一张图是96年JPL的科学家在组装。大家可以看到什么是Lander和小跑车(rover)。第二张图是到了Mars之后,Lander上的IMP照相机拍的照片,前方是小跑车,在一个石头旁边。

降落后,第一张发回给地球的照片是来自Lander,是7月4日的下午4:28。

但是在试图启动Lander和Rover的通讯的时候,出现了第一次的没有连接上。但后来不明原因的恢复了正常,小车被顺利释放。

小跑车离开Lander后,发出的第一张照片是7月5号的晚上10:59。JPL的弟兄们贼来劲er。。。

但是大家发现,在7月5日的3:20PM,Lander主机主控CPU之前被reset过!!!第一次reset是7月4日的晚上10:30PM。

是谁?是什么原因?乌云笼罩在JPL的上空。。。

[Lander发回给地球的第一张照片]

[Rover发回给地球的第一张照片:回望Lander]

精确的说JPL的工程师在7月4日晚上就发现Lander和Rover(小跑车)通讯不正常。开始以为是Rover的Modem通讯软件问题。但在7月5日的3:20的一次调试让他们意识到主机出了问题。追查,亲,在7月4日第一天的晚上10:30PM就被神秘的重启过。 Pathfinder是在4日的10:07AM着陆的。

Pathfinder的动力系统来自太阳。所以Pathfinder在7月4日10:07AM降落后,必须等到Mars的太阳升起,才能利用其太阳能板,整个系统Power On。系统起来后,通过高频天线发回给地球的第一个信息应该是在下午2点07分。

在7月5日首次意识到7月4日10:30发生了主控CPU reset之后,Caltech JPL的科学家们在7月10号,11号,14号。又都发现了系统重启的现象。每次系统重启带来的后果是丢失了许多数据。[照片都是存放在Lander的主控CPU的内存中的]。

JPL的人很不理解。为什么系统reset?

新闻界基本上是在7月5日早晨就知道和报道了这个系统问题特别是开始小车与主控通讯不通[是天大的事情。(1)Pathfinder是人类第一次用rover探测外星球。(2)来自地球遥控全是通过Lander主控通知rover小车]。CNN在7月5日下午的报道,说Lander和Rober通讯问题解决了那个时候JPL其实还不明白rootcause。问题并没有真解决。


CNN的相关报道摘要:

“More significantly, mission managers reported that Soujourner and Pathfinder were having difficulty communicating via their radio link. NASA officials said at a press conference late Friday that transmissions between the two vehicles were garbled. Failure to solve the problem would render the mission’s centerpiece useless.Project officials, including rover manager Jake Matijevic, remained up beat in the face of their first real long-distance fix-it test.”

“We have every confidence that we’ll find a way to fix this problem,” Matijevic said.”

在那遥远的星球上,一切都是静悄悄的。没有利益的争夺,没有战争,没有哭泣。也没有爱情,没有诗篇。她吸纳着一切的流言和猜测。唯一的回答只是沉默。。。她似乎在诉说着亿万年前的文明,也好像在思考着曾经的沧海桑田。。。

爱情都会淡去;英雄都会凋零。Pathfinder在10月7日的上午7点21分发出了给地球的最后一个信号,就再没有醒来。。。这个信号被在西班牙的天线捕捉到了。今天2012年的7月4日。15年前她带着人类的梦想,离开蔚蓝色的母亲,飞赴火星。15年了,她静静的躺在那片遥远的地方。。

永远没人知道发生了什么,所有的都是猜测。JPL的科学家们试图让Rover迅速的往回赶,回到主控Lander的身边。这一切都已经没有意义。就像一个女人,如果不爱你了,挽留只是多余。Lander和Rover就这样在那寒冷的星球上,没有来得及做最后得拥抱,最后的亲吻,再也不可能了。

2006年12月,9年之后,地球文明通过卫星拍摄的照片。Rover在最后的时候,奋力想回到主控的怀抱。。。只差6米。。。

下面是Pathlander的结构立体图。要注意的是她的两个天线。一个LGA;一个HGA。

下面是Rover的立体结构图。小车是纯靠太阳power的。大家可以看见上面的solar panel(太阳能板)。这也是之前说的,在7月4日(地球时间)上午落地之后,必须等到地球时间晚上,Mars sunrise的时候,小车才能工作。小车晚上通常是不工作的。

在Lander立体结构图中,我们可以看到最上面的一些传感器,这是1997年火星科学考察计划中3个试验中的重要一个:关于火星大气层和气象的观察。Atmospheric Structure Instrument/Meteorology Experiment (ASI/MET). 1997年的事故出就出这个上面!!

下面是Pathfinder的平面结构图。读者要注意的是1553Bus。这是Mars探测器,或者是NASA许多系统很重要的一环。1997年问题的本质就是和这个军工1553有关系。。。什么OS层面的Priority Inversion都是表象。。。

Pathfinder的电源系统大概是这样的。1. Lander自己带了一个可充电的电池。 2. Rover带了一个一般的,不可充电的电池。大家白天都靠太阳能支持。晚上或者在传图像的时候,电池也得上。晚上基本上是为了保持仪器的温度而开。[Mars晚上的温度很底,很冷,零下120度]。

Pathfinder是一个复杂的计算机系统,CPU只是其中的一个环节。除此之外,还有多个ASCI芯片和FPGA芯片。大家靠Bus互连。请读者参阅相关的注释,并会逐步解释。。。

PathLander项目从研发到航天器升空只用了不到3年的时间。非常快!JPL的主要是研发那些ASIC和整机和科学试验装备。其中ASIC是在Cassini项目上改造过来的,例如,直接加1553B的interface[类似于在数通ASIC的时候,加一个PCI interface]。Cassini是NASA最成功的项目之一。

Cassini倒是晚于Pathfinder去Mars。Cassini是1997年10月5日升空飞往Saturn土星[Pathfinder都已经死了:-)。10/7日最后的一个信号]。什么时候抵达土星轨道的?2004年7月1日。飞了nearly7年!!!



(16个打分, 平均:4.63 / 5)

雁过留声

“Mission Critical系统设计--浅谈Mars Pathfinder 1997(1)”有7个回复

  1. bend,or 于 2012-07-09 5:50 下午

    期待首席接着把机遇与勇气的事儿也说一说。火星上的尘埃几乎瘫痪了太阳能板,也恰是火星上的沙尘暴神奇的解救了。但火星上的沙暴能与帝都的相比么。辽国人还真土鳖,到底是没见过世面的,不解风情。连1976年viking拍的那张脸都大惊小怪的。

  2. wenlujon 于 2012-07-10 2:09 上午

    root cause没有找到?

  3. siverhawk 于 2012-07-10 8:55 上午

    太精彩了,为啥邓峰不给首席投资搞技术科普类型的网站

  4. locochen 于 2012-07-10 3:25 下午

    最好奇这么远的记录,本地控制系统如何交互的。按照什么原则分开这两部分的。难道是所有的数据,地球上都是被动接受?

  5. 瀚云 于 2012-07-10 7:58 下午

    这个重启没有什么神秘色彩吧?那种恶略环境下在地球没有办法完全模拟吧?包括风沙、温湿度、甚至不知名元素的侵蚀都有可能~~硬件出问题的概率远大于软件~

  6. 路人 于 2012-07-13 12:36 下午

    pathfinder频繁重启就是因为Vxworks优先级反转吧?

  7. kevint 于 2012-07-15 10:05 上午

    据说此问题在太空车上天之前就出过2,3次。工程师没当回事。后来在实验室复现后才定位