存有超过2PB肿瘤基因组数据的GDC将于2015年开始运行

Sina WeiboBaiduLinkedInQQGoogle+RedditEvernote分享




12月2日,芝加哥大学跟美国国家癌症研究中心联合宣布启动用于存储肿瘤基因组数据的Genomics Data Commons项目(简称GDC),项目负责人是芝加哥大学的Robert Grossman教授。

 

众所周知,NCI资助了大量的肿瘤研究项目,比如TCGA。这些项目累计完成了超过一万个病人的基因组测序工作,但这些数据都散落在各地。NCI觉得应该把这些数据攒在一起,发挥更大的作用。根据GDC项目的Q&A,这些数据总共有大约2.2PB。GDC未来每年会增加1PB的存储以应对NCI的新项目。

 

新闻稿里面专门说明:“GDC所使用的存储和分析技术跟Google和Facebook等公司使用的技术很相似”。相似到什么程度?NoSQL?HDFS?Spark?还是Spanner?不得而知。

 

Grossman在生物云计算耕耘很久了。他领导了

Open Science Data Cloud项目(https://www.opensciencedatacloud.org/)。通过芝加哥大学内部的合作开发了The Bionimbus Protected Data Cloud,这是唯一一个由NIH资助的用于存储TCGA项目数据的云计算平台。

 

感觉NCI已经是科研主管机构中在云计算方面最激进的组织了。刚刚给ISB、Broad和SBG发了1900多万美元用于建设癌症云计算平台,现在又启动了用于存储数据的GDC。

 

NCI似乎已经把数据存储和数据分析拆成了两个部分。两个部分之间的接口会如何设计?GA4GH的Genomics API会得到NCI这些项目的支持吗?ISB、Broad和SBG的癌症云计算平台如何跟GDC进行对接与合作?美国人依然在领跑全世界,2015年肯定会有更加精彩的东西。

 

我们的差距依然明显,无论是数据量、成果还是投入。863、973等诸多癌症研究项目产生的数据还捏在极少人的手中,落满灰尘。

 

比历史,我们已经没办法了。1937年8月5日,富兰克林罗斯福总统签署美国癌症法案,成立了NCI。在此前一周,日本借口卢沟桥事件全面占领北平。未来呢?我们还有机会。

(1个打分, 平均:5.00 / 5)

雁过留声

Comments are closed.