对arxiv文章0608638的译介
信息资源的爆炸式增长彻底改变了数据库管理分析的方法。数据处理的挑战几乎涵盖了所有的科学分支。当天文学开始用CCD取代了照相底板的时候,就走上了信息化的进程,来自于观测(数字化巡天)和模拟(比如宇宙结构形成、超新星爆发)的数据容量开始指数增长。现在全球的天文数据量已经达到了1PB,而且还在以2T/天的速度增长。数十TB的数据处理已经十分寻常,几PB的数据集很快就会出现。
天文社区为了应对这样的挑战引入了“虚拟天文台”(VO)的概念:这是一个基于网络的天文研究环境,将分散在各地的研究资源整合在一起,有着规范的海量数据存档、并提供高维的数据分析和计算工具。在虚拟天文社区中,像存档、标准、协议等数据管理方面的内容都已经有了显著的进展。但是在为这些庞大昂贵的数据库开发检索和分析工具,增加科学产出方面,进展缓慢。虽然有很多现成的数据挖掘工具和系统,但真能有效用于TB甚至PB级数据的却很少。高维统计和复杂度带来的挑战比数据量本身更大。工具的缺乏以及科学产出的不足阻碍了群体的进一步投入。这恐怕是eScience所面临的最严峻的问题。 继续阅读