对arxiv文章0608638的译介
信息资源的爆炸式增长彻底改变了数据库管理分析的方法。数据处理的挑战几乎涵盖了所有的科学分支。当天文学开始用CCD取代了照相底板的时候,就走上了信息化的进程,来自于观测(数字化巡天)和模拟(比如宇宙结构形成、超新星爆发)的数据容量开始指数增长。现在全球的天文数据量已经达到了1PB,而且还在以2T/天的速度增长。数十TB的数据处理已经十分寻常,几PB的数据集很快就会出现。
天文社区为了应对这样的挑战引入了“虚拟天文台”(VO)的概念:这是一个基于网络的天文研究环境,将分散在各地的研究资源整合在一起,有着规范的海量数据存档、并提供高维的数据分析和计算工具。在虚拟天文社区中,像存档、标准、协议等数据管理方面的内容都已经有了显著的进展。但是在为这些庞大昂贵的数据库开发检索和分析工具,增加科学产出方面,进展缓慢。虽然有很多现成的数据挖掘工具和系统,但真能有效用于TB甚至PB级数据的却很少。高维统计和复杂度带来的挑战比数据量本身更大。工具的缺乏以及科学产出的不足阻碍了群体的进一步投入。这恐怕是eScience所面临的最严峻的问题。下面就通过两个例子来说明这种变化。
天文图像分析中的一个经典问题是对探测目标进行形态学分类。先要将空间上不能分解的源(比如恒星,实际上也包括类星体,以及其他角分辨率小于仪器分辨率的天体)同那些可以进一步分解的目标(比如星系,或者星云)区分开来。如果需要的话,还要进行二次分类,把可分解的目标按照具体的形态特征再次分成不同的类型(比如各类星系)。形态分类的准确性和完备性常常比探测极限更能制约数据的科学应用。
对于均匀的图片,这个问题早前20年前就已经得到了很好的解决。典型的办法有参数空间的划分,监督分类法,神经网络等机器学习工具,或者决策树等等。随着现代多波段多时段巡天项目的发展,众多巡天数据和VO中的其他观测结果开始结合,但由于各组数据的数据质量和特征各不相同,需要大量的统一定标工作,形态分类重新回到了困难时期。
另一方面,时域信息已经成为天文学最热门的研究前沿之一。包括超新星、伽玛爆、微引力透镜事件,行星掩食,星体耀变,超大质量黑洞的吸积耀变,快速移动天体等等的瞬变天象都需要能够快速反应的观测系统。有些重要的天象只会存在几秒,对它们后续特征的研究势必会拓展我们对宇宙的认识和理解,带来新的发现。在数TB的数据流中,每晚能发现上千个瞬变事件,根据观测到的亮度变化,光谱和其他特征,从实际图像中分辨出瞬变事件,并给出每次事件属于某一类型的可能,自动通知相关用户。而且所有相关图片都要实时公布在网站上,以便核对。当然,最有意义的输出应该是那些不符合任何特征的事件,它们可能意味着新的发现。
今天的所有科学都由信息科技承载。但客观的说,我们还没能充分利用这些巨大数据库中蕴藏的丰富信息。随着数量的增长,信息提取的挑战也越来越明显。