生物多样性信息学研究进展
摘要:生物多样性信息学是一门年轻而蓬勃发展的新学科。它将现代的信息技术带入生物多样性及其相关学科的研究领域。它在生物多样性基础数据的数字化、模型工具、专家系统、数据整合,全球、地区和国家性生物多样性网络等多个方面的发展,向我们展示了未来在全球范围内自由、免费获取生物多样性研究信息和数据的局面,并为我们实现全球保护战略目标,解决生物多样性危机,全球气候变化条件下生物多样性资源管理和利用奠定了坚实的信息基础。
关键词:生物多样性,信息学,数据库,物种,标本,地理信息系统
Progress in Biodiversity Informatics
Abstract: Biodiversity Informatics is a young and rapidly growingfield that brings information science and technologies to bear on the data andinformation generated by the study of biodiversity and related subjects. Recentyears, biodivesity informatcis community make an extrondinary efforts in digitizationof primary biodiversity data, modelling tools, expert system, data integration,and county/regional/global biodivesity networks. In doing so, it is creatingunprecedented global access to information and data produced by biodiversityscience; it is also building a strong information facilities in implementing thegoals set by Global Plant Conservation Strategy, resvolving biodiversity crisisand management of biodiversity resource in global climate change scenarios.
Key words: Biodiversity, Informatics, Database, Species, Specimen, GIS
前言
信息技术的发展对科学研究的影响是巨大的。从基础数据的采集、信息存储、分析到科学假设的形成和验证,所有科学研究的相关活动在计算机和网络技术的帮助下正逐渐自动化。在21世纪,信息技术在支持测试、计算公式、提出假说等方面将继续扮演日益重要的中心角色。科学的计算机化具有很高的潜在利益—从广泛的科学数据中产生知识,为各类技术创新铺平道路,这些技术创新从个性化机器到处理和避免气候变化的影响包罗万象(Muggleton, 2006)。
数字地球、数字城市、数字电视、数字图书馆、数字地图……,不仅仅是时髦的词汇,而是现代知识创新、知识转移和知识传播信息时代的形象表达。在科学诸多领域中,生命科学所具有的信息量几乎是无限的,并且依然保持着指数式的增长方式。生命科学中最基本的科学问题是物种问题,植物物种的研究决定性地影响着从宏观的全球生态系统至微观领域的生命DNA分子构造等全部研究内容,更与国家目标中的农业、能源、信息、环境、人口与健康,以及可持续发展等问题的研究和解决直接相关。
通过几个世纪的研究积累,全世界现已认知有花植物物种数目约22万~40万种(Govaerts, 2001,2003; Groombridge and Jenkins, 2002; Kier et al., 2009; Scotland and Wortley,2003; Tangley, 1997; Thorne, 2002);我国现已描述和认知的植物物种约3万余种(Yang et al.,2005),占世界已知物种总数的10%左右。植物物种是最基本和最重要的植物自然科技资源。物种及其存在凭证的重要原始材料是保藏在标本馆中的植物标本、植物园栽培的活植物、自然保护区和原始林区等自然植被中存在的物种。据粗略估计我国数百个标本馆共保存植物标本约1千7百万份(付立国等,1993),涵盖中国全部植物物种和世界物种约5万种;各地植物园不重复计算,引种栽培我国约60%的野生植物约2万种,引种国外物种约5000种。这些植物物种、标本和活植物是我国植物自然科技资源中最重要的原始性材料。国际上近年来把基于高科技方法保存的植物器官(种子)、营养体和蛋白质和DNA大分子材料等,也都归于植物自然科技资源保护、研究和利用的热点范畴。
目前,植物自然科技资源的研究管理已经进入崭新的迅猛发展年代,随着宏观、微观生物学实验观测手段的改善,引起了生物数据和信息的“爆炸”式增长。传统的信息管理、处理方式已显得力不从心。引入信息学及计算机科学的最新技术和成果,成为生物学家驾驭庞大数据信息的唯一选择。近年来信息技术的发展,例如大容量电子存储媒介、因特网、分布式数据库技术和开放性数据共享政策,如大范围的数字化工作、数据对公共普通用户的开放性使用,为生物多样性信息的产生、维持、传播和使用带来了革命性的发展(Bisby, 2000; Bisby et al., 2002; Brent and Bruck,2006; Causey et al., 2004; Edwards et al., 2000; Kagan, 2009; Krishtalka andHumphrey, 2000; Krishtalka et al., 2002; Oliver et al., 2000; Paton, 2009;Smith et al., 2000)。由于大量研究实践活动的涌现,生物学家和计算机专家的积极合作和努力,科学家们意识到需要有一个新的研究领域来界定这些科研人员积极的研究活动,明确他们的研究目标、内容、工作方法,对这些研究活动的将来做出科学地规划和设计,并且合理评价这些科研活动对社会的贡献和价值。因此,科学家们开始通过会议摘要、口头报告、个人博客、文章等多种形式来讨论相关的问题,并最终使用“生物多样性信息学”(BiodiversityInformatics:简称BI)这个词来界定这一活跃而蓬勃生长的新研究领域(Canhos et al., 2004; Cotter and Bauldock, 2000;Godfray, 2002; Godfray, 2007; Godfray et al., 2007; Graham et al., 2004a;Guralnick and Hill, 2009; Johnson, 2007; Kagan, 2009; Lane et al., 2000; Page,2008; Paton, 2009; Sarkar, 2009a; Sarkar, 2007, 2009b; Soberon and Peterson,2004)。
图1. 生物多样性信息学和生物信息学的联系和区别
科学家们认为,BI指利用信息技术,对生物有机体基础数据(Primarydata)的管理、算法的探究、分析和解释,尤其是在物种水平上的应用(Berendsohn and Geoffroy, 2007; Johnson, 2007; Soberonand Peterson, 2004)。因此,它涉及到对信息的收集、存储、提交、检索和分析,它主要关注单个有机体、居群和分类群以及它们的相互关系。它的信息内容覆盖了系统学、进化生物学、居群生物学、行为科学,以及从传粉生物学到寄生病和植物社会学等的大生态等领域。
如同其它信息学科的研究方法一样,作为信息学的一个分支,BI依赖计算机技术和信息学的原则来处理异质性数据的管理和应用。我们可以应用信息学的普遍原则和技巧来处理生物多样性基础信息,但是我们也面临思考一些创造性的方法来解决生物多样性领域信息化的特殊性问题。例如:如何在信息系统中对生物有机体名称和分类概念间建立联系,从而完整记录分