生命情報のデータベース化 2010年版(平成22年版)
生命現象には,階層性が存在する.たとえば,対象の小さいものから大きいものの順に並べると,分子(例:H2OやCO2)・生体高分子(DNA,RNAやタンパク質)・細胞内小器官(ミトコンドリアや葉緑体)・細胞・組織・器官・個体・集団(あるいは個体群)・生態系・地球環境となるだろう.これを一般的に「生物学的階層性」という.生物学的階層性の各層を「階層レベル」という名で呼ぶと,それぞれの階層レベルには情報が存在する.
たとえば,DNA が「ゲノム情報」といわれるように,遺伝情報の本体としての DNA分子には,タンパク質や RNA をコードするようないわゆる遺伝子やそれらの産生を制御するような情報が刻みこまれている.とくに,DNA分子は A,T,G,C というアルファベット 4種で略される塩基という化合物が長く重合したものであり,実験的にその塩基の並び方を明らかにすることができる.つまり,DNA情報は,4文字表記による長い文章あるいはデジタルデータとして,その塩基の並び方を解読することができるのである.このことを塩基配列を「解読する」とか「決定する」という.2008年から 2009年にかけて,この塩基配列解読のスピードや効率がとてつもなく向上した.たとえば,ヒトゲノムを解読するのに 1985年から 2003年まで 18年もの長い歳月と莫大な資金が投入されたが,現在では一人のヒトのゲノム DNA は,わずか数ヶ月程度でなおかつ費用も 1000万円以内で解読することが可能になっている.また, 2010年には,一人のヒトのゲノム DNA をわずか数分で解読できるとするナノバイオテクノロジーまでも出現している.このような塩基配列データは,日米欧の 3局の国際協力によって国際 DNA データバンク*としてデータベースが構築され,そこに格納されているデータの総塩基数や総件数は年々指数関数的に増加しているが,さらなる極端な伸びが予想されている.
このような塩基配列データに代表されるように,近年の生命化学の発展により,生物学的階層性のそれぞれの階層レベルにおいて,程度の差こそあれ,新規なデータが大量に産生されてきている.とくに今後は,細胞・組織・器官のそれぞれの階層レベルにおいて,それらの形状だけでなく一分子の動きなどの画像や動画を多用した高次元のデータが大量に産生されることが予想される.これらの情報も,もちろんデータベースとして収集・格納・蓄積されていく.このとき,それぞれの階層レベルに存在する生命情報については,可能な限り因果関係を含めた関連性を糸をつむぐように繋げることができるようにしながら,データベースを構築する必要がある.このような関連性を用いて論理的な整合性により情報を繋いでいくことを「統合化」というが,生命情報の統合化データベースの構築が非常に重要であり,急がれる課題でもある.
【五條堀孝】
*日本は静岡県三島市の国立遺伝学研究所生命情報・DDBJ研究センター,欧州は欧州分子生物学研究所(EMBL)のイギリス・ケンブリッジ郊外にある 欧州生命情報学研究所(EBI),米国は国立衛生研究所(NIH)国立バイオテクノロジーセンター(NCBI)がそれぞれ担当している.