ビックデータと生命科学 2015年版(平成27年版)
ビッグデータとは,膨大なデータをコンピュータ上に集積し,機械学習と呼ばれる情報技術や統計処理を駆使して,データの山から宝物(データの中に潜む規則性)を探し出してビジネスや科学に活かそうとする活動を指す言葉である.科学の分野では,経験(実験)科学,理論科学,計算科学に次ぐ第 4 の科学(データ中心科学とも呼ばれる)やデータ駆動型科学という言い方をされることもある.ビッグデータという言葉が出てきたのはほんの数年前であるが,瞬く間にいろいろな分野で広く使われるようになった.この背景には,生体や地球環境等の計測・観測技術,インターネットなどの通信技術,機械学習やデータベース等の情報技術の近年の急速な進歩がある.これにより,膨大なデータの収集,格納,解析が簡単に行えるようになったことがある.
生命科学においても,まさに同様な状況がここ数年起きてきている.生命の設計図とも呼ばれるゲノム配列を高速かつ安価に決める等の計測技術の革命的な進展により,分子や細胞に関する情報を網羅的に収集することができるようになったことがその背景にある.例えば,以前は 30 億文字からなるヒトのゲノム配列一人分相当を決めるのに約 15 年の歳月と数千億円の費用を要したものが,いまでは,一人ひとりのゲノムを 10 万円ほどで決めることが可能となった.ゲノムに限らず,健康情報や環境情報も容易に取得できるようになり,また,植物や微生物等のゲノム情報などの収集も簡単にできるようになり,基礎研究においても,医学,薬学,農学等の応用研究においても,ビッグデータの大きな波が押し寄せてきている.生命は多様かつ複雑で解明が難しいだけに,ビッグデータ解析によるアプローチに期待が集まっている.例えば,どのようなゲノムのタイプの人がどのような生活習慣や食生活をすれば,どういう病気になりそうかがわかって,予防につながるのではないかという期待である.
しかしながら,そう簡単には事は運ばない.生命科学のデータには,ビジネスやその他の科学とは大きく異なる性質がある.データには種々のエラーや文脈依存性(どのような目的で,どのような細胞から試料をとったか,どのような計測装置をどう使ったか,など)や解釈の多義性があり,また,生命科学は数式や法則で記述することが本質的に困難であり,曖昧性や多義性を伴う言葉,文章,画像,ポンチ絵で記載されるため,計測装置からのデータと既存の知識をそのままコンピュータに格納し,機械学習ソフトウェアをかければ済むというわけにはいかない.目的や計測手段の異なるデータや知識をさまざまな観点から整理・統合化して,機械学習を使って意味のある答えが出せるようなデータベースに昇華させないといけない.このようなことを行う研究分野はバイオインフォマティクスと呼ばれるが,ビッグデータ時代においてはこの分野がますます重要になる.そして,これを発展させるには,生物学医学の知識とコンピュータの知識の両方をもった研究者が必要不可欠である.
【 高木利久 】