理人様 見ず知らずの者に温かいアドバイスをありがとうございます。 生物学の中だけ…
IT技術職からキャリアチェンジ!バイオインフォマティシャンになろう!
「バイオインフォマティシャン」という、聞き慣れない新しい職業があります。今回は、その基礎知識や職業としての仕事内容、プロフェッショナルとして求められるスキルなどを解説します。
筆者はバイオインフォマティシャンとして、大学における研究活動や企業における研究活動をしています。生命科学のデータを情報科学の手法によって解析する「バイオインフォマティクス」の世界に入って、約2年経った時点でいろいろと分かってきたので、実務的な観点から解説します。
バイオインフォマティシャンとは?
バイオインフォマティシャンとは、ゲノムやオミクス情報、臨床情報等の大規模情報について、情報技術や統計学、データサイエンスの手法を用いて解析するデータサイエンティストのことを指します。ゲノムやオミクス情報、臨床情報等の大規模情報は、生命科学を解き明かし、疾患原因の究明や創薬の源となるデータ資源です。データサイエンスの知見を利用してこれらのデータ資源を計算解析する人材のことを、バイオインフォマティシャンといいます。
[nlink url=/2023/07/06/what-does-bio-is-the-new-digital-mean/]
バイオインフォマティシャンに必要な知識
バイオインフォマティシャンになるには、生物学やプログラミング、統計学など、さまざまなスキルが必要です。
生物学の基礎
生命科学が土台となっているため、扱っているデータがどのようなことを意味するのかを理解する必要があります。例えば、以下は必要です。
- 分子生物学: DNA、RNA、タンパク質の基本的な概念や機能
- 遺伝学: 遺伝子の働き、遺伝的変異、遺伝子発現の理解
セントラルドグマといった、生物の授業で聞いたことがあるような単語が重要だったりします。
[nlink url=/2023/06/15/central-dogma-of-molecular-biology-as-a-bakery/]
コンピューターサイエンスとプログラミング
ここがバイオインフォマティシャンの肝であり、楽しいところです。例えば以下のスキルが必要です。
- 環境構築: Linuxシステムの環境設定やPythonの仮想環境構築など、情報を解析するための準備
- プログラミング言語: PythonやRのようなデータサイエンスに適した言語の習得
- アルゴリズムとデータ構造: 効率的なデータ処理とアルゴリズム設計
意外と大変なのが、最初の環境構築です。解析する前に、その前段階である仕込みのところで心が折れそうになったりします。LinuxやR、Python、Javaなどの環境構築・言語自体の理解が求められるため、IT企業のソフトウェアエンジニアなどは、バイオインフォマティクスにスムーズに入っていけるのではないでしょうか。
統計学とデータ解析
数学的な知見が活きてくるのはここです。深層学習など、最新の高性能計算機を使って大規模に解析するのが、現在のバイオインフォマティクスの主流です。常に新しい技術が登場してくるので、キャッチアップが必要です。
- 統計学: 確率論や統計的推論、回帰分析などの基本的な概念
- データ解析: データの前処理や可視化、解釈
- 機械学習: 教師あり学習、教師なし学習、深層学習の基本
一言に解析といってもその作業内容は実は膨大です。
コンピュータによる解析のためのデータ処理を基本とする作業の人もいれば、アルゴリズムそのものを数学的な観点から構築したりする人もいます。
例えば以下の記事では、数学からバイオに専門を変えた方の実体験を紹介しています。
[nlink url=/2023/08/10/carrier-change-math2working-phd-of-bio/]
バイオインフォマティシャンになって知ったこと
バイオインフォマティクスの分野では当たり前でも、私がこの世界に入るまではあまり知らなかったことは、以下のようなことです。
生命情報は、世界共通の規格化されたフォーマットで管理されている
バイオインフォマティクス分野では、生命情報を管理するために世界共通の標準化されたフォーマットが好んで使われます。データの統一性を保ち、科学者間でのデータ共有と再利用を容易にするために開発されています。以下はその例です。
- FASTA形式
用途: 核酸やタンパク質の配列データの保存
- BAM/SAM形式
用途: シーケンスアライメントデータの保存
- VCF形式
用途: ゲノムの変異情報(SNP、挿入・欠失など)の保存
これらある種、世界共通言語としてのファイルフォーマットと、ソフトウェア開発のオープンソース化という恩恵があり、あらゆる解析ツールを誰でも使って解析にチャレンジできます。
学際的な分野で、非常に多様なコラボレーションがある。
一口に生命科学といっても、そのアプローチの方法は多種多様です。バイオインフォマティシャンになると、非常に多様な専門領域を持つ人々とのディスカッションや共同研究ができます。一緒に仕事ができるのは以下のような方々です。
- 生物学的測定技術を開発する専門家
- 生命の微細な情報を抽出するための技術、例えばタンパク質相互作用を測定する。
- 工学や化学の知識を活用して新しい測定方法を開発する。
- 最新のオミクス技術を用いる研究者
- 空間オミクスやシングルセルオミクスなどの先進的な手法を使用する。
- 生命の謎を解明するためにこれらの技術を応用する。
- アルゴリズムとソフトウェア開発者
- 数学や情報科学の知識を活用して、新しいプログラミング技術やアルゴリズムを開発する。
- ソフトウェアとしてこれらのアルゴリズムを実装するため、むしろ生物学以外のバックグラウンドの人が大いに活躍できる。
- 高性能コンピューティング専門家
- スーパーコンピューターやGPUを使って大規模な計算を実行する。
- 複雑なデータセットの統計を解析する。
- インフラと計算環境の管理者
- データ処理と分析に必要な計算インフラストラクチャを設計、構築、管理する。
- 臨床データを分析する研究者
- 臨床現場に携わる傍ら、臨床医学の知見を生かし、臨床情報と遺伝子解析の結果を結びつける。
- 実際の臨床現場で見られる疾患に対する対策を講じる。
- 生命科学データベースの開発者
- 大量に存在する生命科学のデータを効率的に管理、整理するためのデータベースを開発する。
- 公共化されたデータのアクセス性と再利用性を高めることで、研究者らは蓄積されたデータを用いた解析が可能になる。
めちゃくちゃ多いですよね。
生命科学や臨床医学、高度なIT技術などあらゆる専門性を持った人々との連携が前提となっているためとても面白い領域だと思います。
バイオインフォマティシャンになると、こうしたあらゆる専門性を持った人々からのサポートや、ディスカッションを通じて、視野を広く持つことができます。このように、生命科学はコラボレーションが前提の分野でもあり、刺激になります。
IT技術職との相性がいい
これまで説明してきた特徴からも分かる通り、バイオインフォマティシャンの作業内容は、IT技術職と非常によく似ています。実際に、データサイエンティスト等としてのキャリアを築いてきた人が、バイオ分野に転向する話は実際によく聞きます。
バイオインフォマティクスの面白さ
バイオインフォマ、めっちゃ楽しいです。
ここまでの話を踏まえた、私からのメッセージは以下になります。
- エンジニアリング的な楽しさと計算機に触れ合う楽しさと、生命医学への貢献と探求的な面白さ
データサイエンス的な立場からIT技術者としてモデリングデザインやプログラミングなどしながら、
GPUスパコン含む最新の大規模計算機環境でゴリゴリと計算を回す楽しさがあります。
また一方では、生命科学研究者らと科学的な立場でのディスカッションに参加したり、
最新の研究論文成果を追ったり研究発表するなどして、非常に複合的な体験ができると思います。 - バイオインフォ人材は足りてない、みんなバイオインフォマやろうよ
人材の足りなさがすごいので、IT技術やデータサイエンスに強みがある人は積極的にこの領域にダイブしてみることをお勧めします。生命科学自体になじみがない場合でも全く問題ありません。むしろ学際的に複合領域なので、色々な分野出身の人が独自の強みを活かすことを歓迎する風潮があります。
バイオインフォマティシャンにスポットが当たる未来
今後は、生命ビッグデータの基盤がますます強固になり、生命情報の利活用が重要になっていくでしょう。バイオインフォマティシャンの需要も増え、メジャーな職種になっていくと予想されます。興味がある人は、バイオインフォマティクスを学んでみましょう。
要所要所に別記事が挿入されていて読みやすかったです!
文系の人でもバイオインフォマティシャンになれますか?