ケモインフォマティクスとは?《初心者向け要点解説》
目次
1.ケモインフォマティクスとは
「ケモインフォマティクス」とは、”chemistry“と”informatics“を合わせた言葉であり、1998年にF・K・ブラウンによって導入された用語です。
日本語では、「情報化学」と呼ばれる研究領域であり、より速くより良い判断をするためにデータを解析して体系化することを目指すものです。
具体的には、できるだけ少ない実験数で網羅的に条件検討することを目指す実験計画法や、医薬品・材料などの分子探索、生体との相互作用を見る構造活性相関研究などに利用されています。
以下、いくつかの手法について簡単に紹介します。
2.多変量解析
(1)多変量解析とは
「多変量解析」は、複数のデータ間の相互関連を分析する統計的手法のことです。
これを活用すれば、例えば「○℃の時に△gの試薬を使うと収率は×%になる」や「温度は収率に影響を及ぼさないが、濃度と湿度が収率に影響を及ぼす」などと分析することが可能になります。
多変量解析は、その目的によって「予測」と「要約」とに大別されます。
(2)多変量解析における「予測」と「要約」
「予測」は、(1)に挙げた例の前者に当たります。予測の手法では、予測したいデータである「目的変数」とそれ以外の「説明変数」に分けることが必要になります。
例えば、目的変数は収率で、説明変数が温度、添加量、・・・などを表すことになります。
予測には、重回帰分析や判別分析、ロジスティック回帰分析が用いられ、これにより温度や添加量(説明変数)が〇の時に、収率(目的変数)がどうなるかなどの予測が可能になります。
「要約」は、(1)の例の後者のように、多くの変数を少ない変数で説明しなおすことをいいます。
これには、主成分分析、因子分析、コレスポンデンス分析などが用いられ、目的に対して影響が大きいデータとそうでないデータの比較を予測できるようになります。
3.ベイズ最適化による実験計画法
(1)実験計画法とは?
近年、研究業務の効率化の観点から、AIを利用したベイズ最適化による実験数の低減が試みられています。
ベイズ最適化では、まず「ガウス過程回帰」という手法を用いて、実験から得られたデータをモデル化し、入力データに対して別変数の予測値を算出できる関数を作ります。この関数から、任意の実験点における予測値とばらつきの程度をもとに実際に実験を行い、さらにモデル化を行う…というようにこれらを繰り返し、最適値を導きます。
(2)実験計画法の利点: 人間との比較
従来、人が最適な反応条件を見つける際には、その人の知識や感覚などを頼りに最初の実験点の周りを条件検討するので、条件検討の中で最適と考えた実験点は、最大値ではなく極大値である可能性があります。
例えば、反応温度、濃度、試薬を加える量の条件検討を考えた時、50℃、1 mol/L、1.5当量から検討を始めた場合、反応系が複雑になったら温度を下げたり、濃度を下げたり、等量を絞ったりという方向に検討をしたくなるかと思います。その結果、収率90%で得られたらこれが最大値だと思い、検討をやめてしまうかもしれませんが、本当は逆方向に良い点がある可能性もあります。しかし、人間の知識と勘のみでこれらすべての実験点をつぶそうとすると、莫大な時間がかかってしまいます。
実験計画法では、多くの実験点を網羅的にかつスピーディーに検討できます。
(3)実験計画法の課題・展望(AIとの関係など)
実験計画法では、入力する実験点の結果をもとに関数を導き、これに基づいて最適化するわけですから、入力する実験結果は正確(テクニカルミス、分析誤差などが少ない)なものである必要があります。
人間の経験と勘であれば、このエントリーはエラーだとか判断して外すことができますが、AIではできないためです。(逆に言えば、人間のデータの棄却が間違っていることもあるので良し悪し)
また、課題として、PC等の環境整備やプログラミング言語の修得、コンピュータに対応した方式での実験データ整理などの技術的ハードルが挙げられます。さらには、従来法への信頼感と慣れやAIに乗っ取られる感覚が心理的ハードルとなることもあります。
しかし、先述のように実験データは必ず集めなくてはならず、かつAIが導いた最適化結果を検証し解釈するのも人間の役割であるため、AIを絶対的で特別なものとして考えるのではなく、あくまでツールの1つと捉えるほうがいいと考えられます。現在、これらのハードルを軽減するためのソフトウェア、アプリ等の開発も進められており、今後の進展に期待が持たれます。
4.創薬におけるケモインフォマティクスの活用
(1)背景
医農薬の開発成功確率は、年々低下傾向であり、10万~20万化合物に1つとも言われています。
これら一つ一つを合成して評価するには莫大な時間がかかります。
また、研究の進展とともに合成容易な化合物から探索されつくして、難易度の高い骨格を有する化合物にも探索の手を伸ばす必要が生じ、さらに探索は時間がかかるものとなっています。
具体的には、ある化合物候補が見つかってから実際に製品化するまでに10-15年を要するといわれています。
そのため、ケモインフォマティクスを活用した開発の効率化、スピード化が期待されています。
(2)ケモインフォマティクスを用いた創薬の概要
創薬では、ケモインフォマティクスとバイオインフォマティクスを組み合わせることで、候補化合物のスクリーニングを可能にしています。
前者では、まず化合物の構造をコンピュータが認識できる形(数値、行列化)とし、これを多次元のケミカルスペース(化学空間)にプロットしていきます。
化合物が薬として作用するかどうかを解析するには、たんぱく質との相互作用を見る必要がありますが、先のように化合物を化学空間に置くことにより、コンピュータ上で構造を分類して比較し、たんぱく質の立体構造などとの相互作用を予測できるようになります。
次に、薬が作用する側、すなわち、たんぱく質やRNA・DNAは高次構造を持つ複雑な分子ですが、バイオインフォマティクスを用いてこれらの立体構造を予測することができます。
そして、化学空間に置いた候補化合物とたんぱく質等との相互作用を解析し、薬理が発現するか予測していくわけです。相互作用を可視化するソフトウェアもあるため、予測結果の解釈とさらなる化学空間の拡大に向けた検討に役立てることができます。
このようなインフォマティクスを用いた探索のことを「in silicoスクリーニング」といいます(”in silico”とはシリコンの中、すなわちコンピュータの中でという意味です)。
これで確かに予測することはできますが、ここでも計算化学はツールの一つとして考え、実際に化合物を合成して検証し、評価することが軸になるということを忘れてはなりません。
以上、ケモインフォマティクスについてご紹介しました。
計算化学的手法の発展により人間の届かない点の予測が可能になったことに加え、働き方改革による研究の効率化や化学廃棄物量低減への要請も相まって、ケモインフォマティクスの利用が注目されています。
(アイアール技術者教育研究所 Y・F)
《参考文献》
[1] Brown, K. F., annual reports in medicinal chemistry, 1998, 35, 375.
Chemoinformatics: What is it and How does it Impact Drug Discovery. – ScienceDirect
https://www.sciencedirect.com/science/article/abs/pii/S0065774308611008?via%3Dihub
[2] 機械学習を駆使して20実験以内で条件探索完了―世界初の「スルファミド」のワンフロー合成法開発に成功― | 国立研究開発法人日本医療研究開発機構
https://www.amed.go.jp/news/release_20210820.html
[3] 創薬支援インフォマティクスシステム構築 | 国立研究開発法人日本医療研究開発機構 (amed.go.jp)
https://www.amed.go.jp/program/list/11/02/001_02-02.html
- ケモインフォマティクスに関するセミナー情報はこちら
- 多変量解析に関するセミナー情報はこちら
- 実験計画法に関するセミナー情報はこちら