-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[2202.05240] ChemicalX: A Deep Learning Library for Drug Pair Scoring [paper-reading] #64
Comments
論文を色々眺めていた時に見つけた論文。 |
deep learning を chemical 分野に応用しようという動きは他分野と同様活発に実施されているが、先行研究は single drug task (入力が 1 つの drug の化学式で出力が何かしらの化学的活性を予測する、みたいなタスク) しか扱っていなかった。 この論文では drug pair を対象にする。 個別タスクの詳細なところを理解するには色々勉強しないといけないことがあると思うけど、大まかな全体像を眺めてみるという意味ではよさそうかなと思って読んでいる。 |
今回解きたい問題設定をお気持ちで図示すると以下のような図になる。 入力は 2 つの drug になる。これは本質的には構造式を入力している(実装上は TorchDrug https://torchdrug.ai/ というライブラリで定義されるオブジェクトになるのだが、情報量としては構造式と思っておけばよい)。 2 つの drug は encoder で分散表現へと変換され、2 つの分散表現を head layer で混ぜ合わせて出力をする。 |
この辺りの問題を取り扱うのに重要になる観点は以下のようなものがある。 分子の表現と特徴量分子の情報を余すことなく使いたい場合は 3 次元の配位情報と電磁気情報を使う必要があるが、それはフルで扱うのは大変なので proxy として 2 次元の化学式の情報を使う。この 2 次元情報は高校化学でやるようなケクレ構造式(水素の共有結合を線で表現するやつ)を用いる。 2 次元構造は古典的には分子の部分構造の有無に基づいた離散的特徴量(この部分構造があるとかないとか)を作るのに使われていた。 最近ではグラフ畳み込みを使って分子グラフの連続的特徴量を直接学習するようになっている。原子をノード、原子間結合をエッジとしてグラフとして扱い、原子の特徴量を集めて permutation invariant な pooling function を通すことで分子(ここでは drug )の特徴量を抽出する。 permutation invariant なのは(エッジの情報を取り込んだ)ノードの特徴量を使っているためである。 (全ての drug の特徴量抽出に GCN を使っているというわけではなく、単なる feedfoward network のモデルとかもある。典型的には GCN を使うものが多いということ) drug pair scoring でやりたいこと冒頭で挙げたように 3 つある。
drug discovery に使えるソフトウェア色々あるらしく論文では以下のように紹介されている。 |
drug pair scoring の定式化の部分を見ていく。 まずは drug feature set の定義。 次に context feature set の定義。 次に labeled drug pair の定義。 次に drug encoder の定義。 次に context encoder の定義。 次に scoring head layer の定義。 最後に loss function の定義。 |
feature が実際にはどういうものかという話。
データがどういうものなのかを知りたかったが、情報が少なくて残念だった。 |
あとは学習の仕方とか scalability と称してバッチサイズを変えた時の時間とか薬の数を変えた時の時間とか測ってるけど、あまり情報量がないので割愛。 あとは予測精度がどんなものかは以下。 |
potential user として、腫瘍学の専門家、計算化学者、薬の安全性の研究者、を挙げている。 ということで一通り読んでみた。 |
論文リンク
https://arxiv.org/abs/2202.05240
公開日(yyyy/mm/dd)
2022/02/10
概要
drug pair scoring task (2 つの drug を入力にして例えば特定の癌細胞を殺せるか否かなどを予測する) を解くための deep learning library である ChemicalX を構築したという論文。
pair scoring はいくつかの具体的なタスクが想定されており、複数の薬を使うことによる副作用、複数の薬の相互作用(効果が増強されたり打ち消されたりする)、複数の薬のシナジー効果(ある疾患を治療する時に複数の薬を使うことで単独の薬を足す以上の効果を発揮する)、などがある。
この論文自体では新しいモデルを提案したというものではなくて、上記のような具体的なタスクを抽象化して pair scoring task という一つの枠組みに統一したこと、それらにマッチするように色々なデータセットを整理して扱えるようにしたこと、先行研究で提案された主要なモデルを使って scoring task に適用できるようにしたこと、それらを ChemicalX という一つのライブラリにまとめたこと、が主たる貢献となる。
公式実装: https://github.com/AstraZeneca/chemicalx
The text was updated successfully, but these errors were encountered: