an ultra-high-performance protein-protein docking for heterogeneous supercomputers

Application to Protein-Protein Interaction Predictions

protein-protein interaction prediction

coming soon...


MEGADOCKはドッキング計算結果に基いてタンパク質間相互作用(PPI)予測(結合パートナー予測)を行うことができます. Matsuzaki et al., Protein Pept Lett 2014Ohue et al., BMC Proceedings 2013などでMEGADOCKによるタンパク質間相互作用予測 が行われており,網羅的な相互作用予測の結果からPPIネットワークを構築しています.

本頁ではPPI予測の手順について記載します.具体的なパスウェイ解析への応用例等については文献を参照して下さい.

● PPI予測(結合パートナー予測)の手順

PPI (Protein-Protein Interaction) 予測は,MEGADOCKに同梱しているppiscoreツールを用いて行います.ppiscoreにドッキ ングoutファイルと候補構造数を入力することで,PPI評価値 \(E\) を計算します.(ppiscoreはperlスクリプトで記述されています.)

1. MEGADOCKによる \(t=3\) ドッキング
まずMEGADOCKによって,相互作用の有無を予測したい対象の2つのPDBのドッキング計算を行います.このとき,-tオプションを3に,-Nオプションを10800に設定して下さい.
$ megadock -R rec.pdb -L lig.pdb -o dock.out -t 3 -N 10800

2. リランキングによる高精度化(省略可)
候補構造に対する詳細計算を行うツール(リランキングツール)を用いて高精度化を行います.ここではZRANK1 (Pierce et al., Proteins 2007) を用いてリランキングを行う手順を示します.

(1) PDBファイルに水素を付加する
ZRANKの計算には水素が付加されたPDBファイルが必要です.ここではReduceというフリーソフトを用いて水素付加を行う手順を示しますが,AmberのprotonateやDiscovery Studioなどでも同様の操作が可能です.
$ ./reduce rec.pdb > rec.pdb.h
$ ./reduce lig.pdb > lig.pdb.h 

(2) .outファイルを編集する
ドッキング出力ファイルの3行目と4行目にあるPDBファイル名を,水素を付けたPDBファイルに変更します.((1)で上書きを行った場合は変更する必要はありません)

(3) ZRANKの実行
以下のようにZRANKを実行します.
$ ./zrank dock.out 1 10800
すると,dock.out.zr.outというファイルが生成されます.

3. PPI評価値の計算と評価
ppiscoreツールを使ってPPI評価値 \(E\) を計算します.

(a) リランキングを行わない(2. を省略した)場合
$ ./ppiscore dock.out 10800
(b) リランキングを行った場合
$ ./ppiscore dock.out 10800 dock.out.zr.out
※ZRANK以外のリランキングツールを利用する場合,ツールの出力に沿って.outファイルの中身をソートしておくことで,(a)の手順で計算可 能です.

計算したPPI評価値 \(E\) に対して閾値 \(E^*\) を定め,\(E^*\) との値の大小でPPIの有無を判定します. \begin{align*} \begin{cases} E > E^* & → 相互作用する\\ E \leq E^* & → 相互作用しない \end{cases} \end{align*} 感度 (sensitivity, recall) と選択度 (precision) のトレードオフになりますが,通常は \(E^*=6.0~7.0\) 程度に設定します.選択度を高くしたいと きは \(E^*=10.0~13.0\) 程度に上げます.\(E^*\) による精度の変化についてはZLAB docking benchmark (Mintseris et al., Proteins 2010) の複合体を用いて検証した結果を下部に載せましたのでそちらもご覧ください.

● PPI予測の性能情報(ZLAB Docking Benchmarkを用いた検証)

ZLAB docking benchmark 4.0の120個の複合体の結合相手を全通りで入れ替えて(14400個の)PPI評価値 \(E\) を計算し,正しい結合相手を識別できるか検証した結果を示します.用いた120個の複合体のPDB ID (BenchmarkのIDに準拠) を以下の表に示します.

表:PPI予測に用いた120複合体のPDB IDリスト (ZLAB docking benchmark 4.0 より)
Rigid-body (79)
1AK4, 1AVX, 1AY7, 1B6C, 1BUH, 1BVN, 1CGI, 1CLV, 1D6R, 1DFJ, 1E6E, 1E96, 1EAW, 1EFN, 1EWY, 1F34, 1FC2, 1FFW, 1FLE, 1FQJ, 1GCQ, 1GHQ, 1GL1, 1GLA, 1GPW, 1GXD, 1H9D, 1HE1, 1J2J, 1JTG, 1KAC, 1KTZ, 1KXP, 1KXQ, 1MAH, 1N8O, 1OC0, 1OPH, 1OYV, 1PPE, 1PVH, 1QA9, 1R0R, 1S1Q, 1SBB, 1T6B, 1TMQ, 1UDI, 1US7, 1XD3, 1YVB, 1Z0K, 1Z5Y, 1ZHH, 1ZHI, 2A5T, 2A9K, 2ABZ, 2AJF, 2B42, 2BTF, 2FJU, 2G77, 2HLE, 2HQS, 2I25, 2J0T, 2O8V, 2OOB, 2OUL, 2PCC, 2SIC, 2SNI, 2UUY, 2VDB, 3D5S, 3SGQ, 7CEI, BOYV
Medium Difficulty (23)
1ACB, 1GRN, 1HE8, 1I2M, 1JIW, 1LFD, 1M10, 1MQ8, 1NW9, 1R6Q, 1SYX, 1WQ1, 1XQS, 2AYO, 2CFH, 2H7V, 2HRK, 2J7P, 2NZ8, 2OZA, 2Z0E, 3CPH, 4CPA
Difficult (18)
1ATN, 1BKD, 1F6M, 1FQ1, 1H1V, 1IBR, 1IRA, 1JK9, 1PXV, 1R8S, 1Y64, 1ZLI, 1ZM4, 2C0L, 2I9B, 2IDO, 2O3B, 2OT3
もともとの複合体の結合相手を正解とし,評価値 \(E\) と閾値 \(E^*\) に基いてPPI予測を行ったときの精度を示します.相互作用すると予測したペアが正しい複合体である場合をTrue Positive (TP),相互作用すると予測したペアが正しい複合体でない場合をFalse Positive (FP),相互作用しないと予測したペアが正しい複合体である場合をFalse Negative (FN),相互作用しないと予測したペアが正しい複合体でない場合をTrue Negative (TN),とし,TP, FP, FN, TNのペア数から以下の式で各精度の値を計算します. \begin{align*} \mathrm{Precision}&=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}\\ \mathrm{Sensitivity\ (Recall)}&=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}\\ \mathrm{F}\mbox{-}\mathrm{measure\ (F_1}\mbox{-}\mathrm{score)}&=\frac{2\cdot\mathrm{TP}}{2\cdot\mathrm{TP}+\mathrm{FP}+\mathrm{FN}} \end{align*} それぞれの精度の閾値 \(E^*\) による変化を下図に示します.左はリランキングを行ったもの,右はリランキングを行わない場合のものです.両者ともbenchmarkのboundデータを使用しています.


また,あるレセプタータンパク質から見たときの120個のリガンドタンパク質のPPI評価値の順位から,「正しい相手がどのくらい上位にいるか」(early recognition problemと呼ばれます) を評価するいくつかの指標を計算し,120個のレセプタータンパク質で平均をとったものを以下の表に示します.各値の説明 は表の下に記述します.
bound 120x120 (with ZRANK) bound 120x120 (without ZRANK) unbound 120x120 (with ZRANK) unbound 120x120 (without ZRANK)
ARP 20.05 21.66 60.67 54.97
RIE 4.661 4.832 0.988 1.165
AU-ROC 0.840 0.826 0.499 0.546
AU-AC 0.833 0.820 0.494 0.542
BEDROC 0.602 0.624 0.127 0.150
EF 3.458 3.625 0.958 1.167
※これらの値は120個のレセプタータンパク質について計算したものを平均したものになります.

● PPI Affinity BenchmarkによるPPI評価値と\(\Delta G_d\)の相関

PPI Affinity Benchmark (Kastritis et al., Protein Sci, 2011) を用いてPPI評価値 \(E\) とbinding affinity \(\Delta G_d\) の関係を検証しました.PPI Affinity Benchmarkの全144複合体に対してPPI評価値 \(E\) を求め,\(\Delta G_d\) とのPearson相関 係数を求めた結果を示します.
また,以下にそれぞれの散布図を示します.

図:PPI Affinity Benchmarkの144複合体のPPI評価値 \(E\) とAffinity \(\Delta G_d\).各点がタンパク質複合体を表す.


● 参考文献

MEGADOCKグループ関連

その他の研究グループ
Copyright © 2014-2019 Akiyama Laboratory, Tokyo Institute of Technology, All Rights Reserved.
Email: megadock @ bi.cs.* (please replace * with titech.ac.jp)
Last update: April 17, 2019