English

GHOST-MP

必要なもの

ビルド

  1. アーカイブのダウンロードと展開
  2. makeコマンドの実行

次のコマンドで、ghostmp_makedbとghostmp_searchがビルドできます。 Fujitsu C/C++コンパイラを利用する場合は、makeコマンドの際に’-f Makefile.fcc’ オプションでMakefile.fccを指定してください。

$ tar zxf ghostmp-version.tar.gz
$ cd ghostmp-version/src
$ make

使用方法

GHOST-MPは、ghostmp_makedbコマンドで、 前もってFASTAフォーマットの配列ファイルからghostmp_searchで検索可能な データベースを構築しておく必要があります。 このデータベースに対して、ghostmp_searchで高速なクエリ配列の検索が行えます。 ghostmp_searchの検索結果はBLASTのタブ区切りフォーマットで出力されます。

# Construct the formatted database from FASTA format file:
$ ghostmp_makedb -i db.fasta -o db

# Run a sequence similarity search:
$ mpiexec -n NUM_PROCESS ghostmp_search -i query.fasta -d db -o result

Commands and Options

配列データベースの構築
ghostmp_makedb - convert a FASTA file to GHOSTX format database files.

  ghostmp_makedb [-i dbFastaFile] [-o dbName] [-l chunkSize]

  Options:
  (Required)
    -i STR    Protein sequences in FASTA format for a database
    -o STR    The name of database

  (Optional)
    -l INT    Chunk size of the database (bytes) [1073741824 (=1GB)]
    -t STR    Database sequence type, p (protein) or d (dna) [p]
類似配列の検索
ghostmp_search - parallel homology search tool.

  ghostmp_search [-i queries] [-o output] [-d databes] [-v maxNumAliSub]
                 [-b maxNumAliQue] [-M scoreMatrix] [-G openGap] [-E extendGap]
                 [-l CandidatesSize] [-s lowerCutoff] [-T UpperCutoff]
                 [-S searchLength] [-q queryType] [-t databaseType]
                 [-a numThreads] [-L maxNumHits] [-w maxAliLen]

  Options:
  (Required)
    -i STR    Input query name (must be formatted)
    -o STR    Output file
    -d STR    database name (must be formatted)

  (Optional)
    -v INT    Maximum number of alignments for each subject [1]
    -b INT    Maximum number of the output for a query [10]

    -M STR    Score matrix file[BLOSUM62]
    -G INT    Open gap penalty [11]
    -E INT    Extend gap penalty [1]

    -l INT    Maximun size of the candidates (Bytes) [134217728 (=128MB)]
    -s INT    Lower limit cutoff score for seed search [4]
    -T INT    Upper limit cutoff score for seed search [30]
    -S INT    Maximum length of alignments in seed search [10]
    -q STR    Query sequence type, p (protein) or d (dna) [p]
    -t STR    Database sequence type, p (protein) or d (dna) [p]
    -F STR    Filter query sequence, T (enable) or F (disable) [T]
    -a INT    The number of threads [1]
    -L INT    Maximum number of hits [67108864]