"お主を取り巻くフォースを感じろ" マスター・ヨーダ
英単語 | この文書での日本語 | 他に検討した単語 |
---|---|---|
column | 列 | カラム、フィールド |
comma | コンマ | カンマ |
all | すべて | 全て |
HTS | 次世代シークエンシング | HTS、NGS、ハイスループットシークエンシング |
- コンマ区切りファイルをタブ区切りファイルに変換する
Convert delimiters to TAB
- ユニークなシーケンスを持つFASTAファイル
FASTA-to-Tabular
→Unique occurrences of each record
(advanced parameters) →Tabular-to-FASTA
N
などの文字を含むシーケンスを削除する
FASTA-to-Tabular
→Filter data on any column using simple expressions
with
(condition:c2.find('N') != -1
) →Tabular-to-FASTA
- 5列あるファイルから3列目を抽出する
Cut columns from a table
でc3
- 列の並べ替えまたは列の入れ替え
Cut columns from a table
でc3,c2,c1
- 列1に、あるエントリーが現れる数を数える
Datamash
でGroup by fields
: 1、Operation to perform
: count とする - 列1,4,5が同一である行をすべてグループ化する
Datamash
でGroup by fields
: 1,4,5 - 列から行へ、行から列へ(転置行列)
Transpose rows/columns
- ファイルサイズを小さくする。例えば、テストのためのファイルのサブサンプリング
Select random lines from a file
- シーケンスファイルサイズを小さくする。例えば、テストのためのシーケンスのサブサンプリング
Sub-sample sequences files
- Merge two files together according to one column in every file
Join two files
- ユニークな列を追加する
Add column to an existing dataset
でiterate
: Yes とする - 2列目が0よりも大きな値である行をすべて削除する
Filter data on any column using simple expressions
でc2>0
- 4列目が「hsa」で始まる行をすべて取得する
Filter data on any column using simple expressions
でc4.startswith('hsa')
- 2列目と3列目の合計が10よりも大きい行をすべて削除する
Filter data on any column using simple expressions
でc2+c3>10
- 2列目に含まれる文字列の長さが10よりも大きい行をすべて削除する
Filter data on any column using simple expressions
でlen(c2)>10
- 3列目に含まれるコンマで区切られたすべての値ごとに新しい行を作成する(展開)
Unfold columns from a table
でColumn 3
かつComma
- 文字列のはじめの4文字を切り取って、新しい列の値にする
Replace Text in entire line
でFind Pattern
: ^(.{4}) かつReplace Pattern
: &\t - 「TA」という塩基をすべての塩基配列の終わりに加える
FASTA to Tabular
→Add column
でTA
→Merge Columns
→Cut columns
→Tabular to FASTA
- すべての行にダブルクォーテーション(")を追加する
Compute an expression on every row
でchr(34)
(34 は ASCII コードの"
) - 0を含まない数値を含むすべての列を数える。平均を計算するが、0であるすべての列を除外したい場合に便利です。
Compute an expression on every row
でbool(c1) + bool(c1) + bool(c3)
...
- RNA-seqデータのマップ
HISAT
orTopHat
- DNA-seqデータのマップ
Bowtie
orBWA
- methylC-seq データのマップ
Bismark
- リードで変換される遺伝子をすべて取得する
htseq-count
で BAM ファイルの遺伝子アノテーション GTF file を指定 →Filter data on any column using simple expressions
でc2>0
- gff, bed, gtf といったファイルから塩基配列を抽出して、FASTA ファイルを返す
Extract Genomic DNA using coordinates from assembled/unassembled genomes
- 近くに位置する2つの遺伝子を探す
Description :: Tool Shed
- Galaxy 101 - a must read for all HTS Padawan: https://wiki.galaxyproject.org/Learn/GalaxyNGS110
- ポップコーンを食べながらGalaxyの使い方を学ぶたくさんのビデオ: https://vimeo.com/galaxyproject
ここに記載されたすべてのツールは Galaxy Tool Shed で入手できます。使ってみたいときはお近くの Galaxy 管理者に相談してみてください。