Skip to content
Toda edited this page Jul 31, 2020 · 28 revisions

Welcome to the aptamCORE (aptamer Clustering Organizing, Really Efficiently) wiki!

概要

SELEX 法のような、塩基配列の濃縮を目的とした複数回の実験を行う手法において、NGS により出力された配列データを処理し、可視化するアプリケーションです。

  • FASTQ ファイルの読み込み
  • クオリティによるフィルタリング、FLASH2 を用いたペアエンドのマージ
  • CD-HIT-EST を用いたクラスタリング
  • クラスター内に含まれる配列の確認
  • リード数をカウントし、棒グラフで可視化
  • ラウンド間の共通クラスターの存在を Venn 図で可視化

という機能があります。


使用法

設定の変更


メニュー左の aptamCORE をクリックし、プルダウンメニューから Settings をクリックしてください。



Views セクションではテーブルに表示されるカラムの選択や、配列数の変更を行えます。



Compare セクションでは、Compare 画面において使用される値の種類(数か割合か)および表示されるグラフの数や大きさを変更できます。



Color セクションでは、塩基の背景色を変更できます。


解析


開始画面で New Analysis をクリックしてください。



任意の名前を入力し、保存ボタンをクリックしてください。ここで入力した ファイル名(.db)という sqlite 用ファイル、およびファイル名(.db)-開始時刻という名前の中間ファイル出力用フォルダが作成されます。



解析条件を設定してください。Save As Preset ボタンで、現在入力中のパラメータを保存できます。default という名前で保存すると、毎回開始時に読み込まれます。



青い四角をクリック、エクスプローラーからドラッグアンドドロップ、File メニューから Add Dataset で、Fastq ファイルを指定してください。.fq.gz、.fastq.gz、.fq、.fastq が読み込めます。



ペアエンドのデータを入力とする場合は青い四角の下のラジオボタンで変更してください。



順番が違っている場合はドラッグアンドドロップで変更してください。



ファイルを全部指定し終わったら、左の Analyze ボタンを押してください。



計算が始まります。



このような画面になると正常に処理が完了しています。何も表示されない場合、パラメータの設定を見直してください。回転画像の画面から変化しない場合は、タスクマネージャを確認してください。最も時間がかかる部分は CD-HIT-EST であり、類似のプロセス名がタスクマネージャのリストに見つかる場合は計算中です。そのようなプロセス名が無い場合、どこかでエラーが起きている可能性があります。その場合は状況説明等を添えて Issues に問題を投稿していただけると、解決できるかもしれません。


結果の確認

Information パネル


左の Information ボタンを押すと、処理条件と結果の要約を確認することができます。項目が示す内容は以下の通りです。
  • Processed Sequences:入力になった FASTQ に含まれていたリードの数
  • Accepted Sequences:リード用フィルタを通過したリードの数
  • Rejected Sequences:リード用フィルタを通過できなかったリードの数
  • Accepted Clusters:クラスター用フィルタを通過したクラスターの数
  • Accepted Cluster Sequences:クラスター用フィルタを通過したクラスターに含まれるリードの数
  • Rejected Clusters:クラスター用フィルタを通過できなかったクラスターの数
  • Rejected Clusters' Sequences:クラスター用フィルタを通過できなかったクラスターに含まれる配列の数

Paired End のデータを使用した場合にのみ表示されるデータ
  • Merged Fastq:中間ファイル出力用フォルダ以下にできる、マージ後の FASTQ
  • Fastq File1:マージに使用された FORWARD リードの FASTQ
  • Fastq File2:マージに使用された REVERSE リードの FASTQ
  • Merged Reads:マージされたリードの数
  • Not Merged Reads (Forward):マージされなかった FORWARD リードの数
  • Not Merged Reads (Reverse):マージされなかった REVERSE リードの数


Families パネル


左の Families ボタンを押すと、クラスターを代表する配列を確認することができます。左上の Member ラジオボタンをオンにすると、クラスター内の他の配列が確認できます。



左上の Compare ラジオボタンをオンにすると、ラウンドごとのクラスターの大きさを確認することができます。Compare パネルの情報も参照して下さい。


Sequences パネル


左の Sequences ボタンを押すと、各ラウンド(FASTQ ファイル)に含まれる配列を確認できます。ラウンドごとの配列数を確認することもできます。Compare パネルの情報も参照して下さい。


Compare パネル


左の Compare ボタンを押すと、ラウンドごとのクラスターの大きさを一覧することができます。ラジオボタンで、棒グラフに使用する値の変更ができます。
  • Filters:塩基の割合等で結果をフィルタリングする際に使用します。

  • Scoring Function:

    • Ratio in the selected dataset:左側のパネルで選択したデータセット(ラウンド)内での割合が大きい順に並べます。
    • Minimum Diff:直前のラウンドとの差を計算し、最も小さい差が大きい順に並べます。
    • Final Diff:最初のラウンドと最後のラウンドの差を計算し、大きい順に並べます。
    • Minimum Ratio:直前のラウンドとの比を計算し、最も小さい比が大きい順に並べます。
    • Last Ratio:最初のラウンドと最後のラウンドの比を計算し、大きい順に並べます。
  • Target Type:

    • Cluster Representative:クラスターの代表配列を走査し、そのクラスターに含まれる全配列数(リード数)を使用します。
    • Cluster Members:クラスターを構成する全配列を走査し、ある配列が含まれるクラスター内に含まれる全配列数を使用します。
    • Sequences:ある配列の数そのものを使用します。


Venn パネル


左の Venn ボタンを押すと、各データセット(FASTQ ファイル)において、同じクラスター、もしくは配列が存在するか、存在しないかを示す Venn 図を表示します。具体的にどのようなクラスター/配列が含まれるかは Export して確認します。
  • 注意
    • Create Fastq ボタンは、そこにリストされているデータセットだけでなく、全データセットについて Fastq ファイルを出力します。例えば、A, B, C とデータセットにクラスター 1~4 が A(1,2,3,4), B(1,2), C(1,3) と存在する場合、A, B に共通するクラスターをとると、A(1,2), B(1,2), C(1) として出力されます。
    • Create Fastq ボタンにより出力される Fastq のクオリティは、元の Fastq ファイルのクオリティでなく ”P” が与えられます。


備考

  • 外部アプリケーションに使用されたオプションは中間ファイル出力用フォルダ内の system.log 内に出力されています。
Clone this wiki locally