Vet IT

TOP 統計学 獣医学 IT 生命工学 バイオインフォマティクス ケモインフォマティクス 機械学習 数学(統計以外) 趣味 ブログについて

作成日:2024年4月6日

元論文

CellOracleのbaseGRN構築について

目的:CellOracleのアルゴリズムと実装について理解する。

TFとその標的遺伝子間の重み付けされていない、有向のエッジを含むベースGRNを構築する。
1.scATAC-seqデータを用いたプロモーター及びエンハンサー領域の同定
2. プロモーターおよびエンハンサーDNA配列のモチーフスキャン
2つの作業から構成される。
なぜ行うのか:この作業によって制御遺伝子の候補を絞り込むことができることと、GRNにおける制御エッジの方向性を定義するのに役立つ。 ただし、この時点のbase GRNには偽の、もしくはinactiveな接続が含まれている。
TFの制御メカニズムは結合モチーフのアクセシビリティだけによって決定されるのではなく、多くのコンテキスト依存的要因の影響を受ける可能性がある。
ポイント:ここではscATAC-seqを用いてbase GRNを構築していて、scRNA-seqデータは次のステップで利用する。
どのようにしてscATAC-seqデータからプロモーターやエンハンサー領域を同定するのか:CellOracleがまず近位制御DNAを同定する。(HOMERを利用) 遠位制御遺伝子はCiceroを用いて同定する。
モチーフスキャンについて
なぜ行うのか:プロモーターのDNA配列やエンハンサーの断片をスキャンして、TF結合モチーフを同定するため。
どうやって実装しているのか:内部的に、gimmemotifsを利用している。

単語:br /> ・bedファイル: Browser Extensible Dataの略.染色体上の位置情報に何らかのスコアを加えて表現するためのファイル。
・psuedo time: 細胞の相対的な活動やバイオロジカルプロセス(細胞の分化・遷移状態)の進行を表す指標
Bagging Ridge model
Bayesian Ridge model
RNA velocity

参考サイト
Ciceroの使い方 Code Availability:https://github.com/morris-lab/CellOracle