⽂献注釈情報MeSHを利⽤した網羅的な
遺伝⼦の機能アノテーションパッケージ
理化学研究所 情報基盤センター
バイオインフォマティクス研究開発ユニット 特別研究員
露崎弘毅
BMB2015@神⼾ポートアイランド
データベース⽣物学 : 公共データの再利⽤による新しい
研究スタイルのすすめ(3W24)
⾃⼰紹介
・名前 : 露崎弘毅(つゆざき こうき)
・所属 : 理化学研究所 情報基盤センター バイオインフォマティクス研究開発ユニット
(RIKEN ACCC BiT)
特別研究員
・研究歴 :
緑膿菌の菌体間コミュニケーションのシミュレーション(学⼠)
→ 緑膿菌のバイオフィルム形成に関与するパスウェイ予測(修⼠、博⼠)
→ 緑膿菌の機能アノテーションパッケージの開発(趣味)
→ Single-cell RNA-Seqのデータ解析、解析⼿法・ソフトウェア開発(現在)
@antiplastics
⾃⼰紹介
次世代シークエンサー DRY解析教本(細胞⼯学 別冊)
清⽔厚志(監修)、坊農秀雅(監修)
http://www.amazon.co.jp/dp/4780909201/
・Level1-③「Rの使い⽅」
・Level3-⑤「R + biomaRt + reshape2 + ggplot2 + grid + entropy」
を担当
遺伝⼦機能アノテーションとは
DNA Microarray
SNP-array
CAGE
SAGE
RNA-Seq
ChIP-Seq
…	
分子生物学的な機能	
どのような転写因子結合
サイトを持つのか	
興味がある遺伝子のリスト
(DEGs, SNP, CNV)
HNRNPR
ZNF436
TCEA3
ASAP3
E2F2
ID3
GALE
HMGCL
FUCA1
CNR2
…	
オミックス実験
(102 – 104遺伝子)	
こいつらは何者?	
どのパスウェイに属
するのか
MeSH
Medical	Subject	Headings	
PubMedの注釈情報	
文献に対するアノテーションである、	
MeSHを遺伝子に対するアノテーションとして使いたい
MeSHの利点
語彙数がGOより多い	
語彙の種類がGOより多い	
Nakazato,	T.	et	al.,	2008	
2倍以上!	
GO	
(3カテゴリー)	
MeSH	
(16カテゴリー)	
BP: Biological Process
CC: Cellular Component
MF: Molecular Function	
A : Anatomy
B : Organisms
C : Diseases
D : Chemicals and Drugs
E : Analytical, Diagnostic and Therapeutic Techniques
and Equipment
F : Psychiatry and Psychology
G : Phenomena and Processes
H : Disciplines and Occupations
I : Anthropology, Education, Sociology and Social
Phenomena
J : Technology and Food and Beverages
K : Humanities
L : Information Science
M : Persons
N : Health Care
V : Publication Type
Z : Geographical Locations
既存のMeSHによる
遺伝⼦機能アノテーションツール
http://gendoo.dbcls.jp/
http://gene2mesh.ncibi.org/
http://cbrc.musc.edu/homepage/jani/genemesh/index.html
これらは全てWebアプリケーション	
→	自動化・解析パイプライン化するためには、コマンドで実行できるようにしたい
BioCHackathon 2013
Bioconductorパッケージをみんなで開発するハッカソン	
(二階堂さんがTwiGerで募集)	
露崎弘毅	
当時博士課程学生	
	
緑膿菌にMeSHを	
使いたかったため参加	
師田郷太	
当時博士課程学生	
	
家畜動物にMeSHを	
使いたかったため参加	
二階堂愛(現在のボス)	
当時理研CDB	
	
MeSHを使った	
遺伝子機能アノテーションを	
Rパッケージで実装したい	
仲里猛留	
DBCLS	
	
すでにGendooというMeSH	
を使ったデータベースを開発	
@dritoshi	
@anNplasNcs	
@chikudaisei	
@chalkless
どの⽣き物まで作るか
120生物種を選別
(諸事情で現在は89)	
NCBIがGene IDを
管理している	
ゲノムワイドなツールが
対応している	
PubMed ID-Gene
IDの対応関係が
100件以上ある
どのようにGeneとMeSH
を対応させるか
Gene ID	 PubMed ID	 MeSH ID	
HNRNPR
ZNF436
TFEA3
ASAP3
E2F2
…	
23445621
23521515
53515315
51231357
61646667
…	
Cancer
Stem Cell
Internet
Software
USA
…	
(テキストマイニング)	
gene2pubmed
(キュレーターによる)	 ライセンス版
PubMed
(キュレーターによる)	
上記の方法では十分な数のMeSHが割り当てられなかった
100生物種については、代表的な15生物種間と総当たりで、
総方向BLASTベストヒットを実行した
MeSH ORA Framework
(完成図)
各データ、関数を別々のパッケージとして実装	
現在は、
MeSH.XXX.eg.dbと改名
カバレッジ
適⽤事例1
緑膿菌(Pseudomonas aeruginosa)
「5%だけ増えた(笑)」
(露崎、博⼠論⽂より)
野⽣株PAO1の
遺伝⼦機能アノテーション
何しているのかわかってない遺伝⼦
MeSH.Pae.PAO1.eg.db
Package
Tsuyuzaki.	K,	BMC	BioinformaNcs,	2015	Tobramycinに強い抵抗性を示した、変異型緑膿菌	
(Gallagher,	L.	A.,	et	al.,	mBio,	2011)	
トランスポゾン 薬剤耐性の
スクリーニング
GOと類似した結果を得られる一方、	
“Drug	Resistance”,	“Biofilm”など、
MeSHでのみ見れる医療用語があった	
Togo	picture	gallery	by	DBCLS	is	licensed	under	
a	CreaNve	Commons	AGribuNon	2.1	Japan	license	©
適⽤事例2
ラット(Rattus norvegicus)
カロリー制限群
対照群
505 DEGs
GOと類似した結果を得られる一方、	
疾患名など、MeSHでのみ見れる
タームがあった	
Tsuyuzaki.	K,	BMC	BioinformaNcs,	2015	
Chujo,	Y.,	et	al.,		
Age	(Dordr),	2012
適⽤事例3
家畜動物で初めてMeSH	ORAを適用	
⽜(Bos Taurus)
豚(Sus scrofa)
⾺(Equus caballus)
Morota,	G.	et	al.,	Animal	GeneNcs,	2015	
Wikipediaより
適⽤事例4
Laporta	J.	et	al.,	PLOS	ONE,	2015	
乳分泌を制御するセロトニンに関与する機能を特定	
マウス(Mus musculus)
対照群
セロトニン
⽋失群
⽋失 +
セロトニン投与群
97 DEGs 204 DEGs
詳しい使い⽅
kokitsuyuzaki/MeSH.markdown	
(GitHub	Gist)	
> source(“http://bioconductor.org/biocLite.R”)
> biocLite(“meshr”)
> vignette(“MeSH”)
または、Rコンソール画面で以下をコピペ
今後の展望
I. データ更新の⾃動化
NLM MeSH	
DBCLS
Gendoo	
NLM PubMed	
NCBI Gene	
公開データベース	
MeSH ORA Framework
89
MeSH.XXX.eg.db
型パッケージ	
MeSH.db	
MeSH.AOR.db	
MeSH.PCR.db	
データの取得・整形・
パッケージング
https://www.bioconductor.org/	
半年に一度の更新
(4月、10月ぐらい)
昔から書きためていた	
スクリプト集(超煩雑)
i)	全自動化	
ii)	異常検知	
(フォーマットの変更、生物種の非対応化など)	
iii)	コード最適化(Perl	→	Pythonなど)	
	
が課題
II. データクレンジング
i.	双方向BLASTベストヒット(RBBH)の	
最適なアルゴリズム・パラメーター	
の選択	
ii.	テキストマイニングによる、	
否定的な関連性の除去(感情分析?)	
150生物種のRBBHの件数	 全生物種のRBBHの総数	
BLAT、UBLAST、LAST、BLAST	
での比較で、UBLASTを現状選択	
(速度・精度のバランスより)	
さらに優れた手法があるなら試したい	
現状、E-value	=	10-30で実行	
生物種ごとに最適な値を選定する必要	
があるかも	 NCBI	
gene2pubmed	
Gene	X	is	not	
related	to	
tumor	Y.	
…	
Gene	X	-	tumor	Y	
…	
?
III. 追加機能の実装
i.	MeSH	Gene	Set	Enrichment	
Analysis(MeSH-GSEA)	
ii.	可視化	
Hierarchical	plot	(topGO)	
Category-gene	network	
(DOSE、ReactomePA)	
Word	cloud(tagcloud)	
DEGsほど大きい変動はないが、	
着実に上位にランキングする	
機能が見れるとされている	
	
Subramanian,	A.	et	al.,	PNAS,	2005	
変動の大きさのランキング	
Enrichment	Score(ES)	
タームSに属する遺伝子が
ヒットすると大きくなる項	
タームSに属する遺伝子が
ヒットすると大きくなる項	
ES = max Phit − Pmiss( )
IV. ⾮モデル⽣物種への対応
BLAST2GO	
hGps://www.blast2go.com	
?	
-	パッケージ作成、MeSH-ORA	
(MeSHDbiのmakeGeneMeSHPackage関数)	
-	関連する文献の自動取得	
シーケンシング	未知の生物種	 近縁種へのマッピング	
de	novoアセンブリ	
遺伝子予測	
FASTQファイル	
(リード配列)	
FASTAファイル	
(遺伝子配列)	
.fastq	 .fasta	
遺伝子機能アノテーション	
の自動化	
代表的な生物種	
の遺伝子配列	
オーソログDBなど	
BLAST2MeSH(仮)	
Geneリスト	
Gene-MeSH	
対応表	
blast	>	Gene1	
MIVQIGRR
REEF…	
Gene1	LuxI	protein	
…	
MeSH	ORA	Framework
まとめ
・⽂献のアノテーションであるMeSHを遺伝⼦のアノテーション
に⼆次利⽤するための「MeSH ORA Framework」
 というRのパッケージ群を実装した
・MeSH ORA Frameworkで、
1. 機能アノテーションが多様になった
2. ⾮モデル⽣物種でもMeSH ORAができるようになった
3. 関連⽂献情報が取得しやすくなった
BioCHackathon 2016(仮)
・場所は和光理研 情報基盤棟	
	
・時期は夏休みシーズンを予定(7月〜9月?)	
	
・ある程度コマンドラインでツールを実行した経験がある人を想定	
	
・Rパッケージ開発方法はこちらで説明	
	
・最終的に、Bioconductorへのコミットと、Soqware系論文執筆を目標	
	
・MeSH以外の解析ネタの持ち込みも可	
	
・まだまだやることはたくさんあるので、一緒にハッカソンしましょう!	
	
詳しくは koki.tsuyuzaki	[at]	gmail.com	まで!

More Related Content

PDF
遺伝子のアノテーション付加
PDF
DNAマイクロアレイの解析と多重検定補正
PPTX
深層学習による自然言語処理の研究動向
PDF
グラフニューラルネットワークとグラフ組合せ問題
PDF
Rで学ぶロバスト推定
PPTX
画像キャプションの自動生成
PDF
AutoEncoderで特徴抽出
PPTX
SageMakerを使った異常検知
遺伝子のアノテーション付加
DNAマイクロアレイの解析と多重検定補正
深層学習による自然言語処理の研究動向
グラフニューラルネットワークとグラフ組合せ問題
Rで学ぶロバスト推定
画像キャプションの自動生成
AutoEncoderで特徴抽出
SageMakerを使った異常検知

What's hot (20)

PDF
機械学習と主成分分析
PDF
点群SegmentationのためのTransformerサーベイ
PPTX
Single-cell pseudo-temporal ordering 近年の技術動向
PDF
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det...
PDF
パターン認識第9章 学習ベクトル量子化
PDF
One Class SVMを用いた異常値検知
PPTX
金融時系列のための深層t過程回帰モデル
PPTX
機械学習を用いた異常検知入門
PDF
BERT入門
PDF
機械学習で泣かないためのコード設計 2018
PDF
9 可視化
PDF
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
PPTX
ようやく分かった!最尤推定とベイズ推定
PPTX
マルチモーダル深層学習の研究動向
PDF
機械学習システムを受託開発 する時に気をつけておきたい事
PDF
機械学習システムのアーキテクチャアラカルト
PPTX
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
PDF
オントロジーとは?
PPTX
DNNの曖昧性に関する研究動向
PDF
クラスタリングとレコメンデーション資料
機械学習と主成分分析
点群SegmentationのためのTransformerサーベイ
Single-cell pseudo-temporal ordering 近年の技術動向
20180427 arXivtimes 勉強会: Cascade R-CNN: Delving into High Quality Object Det...
パターン認識第9章 学習ベクトル量子化
One Class SVMを用いた異常値検知
金融時系列のための深層t過程回帰モデル
機械学習を用いた異常検知入門
BERT入門
機械学習で泣かないためのコード設計 2018
9 可視化
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
ようやく分かった!最尤推定とベイズ推定
マルチモーダル深層学習の研究動向
機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムのアーキテクチャアラカルト
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
オントロジーとは?
DNNの曖昧性に関する研究動向
クラスタリングとレコメンデーション資料
Ad

Similar to 文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ (20)

PDF
ライフサイエンスデータベースの現状
PDF
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012
PDF
metaSeq: RNA-seqデータにおけるメタアナリシス解析パッケージ
PDF
シリコンバレー比較20171030小柳
PDF
Jpg uosawa0525
PDF
SIGBIO54: 生命情報解析分野におけるコンテナ型仮想化技術の動向と性能検証
PDF
[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観
PPTX
Bioconductorも便利ですよ ~ConsensusClusterPlus(CCP)の紹介~
PDF
StatGenSummerSchool2023_WebTool.pdf
PDF
[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning
PDF
Brief introduction of aLeaves (mainly in Japanese)
PDF
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
PDF
オープンサイエンス〜情報と公共図書館の接点
PDF
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
PDF
2016/12/21NISTEPホライズン・セミナースライド
PDF
ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...
PPTX
戦略的創造研究推進事業の戦略目標策定におけるサイエンスマップ等のデータ活用例の紹介
PDF
NTCIR-16 Real-MedNLP タスク紹介(2021年7月1日版)
PDF
統計学勉強会#2
PDF
drbonodojo3-6 データ統合解析
ライフサイエンスデータベースの現状
ヒトゲノム変異解析ワークフローにおける公共データベース活用@MBSJ2012
metaSeq: RNA-seqデータにおけるメタアナリシス解析パッケージ
シリコンバレー比較20171030小柳
Jpg uosawa0525
SIGBIO54: 生命情報解析分野におけるコンテナ型仮想化技術の動向と性能検証
[All-in-one2016] JST/NBDC が提供するサービス及びプロジェクト概観
Bioconductorも便利ですよ ~ConsensusClusterPlus(CCP)の紹介~
StatGenSummerSchool2023_WebTool.pdf
[2021-03-14] 植物表現型画像解析のための手作業注釈加速化手法とActive Learning
Brief introduction of aLeaves (mainly in Japanese)
[18-01-26]DSTEP ディープラーニングによる出芽酵母蛍光画像の細胞内タンパク質局在の分類
オープンサイエンス〜情報と公共図書館の接点
[2018-03-29]JSPP18 Oxford Flower Image Datasetを用いた深層学習ハンズオン
2016/12/21NISTEPホライズン・セミナースライド
ISMB/ECCB2015読み会イントロ+Misassembly detection using paired-end sequence reads an...
戦略的創造研究推進事業の戦略目標策定におけるサイエンスマップ等のデータ活用例の紹介
NTCIR-16 Real-MedNLP タスク紹介(2021年7月1日版)
統計学勉強会#2
drbonodojo3-6 データ統合解析
Ad

More from 弘毅 露崎 (20)

PDF
大規模テンソルデータに適用可能なeinsumの開発
PDF
バイオインフォ分野におけるtidyなデータ解析の最新動向
PDF
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
PDF
R-4.0の解説
PDF
scTGIFの鬼QC機能の追加
PDF
20191204 mbsj2019
PDF
1細胞オミックスのための新GSEA手法
PDF
Predicting drug-induced transcriptome responses of a wide range of human cell...
PDF
LRBase × scTensorで細胞間コミュニケーションの検出
PDF
非負値テンソル分解を用いた細胞間コミュニケーション検出
PDF
Exploring the phenotypic consequences of tissue specific gene expression vari...
PDF
データベースとデータ解析の融合
PDF
ビール砲の放ち方
PDF
Identification of associations between genotypes and longitudinal phenotypes ...
PDF
A novel method for discovering local spatial clusters of genomic regions with...
PDF
Rによる統計解析と可視化
PDF
PCAの最終形態GPLVMの解説
PDF
カーネル法を利用した異常波形検知
PDF
ISMB読み会 2nd graph kernel
PDF
大規模テンソルデータに適用可能なeinsumの開発
バイオインフォ分野におけるtidyなデータ解析の最新動向
Benchmarking principal component analysis for large-scale single-cell RNA-seq...
R-4.0の解説
scTGIFの鬼QC機能の追加
20191204 mbsj2019
1細胞オミックスのための新GSEA手法
Predicting drug-induced transcriptome responses of a wide range of human cell...
LRBase × scTensorで細胞間コミュニケーションの検出
非負値テンソル分解を用いた細胞間コミュニケーション検出
Exploring the phenotypic consequences of tissue specific gene expression vari...
データベースとデータ解析の融合
ビール砲の放ち方
Identification of associations between genotypes and longitudinal phenotypes ...
A novel method for discovering local spatial clusters of genomic regions with...
Rによる統計解析と可視化
PCAの最終形態GPLVMの解説
カーネル法を利用した異常波形検知
ISMB読み会 2nd graph kernel

文献注釈情報MeSHを利用した網羅的な遺伝子の機能アノテーションパッケージ