(2) Group 762: 14 sequences. S81_g3096 186 1 0 0 0 0 0 0 0 0 0 1

Download Report

Transcript (2) Group 762: 14 sequences. S81_g3096 186 1 0 0 0 0 0 0 0 0 0 1

光合成生物の系統と比較ゲノム解析
1
要旨
現生のシアノバクテリアの祖先種が,現在の植物や藻類の葉緑体の起源であ
ることはほぼ間違いのないことと考えられている。細胞内共生の回数につい
ては,二次共生の概念の導入により,一次共生は一回だけであり,すべての
葉緑体が単系統ということで整理出来るようになった。しかし,細胞内共生
を行ったシアノバクテリアは何か,また,最も起源に近い葉緑体を持つ藻類
は何か,などは依然として不明である。こうした背景のもと,葉緑体につい
て,本当に真核細胞の中にシアノバクテリアが共生しているかのように錯覚
してしまっている学生や専門外の研究者も多いのではないかと危惧される。
葉緑体の遺伝子発現系のうちで,翻訳系はほぼシアノバクテリアのものに近
く,また,葉緑体ゲノムにコードされたRNAポリメラーゼも,シアノバクテ
リアのものに非常に似ている。しかし,近年の詳細な研究によって葉緑体
DNAを機能させている様々な成分の実体が明らかになるにつれて,葉緑体ゲ
ノム装置の実体が,必ずしもシアノバクテリアからの遺産ではなく,真核細
胞側から供給されたものも多いことがわかってきた。さらに,比較ゲノムに
より,葉緑体の構成成分には,シアノバクテリアに由来するものと,そうで
ないものつまり真核細胞に由来すると解釈されるものがあることがはっきり
してきた。こうしたことを加えて,葉緑体進化の実像を少しでも浮き彫りに
したいと考えている。
2
植物の系統とプラスチドの種類
酸素発生型光合成を行う植物・藻類のプラスチドには大
きく分けて2つの系統がある。
緑色植物系統:緑藻と陸上植物のすべてに含まれ,
クロロフィルa, bを持つことが特徴
紅色植物系統:紅藻とそれが二次共生して生じた褐
藻・クリプト藻などの藻類にあり,クロロフィルbを持た
ない。紅藻はフィコビリン色素を,褐藻はクロロフィルc
を,クリプト藻は両方をもつ。
3
光合成生物を代表する生物種
シロイヌナズナ・
エンドウ
(被子植物)
ヒメツリガネゴケ
(セン類)
シアニジオシゾン
(紅藻)
クラミドモナス
(緑藻)
Synechocystis
Anabaena
(シアノバクテリア)
4
シアノバクテリアと
植物・藻類の葉緑体および
それらの核様体
5
Cyanidioschyzon merolae
単細胞性紅藻で,硫酸酸性の温泉に生息する (至適温度は
46˚C) 。
直径約2 µmの細胞で,ミトコンドリアと葉緑体を一個ずつもつ。
細胞は2分裂により増殖し,有性生殖は知られていない。
原始紅藻ゲノムプロジェクト(代表:立教大学黒岩常祥教授)
により,すべてのゲノムの塩基配列が決められた(Nature
2004)。
植物に比べて極めて遺伝子の数が少なく(約6,000個のタンパ
ク質遺伝子),真核光合成生物の基本的な仕組みの解明に
不可欠な情報が得られる。
6
Cyanidioschyzon
genome
7
Comparative genomics of photosynthetic
organisms (1)
Raymond, J., Zhaxybayeva, O., Gogarten, J. P.,
Gerdes, S. Y. and Blankenship, R. E. (2002)
Whole-genome analysis of photosynthetic
prokaryotes. Science 298: 1616-1620.
Comparison of 4 photosynthetic bacteria +
Synechocystis with 6 non-photosynthetic bacteria.
Ortholog comparison (best – best match).
Lateral transfer of core components of
photosynthesis.
8
Comparative genomics of photosynthetic
organisms (2)
Martin, W., Rujan, T., Richley, E., Hansen, A.,
Cornelsen, S., Lins, T., Leister, D., Stoebe, B.,
Hasegawa, M. and Penny, D. (2002) Evolutionary
analysis of Arabidopsis, cyanobacterial, and
chloroplast genomes reveals plastid phylogeny and
thousands of cyanobacterial genes in the nucleus.
PNAS 99: 12246-12251.
1 – 1 comparison of Arabidopsis genes to the genes of
various organisms.
4,500 Arabidopsis protein-coding genes were acquired
from the cyanobacterial ancestor of plastids.
9
シアノバクテリアゲノムの比較
10
Gclust approach
-- combined informatics and experiments --
1. Use of eight (or more) cyanobacterial genomes that
are currently available.
2. Use of a red alga, Cyanidioschyzon merolae, as a
representative of the ‘red lineage’ of photosynthetic
eukaryotes, besides Arabidopsis thaliana, a
representative of the ‘green lineage’.
3. Clustering of all protein sequences (by the software
‘gclust’) to extract lineage-specific clusters (to be
made publicly available as ‘PhotoGclust’).
4. Experimental verification of the cluster data by gene
11
disruption and expression analysis.
Gclust: genome-wide clustering of proteins by the
homologue group method
Annotation table
ORF pool
BLASTP
bl2ls2.pl
Homologue list
gclust
Homologue group matrix
homologgroupsG.pl
tbsort6d.pl
etc
Homologue group sequences
1st step: BLAST E-value
Groups of all possible
homologues
Iteration: progressive
increase of E-value
2nd step: homology region
Subgroups and multidomain proteins
Lineage-specific
homologue groups
12
Bacterial genomes used in this study
Na m e
Sp ec ies
S yn
S yn ec h ocy sti s sp. P CC 6803
Ana
S 81
P m1
P m2
Np
A n abae n a sp. P CC 7120
S yn ec h ococ cus sp. W H 8102
P roc hl oro c occ u s m ar inu s M E D4
P roc hl oro c occ u s m ar inu s M IT9313
No stoc pun ctifo rm e P CC 73102
Tery
Tric hod e smiu m eryth rae um
Tel
C tep
Ca u r
R p al
T he rm os y nech ococc u s elon ga tu s B P- 1
C hl orobi um tep idum T LS
C hl orof lex us au ra nti ac u s
R h odop seu do m ona s pa lu str is
Acc essio n
K az u sa
(AB001339 )
K az u sa
(BA000019 )
JG I
JG I
JG I
JG I
JG I
K az u sa
(BA000039 )
T IG R
(AE006470 )
JG I
JG I
L eng th
G roup
GC %
3,573,470
Cya n ob ac ter ia
47 .7
6,413,773
2,434,431
1,657,995
2,410,873
9.2 M b
Cya
Cya
Cya
Cya
Cya
n ob ac ter ia
n ob ac ter ia
n ob ac ter ia
n ob ac ter ia
n ob ac ter ia
41 .3
59 .4
30 .8
50 .7
41 .4
6.5 M b
Cya n ob ac ter ia
33 .6
2,593,857
Cya n ob ac ter ia
53 .9
2,154,946
3,854,393
5,459,222
G reen- sulf ur
G ree n n on -su lfu r
P roteo alph a
56 .5
56 .6
65 .0
13
Example result (2)
Group 762: 14 sequences.
S81_g3096
186 1 0 0 0 0 0 0 0 0 0 1 1 0 0 sll1656_57_1e-08
TE_c50g6270
188 0 1 1 1 1 1 1 1 0 0 0 0 1 0 sll1656_89_2e-18
Ana_all3977
170 0 1 1 1 1 1 1 1 1 0 0 0 0 0 hypothetical_protein
Ana_all4113
194 0 1 1 1 1 1 1 1 1 1 0 0 0 0 hypothetical_protein
Syn_sll1656
191 0 1 1 1 1 1 1 1 1 0 0 0 0 0 hypothetical_protein
NP_c357g8
190 0 1 1 1 1 1 1 1 1 0 0 0 0 0 sll1656_100_1e-21
NP_c445g23
189 0 1 1 1 1 1 1 1 1 1 0 0 0 0 sll1656_109_2e-24
NP_c506g67
189 0 1 1 1 1 1 1 1 1 1 1 0 0 0 sll1656_92_5e-19
Tel_tll0396 198 0 0 1 1 1 1 1 1 1 0 0 0 0 0 hypothetical_protein
NP_c459g43
123 0 0 0 1 0 0 1 1 0 1 0 0 0 0 sll1656_66_1e-11
PM2_g2695
187 1 0 0 0 0 0 0 1 0 0 1 1 0 0 sll1656_57_2e-08
PM1_g542
177 1 0 0 0 0 0 0 0 0 0 1 1 0 0 sll1656_54_8e-08
Cz_Cz11g913.048
350 0 0 0 0 0 0 0 0 0 0 0 0 1 1 unknown_protein
ATH_At2g15290
296 0 0 0 0 0 0 0 0 0 0 0 0 1 1 unknown_protein
14
Genome comparison (1)
15
Gr p ID
# m em ber s
# g ro up s
Gr p 0 01
4 70
1
Gr p 0 02
11 9
1
Gr p 0 03
82
1
Gr p 0 04
66
1
Gr p 0 05
49
1
Gr p 0 06
48
1
Gr p 0 07
36
1
Gr p 0 08
34
1
Gr p 0 09
26
1
Gr p 0 10
21
1
Gr p 0 11
20
1
Gr p 0 12 -0 13
18
2
Gr p 0 14
17
1
Gr p 0 15 -0 16
16
2
Gr p 0 17
14
1
Gr p 0 18 -0 20
13
3
Gr p 0 21 -0 24
12
4
Gr p 0 25
11
1
Gr p 0 26 -0 30
10
5
Gr p 0 31
9
1
Gr p 0 32 -0 36 0 38 -0 43
8
11
Gr p 0 37 -0 59
7
23
Gr p 0 60 -0 86
6
27
Gr p 0 88 -111 11 7
5
26
Gr p 8 7 11 3-15 4 1 56 -1 58 2 28
4
46
Gr p 11 2 11 4 1 55 1 59 -1 66 1 69 -2 79
3
1 22
Gr p 1 67 -1 68 2 80 -6 57
2
3 80
Si n gl e seq s
1
2 97 9
Genome comparison (2)
16
Genome comparison (3)
Subcluster 1 of domains
in the initial Cluster 1
17
Genome comparison(4)
Subclusters of the domains
in the initial Cluster 1
S u b g ro u p
C lu ster
C lu ster
C lu ster
C lu ster
C lu ster
1
1 .1 .1
1 .1 .2
1 .1 .3
1 .1 .4
1 .1 .5
S u b g ro u p 2
C lu ster 1 .2
S u b g ro u p
C lu ster
C lu ster
C lu ster
C lu ster
C lu ster
C lu ster
C lu ster
3
1 .3 .1
1 .3 .2
1 .3 .3
1 .3 .4
1 .3 .5
1 .3 .6
1 .3 .7
S u b g ro u p 4
C lu ster 1 .4
7
140
134
26
121
129
G erE
resp o n se_ reg
H AT P a se_ c
GAF
PA C _ D U F 9 _ PA S _ R R _ C B S _PA S _ cy c
S u b g ro u p
C lu ster
C lu ster
C lu ster
5
1 .5 .1
1 .5 .2
1 .5 .3
3
7
17
m isc
h elica se_ H T H 3
A r m a d illo _ seg
S u b g ro u p 6
C lu ster 1 .6 .1
C lu ster 1 .6 .2
3
18
H T H _ A ra C
H T H _ A ra C
S u b g ro u p s 7 +
C lu ster 1 .7 .1
C lu ster 1 .7 .2
C lu ster 1 .8
C lu ster 1 .9
C lu ster 1 .1 0
C lu ster 1 .11
C lu ster 1 .1 2
C lu ster 1 .1 3
C lu ster 1 .1 4
C lu ster 1 .1 5
C lu ster 1 .1 6
C lu ster 1 .1 7
C lu ster 1 .1 8
10
2
5
5
5
5
5
4
4
4
4
3
3
m isc
H AT P a se_ c
none
m isc
G ly co s_ tra n sf_ 2
none
none
none
ank
none
GAF
PA S
none
W D 40
4
37
7
3
19
35
10
P en ta p ep tid e
P en ta p ep tid e
m isc
TPR
TPR
TPR
TPR
51
p kin a se
18
Examples of multi-domain proteins in Anabaena
A169
1.9=misc
1.13=none
1.2=WD40
1.2=WD40
1.2=WD40
1.2=WD40
1.2=WD40
A169_1
A169_2
A169_3
A169_4
A169_5
A169_6
A169_7
C1237
1.17=PAS
1.1.5=PAC
1.1.5=PAC
1.1.3=HATPase_c
C1237_1
C1237_2
C1237_3
C1237_4
1.1.3=HATPase_c
1.1.2=response_reg
none
none
WD40
WD40
WD40
WD40
WD40
WD domain, G-beta repeat
WD domain, G-beta repeat
WD domain, G-beta repeat
WD domain, G-beta repeat
WD domain, G-beta repeat
131.2
138.2
84.7
179.9
62.6
1.8e-35
1.4e-37
1.9e-21
4.1e-50
8.4e-15
5
5
3
6
3
PAS PAS domain
27.5 5.2e-06 1
PAC PAC motif
12.6
0.067 2
PAS PAS domain
24.4 3.9e-05 2
HATPase_c Histidine kinase-, DNA gyrase B-, phytochro
158.3 1.3e-43 1
C1237_5 HATPase_c Histidine kinase-, DNA gyrase B-, phytochro
137.7 2.1e-37 1
C1237_6 response_reg Response regulator receiver domain
123.3 4.6e-33 1
19
Examples of multi-domain proteins in
Anabaena(2)
C1560
1.1.5=PAC
1.1.5=PAC
1.1.5=PAC
1.1.5=PAC
1.1.5=PAC
1.1.5=PAC
1.1.5=PAC
1.1.5=PAC
1.1.5=PAC
1.1.3=HATPase_c
C6228
1.1.2=response_reg
1.1.5=PAC
1.1.3=HATPase_c
1.1.2=response_reg
1.1.5=PAC
C1560_1 CBS CBS domain
15.3
0.63 1
C1560_2 PAC PAC motif
28.7 1.5e-06 1
C1560_3 PAC PAC motif
22.4 9.8e-05 1
C1560_4 PAC PAC motif
38.9 1.7e-09 2
C1560_5 PAC PAC motif
58.4
4e-15 2
C1560_6 PAS PAS domain
64.8 2.4e-16 2
C1560_7 PAC PAC motif
34.1 4.2e-08 2
C1560_8 PAC PAC motif
91.2 1.3e-24 2
C1560_9 PAC PAC motif
114.6 2.3e-31 2
C1560_10 HATPase_c Histidine kinase-, DNA gyrase B-, phytochro
145.4 1e-39 1
C6228_1 response_reg Response regulator receiver domain
86.0 7.8e-22 1
C6228_2 GAF
GAF domain
117.0 3.6e-31 1
C6228_3 HATPase_c Histidine kinase-, DNA gyrase B-, phytochro
162.3 8.3e-45 1
C6228_4 response_reg Response regulator receiver domain
131.9 1.2e-35 1
C6228_5 guanylate_cyc Adenylate and Guanylate cyclase catalyt
103.6 3.8e-27 1
20
3cyanobacterial
genomes
An: Anabaena 7120
Np: Nostoc punctiforme
Sy: Synechocystis 6803
21
Gene groups shared by Anabaena and
Nostoc
G ro u p 1
G ro u p 2
A n a o n ly
Ana + Np
G ro u p 3
A na, N p,
S68
G ro u p C
G ro u p P
C yano
C y a n o + A th
To ta l
908
827
295
266
131
G en es
954
1031
464
341
163
83
11 3
235
172
90
760
662
24
32
10
P h o to sy n th esis
6
5
9
28
12
y cf
0
1
1
12
5
R ib o so m e
1
0
2
2
1
C lo ck
0
0
0
2
0
H etero cy st
1
6
1
2
0
23
5
0
2
0
H y p o th etica l
U nknow n
D N A -rela ted
22
Known groups of genes shared by
Anabaena and Nostoc
Group
name
Anabaena
Nostoc Possible identification
C104
6
10
fdxN_element_excision_controlling_factor
C2439
4
3
similar_to_hepP_protein,_formation
C103
2
7
fdxN_element_excision_controlling_factor
C2937
1
1
heterocyst_differentiation_protein_HetR
C3552
1
2
similar_to_glycosyltransferase_hepC
C4018
1
1
similar_to_dinitrogenase_reductase_activating
C6047
1
1
heterocyst_differentiation_related_protein_PatN
Many new genes involved in heterocyst differentiation
are expected to be found in the group 2 clusters of genes.
23
Species-specific additions and losses
Many orphan genes in every species
A ddi tion
G roup s
%
Lo ss
(group s)
Ana
689
24.8
0
Syn
390
21.2
1
Np
1,120
34.2
0
Tery
773
33 .2
2
P m1
181
15 .7
10
P m2
279
19 .1
2
S 81
396
24 .2
0
R p al
1,442
59 .7
9
Sp ec ies
Is acquisition
of217exogenous
genes
involved
Tel
15 .1
1
C tep
835of various
53 .4
33
in the formation
species
of
Ca u r
1,080
60 .4
144
cyanobacteria?
24
Parsimonous trees based on homology
groups
遺伝子の存在の有無に基づく系統樹が作れる
Changes =
additions+losses
25
Data with
10 cyanobacteria
(Genome tree)
Parsimonous tree
based on
presence/absence of
homolog groups
26
Renewed RpoB tree
27
Phylogeny of 16S rRNA
28
Phylogeny of cyanobcteria based on
comparative genomics
1. There are two major lineages of cyanobacteria.
A) Synechocystis, Anabaena etc.
B) Prochlorococcus and marine
Synechococcus
2. Gloeobacter is likely to diverge from the root
of one of the two lineages, but not from the
root of all cyanobacteria.
29
細胞内共生に基づくシアノバクテリア
と葉緑体の関係
• プラスチドの起源となるシアノバクテリ
アの探索
• ゲノム全体の比較によって進化を考える
• 紅藻系統と緑色系統の単系統性
30
Hypotheses on the origin of plastids
Cyano
Cyano
Plastids
Plastids
Cyano
Plastids
31
Monophyly of
plastid DNA
Tengs et al. (2000) Mol. Biol.
Evol. 17: 718-729
32
Phylogenetic tree of
cyanobacteria and plastids
33
Phylogeny with bacteria
34
Phylogeny of RpoB
35
細胞核ゲノムコードタンパク
質に基づく紅藻と緑色植物の
単系統性??
Moreira, D. et al. (2000) Nature 405: 69-72
36
いくつかの分岐パターンの検証
37
ゲノム全体の情報を利用した系統解析
•
•
•
いくつかの遺伝子の配列をつないで利用
する(よく行われる).
個別の遺伝子の解析結果を総合して判
断する(パスウェイ特異的酵素群の入れ
替わりを利用する方法).
遺伝子の存在の有無を指標にする(gene
contentによる系統解析).
1. Ortholog を用いる方法
2. Homolog groupを用いる方法
38
Calvin cycle enzymes
39
An example:
GAPDH
40
Many trees
41
緑色植物と紅藻におけるCalvin 回路諸酵素の起源の一致
(単系統性の証拠)
C a lv in cyc le e n zymes
A ra b id op s is c p
M a rti n &
C y an id iosc h yz o n
Sc h na rre n be rge r
cp
(1997 )
RBCL
rib ul o se -1 ,5 -b isp h os p ha te
ca rb o xylase /oxy g enase (la rg e )
cy
h o rizo n ta l
tra ns fe r
RBCS
rib ul o se -1 ,5 -b isp h os p ha te
ca rb o xylase /oxy g enase (sma ll)
cy
h o rizo n ta l
tra ns fe r
yes
n o ne
cy (2 )
cy
cy
cy (3 ), e u k (2 )
cy
cy
euk
euk
m t ( o ri gi n)
e u k (3 )
euk
u n kn o wn
euk
euk
m t ( o ri gi n)
n o ne
n o ne
euk
euk
u n kn o wn
cy (2 )
cy
cy
cy
cy
cy
euk
euk
u n kn o wn
cy
cy
cy
R u b isc o ac ti vase
PG K
3 -p ho s ph o g lyce ra te k inase
G A PD H
g lyce ral d ehy d e -3 -p h os p ha te
d e hy d ro ge n ase
TP I
trio s ep h os p ha te isome rase
FB A
fru c to s e -1,6 -b is p h o sp h a te a ld o lase
FB P
fru c to s e -1,6 -b is p h o sp h a tase
F B P /SBP fru c to s e -1,6 -b is p h o sp h a tase/S B P
SBP
se d o h ep tu lo s e -1,7 -b is p h o sp h a tase
TK L
tra nske to lase
RPE
rib ul o se -5 -p ho s ph at e 3 -e p ime rase
RPI
rib ose -5 -p h o sp h a te isome rase
PRK
p h os p h o rib u lo ki n ase
42
Translocon (protein import machinery)
は,プラスチドのidentityを決める鍵
紅藻と緑色系統が単一の起源
を持つのであれば,translocon
の装置は単一系統であるはず。
これは,プラスチドの系統を超
えて,植物・藻類そのものの系
統を示すことになる。
Cavalier-Smith 1982, 2003
43
Transloconの共通性
44
最も中心にある成分が紅藻と
緑色植物で共通
Transloconの根幹をなす部
分が単一系統であることは,
このシステムの原型が成
立した後に,緑色系統と紅
藻が分岐したことを示す。
しかし,多くの成分が保存
されていないことについて
は,さらに多くの植物・藻類
との比較が必要である。
45
一次共生と二次共生
プラスチドの起源には2通りある
一次共生起源:最初の細胞内共生は一回だけおき
た(少なくとも現存の植物の起源となる共生は一回
だけおきた)が,この共生によって生じた植物・藻類
がもつプラスチドを一次共生起源と呼ぶ。
二次共生:クリプト藻や褐藻は紅藻細胞が別の真核
細胞に細胞内共生し,その後,共生体のミトコンドリ
アや核が退化して,プラスチドが残ったとされるもの。
クリプト藻では,核の残骸がヌクレオモルフ
(nucleomorph) として存在している。
46
二次共生体には光合成をしない生物もある
二次共生によって生じ,プラスチドを保持している生物に
は,マラリア原虫 (Plasmodium falciparum) など,光合成
をしない生物もある。これらアピコンプレクサと呼ばれる
一群の生物は,光合成遺伝子を失っているが,プラスチ
ド自身の転写・翻訳系を保持しており,さらに,細胞核に
コードされた脂質合成系タンパク質などがプラスチドに輸
送されて機能することが判明した。
47
マラリア原虫の持つ
プラスチド
apicoplast
48
Apicoplastの模式図
E. Marechal and M.-F. Cesbron-Delauw (2001)
The apicoplast: a new member of the plastid family.
Trends Plant Sci. 6: 200-205
49
ApicoplastがもつプラスチドのDNAはプラスチドDNAとよく似ている
50
Nucleomorphは
二次共生体の
細胞核が退化し
たもの
51
紅藻とヌクレオモルフの関係
クリプト藻は,紅藻細胞の二次共生によってプラスチドと
ヌクレオモルフを獲得したと考えられるが,ゲノムのデー
タはこれを支持するだろうか。
Gclustを用いて,ゲノム比較を行った。
10種のシアノバクテリア,3種の光合成細菌,大腸菌,枯草
菌,シロイヌナズナとシアニジオシゾン,クリプト藻Guillardia
theta,2種の酵母,線虫,カとハエ,フグの合計24種につい
て,ゲノムにコードされるすべてのタンパク質の総当たり比
較を行い,類似のタンパク質をグループ化した(Gclust
database)。これに基づき,植物と紅藻とヌクレオモルフに共
通に存在する遺伝子を集め,他の生物のホモログとともに
系統樹を作成した。3者が単一の系統になるような遺伝子が
多いことが期待される。
52
Gclust: genome-wide clustering of
proteins by the homolog group method
Before Gclust: List of similarity regions based on
all-against-all BLASTP search
Preparation: Exclusion of vary large proteins
Single cut-off mode: Groups of all possible
homologs using a BLAST E-value as a cut-off
Iteration mode: Natural clusters estimated by
progressive increase of E-value with removal of
multidomain proteins
Subcluster mode: Subclusters based on
similarity matrix
53
単系統になる例
54
別系統に分かれる例
Sulfate permease
元々真核と原核の両方
に存在する多系統な酵
素であるので,利用の仕
方に応じて,別系統のも
のが残ったと考えられる。
55
単系統性の確認
yes
probably yes
110
0.749
54
0.251
48
only CAG
3
probably no
6
no
48
not clear
10
Total
161
225
225
C, Cyanidioschyzon; A, Arabidopsis; G, Guillardia
56
緑藻と珪藻も含めた比較
JGIのウェブサイトで公開されている
Chlamydomonas reinhardtii (緑藻)と
Thalassiosira pseudonana CCMP1335(珪藻)
の遺伝子モデルを用い,
Arabidopsis thalianaと
Cyanidioschyzon merolaeを比較した。
その際,非光合成生物として
Saccharomyces cerevisiae および
Schyzosaccharomyces pombeを用いた。
これらのゲノムで推定されているタンパク質配列合計
73,967個について,gclustを用いてクラスタリングを行っ
た。
57
4者の比較
58
4者の比較(2)
59
Clusterの有無に基づく
節約系統樹
60
二次共生はどうやって起きたか
二次共生によると考えられる植物の細胞核の遺伝子の
系統解析の結果,真核宿主細胞自体も一次共生起源の
植物と単系統となる可能性がでてきた。
これは,一次共生の後,いったんプラスチドを失った
真核細胞が,二次共生の宿主となった可能性を示唆
している。
61
Nozaki’s hypothesis
A large group ‘Plantae’ includes all organisms,
either photosynthetic or non-photosynthetic, that
experienced primary endosymbiosis. Only those
which lost primary plastids succeeded in recapturing secondary plastids.
Nozaki et al. (2003) J. Mol. Evol. 56: 485-497. 62
二次共生のほか
三次共生もあるらしい
63
今のところ最も妥当と思
われる系統関係
64
プレ一次共生の可能性
二次共生は,独立に起こった証拠が多数ある(緑色と褐色
その他)が,一次共生は一回しか起こっていないように見え
ることをどう考えるか。
一次共生は非常に困難で滅多に起こらないことであったこ
とになる。
二次共生体の核ゲノムの解析からは,宿主自身がすでに
シアノバクテリア起源の遺伝子を持っていた可能性が示さ
れている(Trypanosoma, Apicomplexaなど)。
一次共生についても,予め,シアノバクテリアから真核生物
の起源生物への遺伝子の大量水平移動があったのではな
いか(原核細胞融合による予備共生過程)。
65
系統プロファイリングと
機能未知遺伝子の機能解析
66
Name
Species
Accession
Length
Proteins
Group
GC %
Syn
Synechocystis sp. PCC 6803
AB001339
3,573,470
3,264
Cyanobacteria
47.7
Ana
Anabaena sp. PCC 7120
BA000019
6,413,773
5,364
Cyanobacteria
41.3
S81
Synechococcus sp. WH8102
JGI
2,434,431
2,514
Cyanobacteria
59.4
Pm1
Prochlorococcus marinus MED4
JGI
1,657,995
1,694
Cyanobacteria
30.8
Pm2
Prochlorococcus marinus MIT9313
JGI
2,410,873
2,251
Cyanobacteria
50.7
Np
Nostoc punctiforme PCC 73102
JGI
9.2 Mb
7,281
Cyanobacteria
41.4
TE
Trichodesmium erythraeum
JGI
6.5 Mb
4,841
Cyanobacteria
33.6
Tel
Thermosynechococcus elongatus BP-1
BA000039
Ctep
Chlorobium tepidum TLS
AE006470
2,154,946
2,252
Green-sulfur
56.5
CA
Chloroflexus aurantiacus
JGI
3,854,393
3,372
Green non-sulfur
56.6
Rhodopseudomonas palustris
JGI
5,459,222
4,690
Proteo alpha
65.0
EC
Escherichia coli K-12 MG1655
U00096
4,639,221
4,289
Proteo gamma
50.8
BS
Bacillus subtilis 168
AL009126
4,214,814
4,100
Low GC Gram +
43.5
SC
Saccharomyces cerevisiae
NC001133-48
12.1 Mb
6,306
Ascomycota
38.3
S. cerevisiae mitochondrion
AJ011856
85,779
28
Caenorhabditis elegans
GenBank
100.1 Mb
17,083
CEmt
C. elegans mitochondrion
X54252
13,794
10
ATH
Arabidopsis thaliana
NC003070-4
116.4 Mb
25,545
ATHmt
A. thaliana mitochondrion
Y08501-2
366,924
117
44.7
ATHcp
A. thaliana chloroplast
AP000423
154,478
87
36.3
Rpal
SCmt
CE
Genomes used in the analysis
2,475 proteins
Cyanobacteria
Total2,593,857
= 97,563
53.9
17.1
Nematoda
35.6
23.8
eudicotyledons
36.0
67
Contribution of cyanobacterial
genome to plant (chloroplast
and nuclear ) genomes
Endosymbiotic origin of chloroplast
The ancestor of chloroplasts must
be a common ancestor of all the
cyanobacteria analyzed.
68
A number of homologue
groups are shared by
cyanobacteria and Arabidopsis
A close relationship between the eight cyanobacteria
and Arabidopsis is established.
This is an indication that the progenitor of plastids
was a common ancestor of the 8 cyanobacteria.
Data before addition of
Cyanidioschyzon
69
Comparison of cyanobacterial, plant, and
other genomes
Plant ORFs that might not have been
acquired without cyanobacterial
endosymbiosis (80)
70
共生起源の葉緑体タンパク質の網羅的同定
共生体に起源をもつ葉緑体タンパク質としては,
光合成に関わる様々なタンパク質や,葉緑体で
の遺伝子発現に関わるタンパク質などがある。し
かし,シアノバクテリアや植物のゲノム配列情報
を利用して,全ゲノムレベルでの比較を行うと,シ
アノバクテリアに広く保存されていて植物・紅藻の
核ゲノムにコードされている機能未知タンパク質
が新たに見つかる。これらが新規葉緑体タンパク
質であることを実証していく作業を進めている。
71
Example result (3)
Unidentified proteins that are conserved in 8 cyanobacteria,
Arabidopsis and Cyanidioschyzon
72
Genome tree of cyanobacterial, plant, and
other genomes
73
Protein
Chloroplast-encoded
proteins
Green =
photosynthesisrelated
1
110
113
38
49
51
52
53
54
55
39
58
59
71
72
79
80
82
97
98
127
130
131
132
144
146
PsbB, C, IsiA
PsbA,D
PsaA,B
PsaC
PsbE
PsbK
Ycf4
PetA
PebF
PsbL
PetG
PsbJ
PsbN
AtpH
Ycf3
AtpE
PetD
NdhI
AtpH
Rpl22
NdhC, Nad3
NdhE, Nad4L
NdhG
NdhJ
RbcL
AtpI
2cp , nuc
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp
cp, mt,nuc
cp, mt
cp
cp
cp, mt
cp
-6
-8
-12
-20
-30
3
2
2
1
1
1
1
1
1
1
1
1
1
3
2
2
1
1
1
1
1
1
1
1
3
2
2
1
1
1
1
1
3
2
2
1
1
3
2
2
1
1
1
1
1
1
1
1
1
1
1
1
10
2
1
1
1
1
1
1
1
2
1
74
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
40
41
42
43
44
45
46
47
48
50
Protein
RNaseP ?
phycocyanobilin:fe rre doxin oxidore ductase
unidentified
Ycf52, (acetyltransferase)
unidentified
unidentified
Ycf20
unidentified
PsbP
unidentified
Ycf22
unidentified
ferredoxin
unidentified
(thioredoxin)
PsbO
unidentified
(DnaJ family)
(DnaJ family/Ftn2)
unidentified
PsaD
Ycf65
unidentified
unidentified
Ycf60
unidentified
PsaE
unidentified
unidentified
(protein-S-isoprenylcysteine methyltransferase)
unidentified
(Zn-dependent hydrolase)
Ycf48/HCF136
unidentified
unidentified
unidentified
PsbW
Atp1
unidentified
unidentified
(thioredoxin)
unidentified
unidentified
unidentified
unidentified
PsbZ
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
TP
5
0
1
1
3
2
2
1
5
1
1
0
1
4
0
2
3
3
2
2
2
2
2
2
4
2
2
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
?
0
1
-6
1
1
2
3
2
3
1
6
1
1
4
3
3
3
2
2
2
2
2
4
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
-8
6
1
1
2
3
2
3
1
6
1
1
1
1
4
1
3
3
3
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
-12
6
1
1
2
3
2
-20
6
-30
5
1
2
1
2
2
1
5
1
1
1
2
56
57
60
61
62
63
64
65
66
67
68
69
70
73
74
75
76
77
78
81
83
84
85
86
87
88
89
90
91
92
93
94
95
96
99
100
101
102
103
104
105
106
107
108
109
Protein
unidentified
Ycf33
unidentified large protein
unidentified
Ferredoxin
Ycf19
SQD1
unidentified
Rps20
rubredoxin
TrxA
unidentified
unidentified
Ferredoxin (PetF), FdxH
unidentified
PetC (Rieske Fe-S protein)
unidentified
NifU
(ATP-dependent Lon protease)
8 Cy & Ath
1
4
1
3
2
3
1
2
2
2
1
2
2
2
2
1
4
1
2
2
1
1
2
2
1
1
2
2
2
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
(SAM-dependent methyltransferase)
(sugar kinase)
Ycf37
signal peptidase
OEP75
peptidyl-prolyl-cis-trans isomerase (rotamerse)
protochlorophyllide oxidoreductase, Por
FNR (PetH)
gamma-tocopherol methyltransferase
GrpE
protein tyrosine phosphatase
ABC-type cobalt transport system
MenA (1,4-dihydroxy-2-naphthoate octaprenyltransferase)
glutaredoxin-related protein, Ycf64
Rpl17
ABC-type cobalt-transport system
unidentified
c-type cytochrome bioge ne sis prote in, C cs1
16S rRNA processing protein, RimM
c-type cytoch rome bi oge ne si s prote in, C cdA
(permease)
Ribosome-associated protein Y (PS rp-1)
Rpl24
Ycf57
penicillin-tolerance protein
SufE protein (Fe-S center assembly)
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
TP
0
1
1
0
2
2
1
1
1
1
1
1
1
6
1
1
1
2
2
1
0
1
2
1
2
3
4
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
-6
1
1
-8
1
-12
1
-20
1
1
3
2
2
1
1
1
1
1
1
1
1
2
1
-30
1
1
1
1
6
1
1
2
2
2
1
1
1
5
1
2
1
1
3
5
2
3
4
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
75
8Cy & Ath & Ph
Green =
photosynthesisrelated
Orange =
pigment
biosynthesis
111
112
114
115
116
117
118
119
120
121
122
123
124
125
126
128
129
133
134
135
136
137
138
139
140
141
142
143
145
ChlH,CobN
unidentified
(restriction endonuclease)
Ycf59
RbcS
(thioredoxin)
unidentified
unidentified
UreF
ChlD, ChlI
chlorophyll synthase
Mg-protoporphyrin IX methyltransferase
(dioxygenase, ferredoxin subunits of NiR)
phytoene desaturase, zeta carotene desaturase, CrtQ
geranylgeranyl hydrogenase (ChlP)
Rpl28
Ycf39
UreG
(hydrolase/acyltransferase)
phytoene dehydrogenase
sulfolipid biosynthesis (glycosyltransferase I)
6-phosphogluconolactonase
inorganic pyrophosphatase
TrxM, TrxA
4-alpha-glucanotransferase
phosphoglycerate mutase
(nucleoside diphosphate sugar epimerase)
lipoate-protein ligase B
phytoene/squalene synthetase
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
nuc
1
3
1
1
4
1
0
1
?
3
2
1
4
2
1
7
2
1
4
2
1
0
5
3
1
1
2
1
1
1
1
4
1
1
1
1
1
4
1
1
4
1
1
1
1
1
4
1
1
1
1
1
4
1
1
1
1
4
3
1
1
1
8
1
1
1
4
1
1
4
2
1
7
2
1
3
1
1
2
1
1
1
4
2
1
5
5
3
1
1
2
2
176
Gene groups shared by cyanobacteria and plants
[8 cyano + Ath, but none in others]
psaC, psaD, psaE, psbB (psbC, isiA,psaL), psbE, psbF,
psbK, psbL, psbP, psbO, psbW, psbW, petA, petG, ycf4,
ycf48, ycf60, ycf65, atp1, dnaJ family(2), RNase P,
phycocyanobililn : ferredoxin oxidoreductase, ferredoxin,
thioredoxin (2), acetyltransferase, protein-Sisoprenylcysteine methyltransferase, 28 unknowns (50%)
[8 cyano + Ath + one of photo]
psbA (psbD), chlH (cobN), psaA (psaB), rbcS, mcrA,
thioredoxin, ureF, 3 unknowns
NB: rbcL homolog in Bacillus subtilis: ykrW
77
Homologue groups that are shared by Arabidopsis and
photosynthetic prokaryotes.
The groups were extracted by varying the threshold E value from 1e-8 to
1e-30, and classified according to the properties of Arabidopsis members.
N uc -e nc o de d
C ate g o r y
C pe nc o de d
W it h tr ansit se q.
A n notatio n g iven
N o annotatio n
8 C y & A th
18
5 5 (19 )
26
8 C y & A th
& 1 -3 P h
8
25 ( 7)
2
26
8 0 (26 )
28
Total
Data before addition of
Cyanidioschyzon
N o tr ansit se q.
A n notatio n g iven
To tal
N o annotatio n
3
6
1 08
Potential
novel
2
1
38
photosynthesisrelated
5
7 genes
1 46
Cy, cyanobacteria; Ath, Arabidopsis; Ph, photosynthetic bacteria.
Cp, chloroplast; Nuc, nucleus; Transit seq., transit sequence.78
Functional genomics of putative genes
of endosymbiont origin
1.
2.
PhotoGclust database (with Cyanidioschyzon)
PCR-based rapid disruption of 43 Synechocystis
genes (31 disruptants)
3. 150 tag lines for 56 Arabidopsis genes
(15 lines analyzed)
4. Light induction of 56 Arabidopsis genes (Northern
analysis)
5. Chloroplast targeting of 56 Arabidopsis proteins
(PCR-based GFP-fusion construct)
79
Synechocystis 遺伝子破壊株
遺伝子破壊完了
26
必須遺伝子(分離不完全)
5
作業中
9
要検討(コンストラクトが出来ない)
3
80
プラスチド局在の例
81
細胞内局在のまとめ
82
RNAゲルブロット解析の結果
83
RNAゲルブロット解析のまとめ
84
局在と発現のまとめ
局在
Cp
Cp & Mt
Mt
要検討
Total
47
6
1
2
56
L>D
31
3
1
1
36
発現
L = D 発現無 要分析
8
5
3
0
2
1
0
0
0
1
0
0
9
7
4
Sept. 8, 2004
85
比較ゲノムによるアプローチ
共生起源の葉緑体タンパク質の同定
シアノバクテリア,紅藻,植物などの光合成生物
と細菌,酵母,センチュウ,ハエなどの非光合成
生物のゲノムを比較して,光合成生物に共通に
存在する遺伝子を探し,機能解析を行う。
葉緑体の分化や制御に関わる因子の同定
同様にして(被子)植物だけにある遺伝子をさが
すことにより,植物で初めて獲得された葉緑体
分化に関わる因子の機能解析を行う。
86