Document 7674066

Download Report

Transcript Document 7674066

我国高校向GenBank递交序列数据状况
浙江大学生物信息学研究所
樊龙江 王建斌
[email protected]
[email protected]
2002年1月22日
说明
数据来源:GenBank(NCBI)
统计截止日期:2001年12月31日
本文统计了截止1996年12月31日和2001年12月31日由我国及
高校直接递交GenBank国际公共数据库的DNA和基因组序列记录
情况。具体统计说明见文后。
中国高校记录总数和所占比例情况(一)
统计截止日期
1996-12-31
2001-12-31
地区 记录总数(非 EST)
大陆
180
台湾
464
香港
55
澳门
0
大陆
10879
台湾
6039
香港
1399
澳门
0
其中高校记录数
58
288
51
0
4194
3738
1335
0
%
32.2
62.1
92.7
38.6
61.9
95.4
中国高校记录总数和所占比例情况(二)
统计截止日期
1996-12-31
2001-12-31
地区
大陆
台湾
香港
澳门
大陆
台湾
香港
澳门
EST 记录总数
438
3
1041
0
140747
441
1342
0
其中高校记录数
324
0
1041
0
23086
298
1342
0
%
74.0
0.0
100.0
16.4
67.6
100.0
递交记录情况(不包括台湾、香港)
最早提交记录前三位的大学:
•1989.09.25(复旦大学)
•1992.01.02(北京大学)
•1993.10.13(中山大学)
提交序列最长的前三大学(超过100000bp):
•209216bp(上海第二医科大学)
•139342bp(中山大学)
•130760bp(浙江大学)
最早提交的序列记录
LOCUS
BSPGIA
1822 bp DNA
BCT
20-APR-1995
DEFINITION
Bacillus stearothermophilus pgiA gene for phosphoglucoisomerase
isoenzyme A (EC 5.3.1.9).
ACCESSION
X16639
JOURNAL
Submitted (25-SEP-1989) Tao W., Institute of Genetics, Fudan
University, Shanghai, People's Republic of China
LOCUS
X63771
807 bp RNA
VRL
14-JAN-1992
DEFINITION
Soybean Mosaic Virus gene for coat protein.
ACCESSION
X63771
JOURNAL
Submitted (02-JAN-1992) R. Chu, National Lab. of Plant Genetic
Engin., Biology Department, Peking University, Beijing, 100871,
China
LOCUS
DEFINITION
JOURNAL
People's
AC23SRRN
141 bp mRNA linear BCT 19-MAR-1998
Actinomycete (4153) 23S ribosomal RNA. ACCESSION Z26937
Submitted (13-OCT-1993) Qu L., Zhongshan University,
Biotechnology Research Centre, Guangzhou, Guangdong,
Republic of China, 510275
序列最长的三个记录
LOCUS
AF060568 201239 bp DNA
PRI
29-SEP-1999
DEFINITION Homo sapiens promyelocytic leukemia zinc finger protein (PLZF)
gene, complete cds.
ACCESSION AF060568
JOURNAL
Submitted (20-APR-1998) Shanghai Institute of Hematology, Ruijin
Hospital, Shanghai Second Medical University, 197, Ruijin Road II,
Shanghai 200025, P.R. China
LOCUS
AF325155 139342 bp DNA circular VRL
11-SEP-2001
DEFINITION Spodoptera litura nucleopolyhedrovirus strain G2, complete genome.
ACCESSION AF325155
JOURNAL
Submitted (01-DEC-2000) State Key Laboratory for Biocontrol &
Institute of Entomology, Zhongshan University, 135 Xingang Road,
Guangzhou, Guangzhou 510275, China
LOCUS
AF303045 130760 bp DNA circular VRL
31-AUG-2001
DEFINITION Helicoverpa armigera nuclear polyhedrosis virus, complete genome.
ACCESSION
AF303045
JOURNAL
Submitted (07-SEP-2000) Institute of Applied Entomology, Zhejiang
University, Kaixuan Road 268, Hangzhou, Zhejiang 310029, China
最早递交核苷酸序列记录的大学和递交的数量
(不包括台湾、香港)
记录递交时间
1989
1992
1993
1994
记录数
2
1
5
5
递交大学
复旦大学
北京大学
中山大学
中山大学(3)、浙江大学(1)、北京大学(1)
南京医科大学
2%
第二军医大学
4%
第四军医大学
2%
武汉大学
4%
学校
中国农业大学
5%
北京大学
6%
其他
42%
浙江大学
6%
复旦大学
9%
中山大学
10%
上海第二医科大学
中山大学
复旦大学
浙江大学
北京大学
中国农业大学
武汉大学
第二军医大学
南京医科大学
第四军医大学
其他
总数
序列数
%
467
417
359
231
231
195
170
158
97
81
1788
4194
11.1
9.9
8.6
5.5
5.5
4.6
4.1
3.8
2.3
1.9
42.6
100
上海第二医科大学
10%
递交记录总数列前十名的大学(不包括台湾、香港)
各省(市)记录总数和大学记录
数(不包括台湾、香港)
5000
4500
4000
3500
3000
2500
2000
1500
1000
500
0
总数
大学
省(市) 记录总数 其中大学记录数
上海
北京
江苏
广东
浙江
湖北
山东
陕西
福建
湖南
四川
云南
辽宁
广西
重庆
海南
吉林
安徽
河南
河北
黑龙江
天津
山西
甘肃
贵州
新疆
江西
宁夏
青海
内蒙古
西藏
2469
3797
656
571
297
548
213
185
149
129
171
1073
97
72
58
93
37
33
53
23
39
20
10
29
4
3
2
4
86
0
0
1011
645
489
388
235
220
170
156
107
99
79
63
60
45
40
31
25
20
20
16
14
13
8
5
3
3
2
1
0
0
0
浙江
6%
其他
上海
北京
江苏
广东
浙江
湖北
湖北
5%
其他
29%
广东
9%
江苏
12%
北京
15%
上海
24%
省(市) 序列数
%
上海
北京
江苏
广东
浙江
湖北
其他
24
15
12
9
6
5
29
1011
645
489
388
235
220
1206
其他省(市)
山东
陕西
福建
湖南
四川
云南
辽宁
广西
重庆
海南
吉林
安徽
河南
河北
黑龙江
天津
山西
甘肃
贵州
新疆
江西
宁夏
青海
内蒙古
西藏
序列数
%
170
156
107
99
79
63
60
45
40
31
25
20
20
16
14
13
8
5
3
3
2
1
0
0
0
17
16
11
8
6
6
5
4
3
3
2
2
2
1
1
1
1
1
0
0
0
0
0
0
0
各
省
(
市
)
大
学
记
录
数
比
较
基因组记录情况(不包括台湾、香港)
递交大学
复旦大学
武汉大学
华中农业大学
浙江大学
中山大学
厦门大学
合计
记录数
4
3
2
1
1
1
12
统计方法说明
•
本文统计了截止1996年12月31日和2001年12月31日由我国大学和其他研究机构直接递交
GenBank国际公共数据库的DNA和基因组序列数量,有关统计方法说明如下:
•
•
•
利用NCBI提供的ENTREZ搜索系统进行初步的检索和统计:
(1) 先将只要含有中国、台湾、香港和澳门字样的非EST记录均下载:
(CHINA OR TAIWAN OR “HONG KONG”) NOT "gbdiv est"[Properties] Limits: Modification
Date to 2001/12/31,共获得24701个记录
(CHINA OR TAIWAN OR “HONG KONG”) NOT "gbdiv est"[Properties] Limits: Modification
Date to 1996/12/31,共获得915个记录
自编程序并对上述记录分别在记录的“JOURNAL”字段后(“SUBMMIED:….”)进行中国大陆、
台湾和香港数据库记录的统计和国内一些主要城市及高校数据库记录的统计等。
(2)EST记录数据是通过ENTREZ 检索GenBank数据库gbdiv est子库获得的。
(3)用于检索的各高校英文名称均通过各高校的主页上查找得来,通过我国教育部网站获得
了我国所有院校合并的信息。检索中对我国主要的高校均进行了统计,然后进行排名。
(4)除了特别说明外,文中的记录均指核苷酸序列记录。
其他几点说明:(1)如果递交给GenBank数据库的记录中没有“China”、“Taiwan”、
“Hong Kong”和“Macao”等字样,而仅注明“PROC”、“PRC”等则不包括在本研究统计范围;
(2)在进行高校检索时,仅包括记录中直接出现“University”一词的记录。本研究的原则是
不对记录进行任何修订,如果记录中“University”一词输入错误或没有写明具体大学(而实际
是由某一大学完成的),将均被排除在外。以上两种情况在本研究的记录中均存在,但仅涉
及极少数记录;(3)对中国大陆的检索策略是在有“China”字样的记录中剔除含有“Taiwan”、
“Hong Kong”字样的记录来实现的。统计中注意了台湾和香港递交的记录中对“China”一词使
用不规范的一些情况。
•
•
•
•
•
•