第1回 医学用語委員会 医学用語シソーラスの概要 第6版

Download Report

Transcript 第1回 医学用語委員会 医学用語シソーラスの概要 第6版

OUGライフサイエンス分科会
医学用語シソーラスとUMLSに
ついて
2005年1月20日
特定非営利活動法人医学中央雑誌刊行会
編成課 浜田雅美
[email protected]
医学用語シソーラス各版概要
版
発行年月
対応MeSH
ディスクリプタ
非ディス(出力)
用語数
MeSH由来
MeSH以外
MeSH不採用語
カテゴリー
医中誌Web
CD-ROM
冊子体
第1版
1983.04
1978
13,485
3,345
16,830
第2版 2版修正版
1987.01
1990.2
1984
1984
17,882
17,926
7,021
7,120
24,903
25,046
第3版
1994.06
1991
14,454
8,570
23,024
14,238
216
第4版
第5版
1999.01 2003.01
1997
2001
18,156
21,378
34,183
28,702
52,339
50,080
18,065
18,959
91
2,419
133
478
3階層
4階層
4階層
7階層
11階層 12階層
1983- 19831983-86 1987-89 1990-93 1994-98 99-2002 2003-
各版用語数の変遷
各版用語数
60,000
50,000
40,000
30,000
20,000
10,000
5
第
4
第
3
第
版
版
版
版
正
修
版
版
版
2
第
2
第
1
第
0
非ディス(出力)
ディスクリプタ数
医中誌Web 統制語へのマッピング
シソーラス参照機能 用語一覧
シソーラス参照機能 カテゴリー表示
略語の候補語(ディスクリプタ)への案内
第4版
1999年
・MeSH 1997年版の全用語の99%以上に対応
・非ディスクリプタの充実(広範囲な典拠資料を
元に最新の用語を追加)
・現在の医学での出現頻度を考慮したディスク
リプタの選択 (変更語数 4,341)
・新設語・削除語・変更語(一部抜粋)をリストに
して掲載
ディスクリプタの変更例
Ketosis, Diabetic → 糖尿病性ケトアシドーシス
Tupaiidae → ツパイ科
抗エストロゲン剤 →Estrogen Antagonists
抗原-自己 →自己抗原
昼間治療 → デイケア
胼胝 →べんち
類肉腫症→サルコイドーシス
第5版
2003年
MeSH2001年版への対応
国内医学に適合したシソーラスの作成
・薬効別カテゴリーを採用(MeSHのPharmacologic
Actionから)
・生薬、漢方薬の収載 (日本薬局方より)
・看護、介護用語の充実
・疾患名以外はディスクリプタを自然語形に
・物質名、細菌名以外は和文表記優先
・使用頻度の低いMeSH用語を整理、統合
MeSH Pharmacologic Action のカテゴリー
医中誌 化学作用(薬効)カテゴリー
医中誌独自語の例
Good Clinical Practice
NANDA看護診断
移動介助
介護保険
義肢装具士
清拭
治験コーディネーター
特定機能病院
訪問看護ステーション
(581語)
HACCP
SOAP (経過記録)
医療的ケア
看護情報システム
臍帯血バンク
生活保護
特定機能病院
排泄介助
要介護認定
第5版シソーラスに収載しなかったMeSH語の例
※ 国内医学分野では頻度が少ないと思われたため
・Ambystoma mexicanum メキシコサンショウウオ
(B2:脊椎動物)
・Koro コロ (セレベス島のマカッサル人やその他の
極東地域の土着民に起こる急性の妄想状態)(F1:行
動と行動メカニズム)
・Saturn 土星 (H1:自然科学)
・Jews ユダヤ人 (M1:人間)
・Hospitals, Group Practice グループ診療病院 (N2:保
健医療の施設、人的要員、サービス)
第6版
2007年1月予定
・MeSH2005年版への対応
・UMLS2005年版への対応づけ
・シソーラス参照機能の充実
(登録年、用語の説明、など)
・副標目、チェックタグの見直し
MeSH2005対応
発行年
2002年
2003年
2004年
2005年
合計
新設語
847
1251
666
487
3251
変更語
185
93
109
129
516
削除語
47
20
71
60
198
MeSH2002-05新設語
A
B
C
D
E
第5版 1,381 1,713 4,116 8,450 2,117
新設
100 1709 243 1030 179
1,481 3,422 4,359 9,480 2,296
H
416
40
456
I
421
40
461
J
293
40
333
K
113
62
175
L
335
36
371
F
819
50
869
G
1,843
205
2,048
M
N 総用語数
170 1,049
21,378
21
60
3,251
191 1,109
24,629
※ MeSH2005のヒストリー項目の登録年が2002-2005のものをカテゴリー別に
ディスクリプタ数を集計した。総用語数はカテゴリーの重複をふくまないディス
クリプタ数なので、カテゴリー別語数の合計とは異なる。
MeSH2005カテゴリー別用語数
10,000
9,000
8,000
7,000
6,000
新設
第5版
5,000
4,000
3,000
2,000
1,000
0
A B C D E F G H I J K L M N
2002~2005MeSHの主な変更点
・動物のカテゴリーの改変
・ウイルスの表記の変更
・植物療法のための植物名の増大 (約1000語)
・生命倫理用語の充実
・膜輸送蛋白質、酵素等、生体機能蛋白質用語の
充実
・遺伝学関連のカテゴリー新設
G13遺伝学的現象、G14遺伝学的構造
・ナノテクノロジー関連の用語の追加
他
MeSH2005対応における課題
・植物名の大幅増加に対応するか?
・植物名と生薬名の関連づけ
・歴史関係の用語
植物名と生薬名の整理
・日本薬局方収載の生薬(94品目)について、
MeSHの植物の用語に対応する。
例:当薬 センブリ・・・Swertia japonica (センブリ)の
開花期の全草
リンドウ科 Gentianaceae B06.388.100.450
ミヤマアケボノソウ属 Swertia B06.388.100.450.594
当薬 ・・・医中誌独自語
生物学的製剤 Biological Products D24.310
植物製剤 Plant Preparations D24.310.784
生薬 ・・・医中誌独自語
当薬 ・・・医中誌独自語
歴史(戦争)関連の用語
MeSH 2005 Kカテゴリー 24語
・ September 11 Terrorist Attacks
9月11日テロ(アメリカ同時多発テロ)
・ Russian-Japanese War 日露戦争
・ History, 15th Century 15世紀の歴史
・ French Revolution フランス革命
UMLSから各用語集へ
MeSH
各国語版
標準病名集
ICD-10
MedDRA
MedDRA-J
UMLS
MeSH
SNOMED-CT
DSM
CRISP Thesaurus
etc
医学用語シソーラス
UMLSとは
Unified Medical Language System
統合(一体化)医学用語システム
http://www.nlm.nih.gov/research/umls/
開発:米国国立医学図書館
National Library of Medicine (NLM)
及び外部協力機関(Lexical Technology Inc, ピッツバーグ、
コロンビア等の大学, Mayo Clinic,等)
1986年~開発に着手
目的:各種情報源(Source)からの電子化した生物医
学情報を統合化するシステムの開発を支援する。
更新頻度:3-4回/年 最新版:2004AC
開発時の背景
・電子化された情報の交換のために、情報(用語など)の
標準化が各分野で推進されたが、個々の体系を結びつ
けるツールが無かった。
・学術情報の分野における情報資源の管理運用は、経
営学の分野に比べ立ち遅れていた。図書館がその役割
をになうものとしてNLMによりIAIMS(Integrated
Academic Information Mangement)計画が1983年に発表
された。
保健医療データのタイプ
・臨床データ
・・・患者記録、検査結果、診断、等
(SNOMED、DSM-IV、電子カルテ)
・管理(経営)上のデータ
・・・保険請求、オーダリング、等
(レセプト電算処理)
・公衆衛生のデータ
・・・疾病統計、感染症報告、副作用報告、等
(ICD-10、MedDRA)
・学術情報のデータ
・・・ PubMed (MeSH) 、等
主要な情報源 (アルファベット順)
DSM-IV
Diagnostic and Statistical Manual of Mental Disorders, 4th edition
(精神疾患の診断と分類の手引き 第4版)
ICD-10
International Classification of Diseases (国際疾病分類)
ICPC
International Classification of Primary Care (プライマリケア国際分類)
MedDRA
Medical Dictionary for Regulatory Activities (メドラ)
MeSH、およびMeSH各国語版
Medical Subject Headings (医学件名標目表)
SNOMED-CT
Systematized Nomenclature of Medicine-Clinical Term (スノメド)
2004AC概要
Official Counts:
Release version: 2004AC
Release format: RRF
Concepts: 1,137,344
Number of concept names (AUIs): 5,386,827
Number of distinct concept names (SUIs): 4,571,553
Number of distinct normalized concept names (LUIs):
4,090,845
Number of sources (distinct source families by language):
114
Number of sources contributing concept names: 132
Number of languages contributing concept names: 17
Name Count by Language:
Language
ENG
SPA
DUT
POR
GER
FRE
JPN
RUS
ITA
FIN
CZE
SWE
DAN
NOR
HUN
BAQ
HEB
Name Count
% of Metathesaurus
3429705
63.67%
1268335
23.55%
213639
3.97%
132849
2.47%
91263
1.69%
59385
1.10%
54550
1.01%
46157
0.86%
25016
0.46%
23055
0.43%
20586
0.38%
18944
0.35%
723
0.01%
722
0.01%
718
0.01%
695
0.01%
485
0.01%
UMLS 3つの構成要素
1.Metathesaurus (メタシソーラス)
生物医学分野で使われる多くの異なる統制語彙集や分類に
出現するConcept(概念)に関する情報のデータベース
2.Semantic Network (語義ネットワーク)
メタシソーラスの中の全ての概念に対して、一貫したカテゴリー
と、 Concept(概念)間の重要な内部関係を示す
3.Lexical resources (辞書的(言語学的)な情報源)
自然言語処理(Natural Language Processing System)に対して
必要な辞書的情報を提供する。
1.Metathesaurus
生物医学分野で使われる多くの異なる統制語彙集
や分類に出現するConceptに関する情報のデータ
ベース
出典ごとの語彙を、UMLSの編集者によりConceptご
とにまとめ、固有の識別子をつけた。
Concept:
一つの独立した概念。CUI(Concept
Unique Identifier 概念識別子)という個
有の識別子を持つ。
Conceptは、様々なTerm(同義語、異表記
語、訳語)Definition(定義)
Relation(Conceptの位置づけ)Sorce(出典)な
どからなる。
Conceptを構成する要素
Concept:
CUI:
Semantic Type:
Definition:
Synonyms:
Other languages:
Sources:
Ancestors:
Relation:
一つの独立した概念でUMLSの基本となる単位
Concept Unique Identifier 概念識別子
Concept の意味から見た属性(性質)
各Conceptの定義 (MeSH由来のものが多い)
同義語 (下位語、類義語は含まない。)
他言語訳
出典 (100以上の出典)
起源、系統 出典ごとの階層構造
Concept間(相互)の関係
Concept (CUI)
C0004238
Atrial Fibrillation
(preferred)
Atrial Fibrillations
Auricular Fibrillation
Auricular Fibrillations
Terms (LUIs)
L0004238
Atrial Fibrillation
(preferred)
Atrial Fibrillations
L0004327
(synonym)
Auricular Fibrillation
Auricular Fibrillations
Strings (SUIs)
S0016668
Atrial Fibrillation
(preferred)
Atoms (AUIs)
* RRF Only
A0027665
Atrial Fibrillation
(from
MSH)
A0027667
Atrial Fibrillation
(from PSY)
S0016669
Atrial Fibrillations
A0027668
Atrial Fibrillations
(from MSH)
S0016899
Auricular Fibrillation
(preferred)
A0027930
Auricular
Fibrillation
(from PSY)
S0016900
(plural variant)
Auricular Fibrillations
A0027932
Auricular
Fibrillations
(from MSH)
Relation:
Concept間の関係には下記の2つがある。
メタシソーラス全体にわたる高次の関係
(semantic types,semantic networks)
各出典の中ごとの独自の分類体系
(MeSHにおけるTree, ICD-10のコード)
2.Semantic Network
・Semantic types Conceptの意味からみた属性
(カテゴリー構造になっている)
・Semantic network relationship
= Inter-concept relationships
意味からみたConceptとConceptの関係のネットワーク
メタシソーラスの中の全てのConceptに対して、一貫し
たカテゴリーを持つために、UMLSにて整理した各
Conceptの属性(Semantic types)と、それぞれのConcept
と Concept の間の重要な関係を示すネットワーク
(Semantic network)を持つ。
Semantic Type:
各ConceptはUMLSで与えた概念の属性を持つ。
Entity:実在物
生物、解剖学的構造、化学物質、物質の構造
発見、器具、言語、組織、集団、等
Event:事象
行動、ケア、研究活動、生理的現象、疾病、
外傷、等
Semantic network relationshipの例
・Hierarchical
階層関係
isa (is-a-kind-of) ある種類の中の一つ
part-of
ある部分
・Associative
location-of
caused-by
treats
関連関係
場所、位置
原因と結果
処置
・Cross-references
相互に関連する
3.Lexical Resources
・SPECIALIST Lexicon:
Concept(英語)についての辞書的(言語学的)な
情報を示す。
・Lexical tools: 自然言語処理を支援するツール
自然言語処理(Natural Language Processing System)に
対して必要な辞書的情報を提供する。
英語における様々な語形変化
・Inflection 語尾変化
noun
名詞
nucleus, nuclei
verb
動詞
cauterize, cauterizes, cauterized,
cauterizing
adjective 形容詞 red, redder, reddest
・Derivation 派生
verb (動詞) ←→ noun (名詞)
cauterize -- cauterization
adjective (形容詞) ←→ noun (名詞)
red -- redness
Lexical tools
・生物医学分野の用語における辞書的な語形変化に
対応するツール。(自然言語処理)
・主なツール
・Normalization: 正規化ツール
・Indexes:
複合語を個別のWordに分け、
並べ替えたIndexを作成
・Lexical Variant Generation program (lvg):
辞書的な変化形を発生させるプログラム
・SPECIALIST Lexiconをベースにする。
・名詞の抽出や、検索エンジンなどのために用いられる。
2003年
厚生労働科学研究 「UMLSと連携した
日本語医学用語シソーラスの作成に関
する研究班」(班長:脊山洋右)にて、第5
版シソーラスデータをもとに、UMLSの
MeSH2002部分との対応を図った。
研究班の中で指摘された事項
・より適切な訳語がある。
ニトロソエチル尿素→エチルニトロソ尿素
・一般的に普及している用語に変更した方がよい
Ataxia Telangiectasia
毛細管拡張性失調症→血管拡張性失調症
・同義語に不適切なものがある
Antibody-Producing Cells 抗体産生細胞
× ←Immunoglobulin-Producing Cell (MeSH由来)
× ←免疫グロブリン産生細胞
・酸と酸塩、エステルの使い分けを明確に
Ioxaglic Acid ×←Ioxaglate
・日本語表記の追加 (主に化合物名)
Fatty Acids, Monounsaturated
← 一価不飽和脂肪酸
MeSHのEntry Term(同義語扱い) のうち
UMLSのCUIが異なるもの
CUI: C0028850
Ocular Motility Disorders 眼球運動障害
C0155339 Brown Tendon Sheath Syndrome 腱鞘症候群
ICD-9-CM,SNOMED-CT,ReadCodes
C0152219 Cyclophoria 回転斜位
ICD-9-CM,SNOMED-CT,ReadCodes
C0242567 Opsoclonus 眼球クローヌス
SNOMED-CT,ReadCodes
C0152222 Parinaud‘s Syndrome パリノー症候群
SNOMED-CT,ReadCodes
(訳語はステッドマンによる)
UMLSおよび関連サイト
◆UMLS Knowledge Source Server
http://www.nlm.nih.gov/research/umls/umls
main.html
◆「UMLSと連携した日本語医学用語シ
ソーラスの作成」研究班のサイト
http://aqua.h.u-tokyo.ac.jp/jumls/
「現時点までの成果」から日本語のPubMed検索等のペー
ジが見られます。(要登録)
参考資料:
1)
川野惟ニ:統合医学用語システム(UMLS)知識ソー
スの概要 情報管理 41(1):15-23, 1998
Training :Basics of the Unified Medical Language
System (UMLS)
Caroly Tilley and Jan Willis:The Unified Medical
Language System What is it and how to use it?
http://www.nlm.nih.gov/research/umls/umlshelp.html
2)
補足事項(1):
・UMLSは無料で公開されていますが、利用す
るには登録が必要です。また、出典ごとに利
用の制限があるのでご注意ください。
License Agreement for Use of the UMLSR Metathesaurus
http://www.nlm.nih.gov/research/umls/license.html
・シソーラス研究会 ホームページ
MeSHやPubMedに関す情報が充実しています。
http://homepage3.nifty.com/sisoken/
補足事項 (2)
・共出現検索について:
UMLSで提供されているMRCOC(Co-occurring Concepts)という
データベースを元に作成しています。いくつかの情報源の同じ「エ
ントリー」に一緒に現れる概念について、統計的に算出された出
現頻度をまとめたものです。
情報源:MEDLINE、AI/RHEIM、CCPSS
更新頻度:MEDLINEについては、最近のデータからのもの
(MED)と累積したデータからのもの(MBD)の二つが提供されてい
ます。それぞれの対象となっている時期は、MRCOCの中の
「 SOC 」という項目に記載されています。
(Metathesaurus Documentation 2.7.1.3.10 Co-occurring Concepts (File =
MRCOC.RRF) http://www.nlm.nih.gov/research/umls/meta2.html より)
※尚、研究班で提供している「共出現検索」は「2002 AA」のデータ
を使用しており、その後の更新については未定です。
補足事項 (3)
・ある薬剤についてMeSH Pharmacologic Actionに無い薬効が
見出されたときにどう対処するか?
シソーラスでは:
薬効別カテゴリーは、あくまでMeSHの“Pharmacologic Action”
を元に作成されるので、それ以外の薬効についてのカテゴリー
上の位置付けはしません。
索引では:
文献で述べられている特定の薬理作用についてのキーワー
ドを付与します。