全民健康保險研究資料庫簡介及研究應用

Download Report

Transcript 全民健康保險研究資料庫簡介及研究應用

全民健康保險資料庫內容
李中一
國立成功大學醫學院
公共衛生學科暨研究所教授
1
大綱
• 健保資料的內容
• 健保資料與實際研究範例
• 研究者要做哪些準備?
• 健保資料的優點與限制
• 結語
2
健保資料的內容
3
http://www.nhri.org.tw/nhird/
4
5
全民健康保險研究資料庫
加值服務申請原則
提供原則
• 係依電腦處理個人資料保護法第八條第一項第七款「為學
術研究而有必要且無害於當事人之重大利益者。」提供學
術研究使用
• 申請人應說明其研究目的與預期貢獻
• 申請人應說明所申請加值資料與其研究計畫之關聯,以及
用於學術研究之必要性
• 申請人所申請資料應符合研究所需,並遵循最少資料原則
及抽樣原則,以保護個人隱私。申請案之資料量採分年計
算,每年所申請之資料以不超過該年資料總量10%為原則
• 特殊需求申請案申請人須提供明確可行之資料擷取條件
6
資料加值服務使用
• 使用者應遵循「電腦處理個人資料保護法」及相
關法令之規定,不得侵犯個人隱私亦不得藉以辨
識個人或個別單位
• 使用者除將資料下載至申請書所載之工作電腦主
機外,未經同意,不得以任何方式複製加值資料
檔案,亦不得將加值檔案提供給研究以外之他人
使用。 其電腦工作主機須位於申請人所屬機構管
轄範圍內
• 本資料加值服務之加值檔案使用期限為三年,自
取得國衛院所提供加值資料之日起算,使用期限
屆滿申請人應將加值資料繳回國衛院辦理結案
7
學術界研究類
•政府立案之國內公私立大專院校、政府所
屬業務相關單位、或非營利研究機構(含教
學醫院)之講師、技正(或相當職等)、助
研究員、專科醫師等(含)以上或其他經「
全民健康保險研究資料庫指導委員會」(以
下簡稱指委會)審核通過者。
8
各年度資料清單可以分為四大類
• 基本資料檔:10類
• 系統抽樣檔:住院醫療費用清單明細
檔與門診處方及治療明細檔(含醫令
資料)
• 特定主題分檔:14類
• 承保抽樣歸人檔:兩組100萬人
檔
案
串
聯
9
10
譯碼簿可以
協助了解各
檔案之內容
11
12
13
回資料清單
14
系統抽樣檔
• 抽樣之目的以研究者能在PC上使用該資料
為原則,儘量完整呈現資料之原始架構,
讓使用者對資料進行初步之測試,並未以
任何研究目的作為抽樣之考量。
15
• 住院醫療費用清單明細檔(DD)及住院醫療費
用醫令清單明細檔(DO)之抽樣方法:
以母體資料中月份占年度資料量之比率,
計算每月應抽取樣本數,再以系統抽樣法自每
月資料檔中抽出所需樣本數,再將每月抽樣資
料整合後即為抽樣資料,資料量約佔母體樣本
數之5%,亦即每20筆取1筆。
16
• 門診處方及治療明細檔(CD)及門診處方醫令
明細檔(OO)之抽樣方法:
門診處方及治療明細檔之抽樣,是依健保局
提供之原始檔以西、牙、中醫檔案之分類,按比
率計算各檔案資料量比率分別抽取適當資料量。
各檔案再以母體資料中月份占年度資料量之比
率,計算每月應抽取樣本數,再以系統抽樣法自
每月資料檔中抽出所需樣本數,再將每月抽樣資
料整合後即為抽樣資料,資料量約佔母體樣本數
之0.2%,亦即每500筆取1筆。
17
系統抽樣檔產生之流程圖示
18
住院
抽樣比率1/20
住院
醫令
門診
門
診
醫
令
抽樣比率1/500
住院系統抽樣檔
回資料清單
門診系統抽樣檔
19
特定主題分檔(14類)
牙醫門診處方及治療明細檔
中醫門診處方及治療明細檔
癌症門診處方及治療明細檔
重大傷病醫療使用門診處方及治療明細檔
醫學中心門診處方及治療明細檔
職業病與職業傷害門診處方及治療明細檔
外傷門診處方及治療明細檔
特約藥局處方及調劑明細檔
復建治療門診處方及治療明細檔
論病例計酬門診處方及治療明細檔
糖尿病門診處方及治療明細檔
住院醫療費用清單明細檔
承保檔(2003年之前之記錄為歷史累積,
之後只保留最後異動)
• 精神疾病住院病患歸人檔
•
•
•
•
•
•
•
•
•
•
•
•
•
除了精神疾病
歸人檔外,特
定主題分檔
都不含相對應
的醫令資料
20
14個特定主題分檔之資料來源
GO
GD
DD
•特約藥局處方及調劑明細檔
•住院醫療費用清單明細檔
•精神疾病住院病患歸人檔
CD
回資料清單
•
•
•
•
•
•
•
•
•
•
ID
•承保資料檔
牙醫門診處方及治療明細檔
中醫門診處方及治療明細檔
癌症門診處方及治療明細檔
重大傷病醫療使用門診處方及治療明細檔
醫學中心門診處方及治療明細檔
職業病與職業傷害門診處方及治療明細檔
外傷門診處方及治療明細檔
復建治療門診處方及治療明細檔
論病例計酬門診處方及治療明細檔
糖尿病門診處方及治療明細檔
21
承保抽樣歸人檔
• 以健保承保資料檔為抽樣母群體,依簡單
隨機抽樣,決定樣本(人),依此擷取各
該人各年所有資料(包括門診、住院及特約
藥局)。
100萬人(LHID2005)(2007年發行)
100萬人(LHID2000)(2002年發行20萬人,
2009年發行80萬人 )
22
承保抽樣歸人檔產生流程
椅LHID2000為例
ID2000
ID
從2,000年所有被保險人中
隨機抽樣50,000人
CD
OO
DD
DO
GD
回資料清單
GO
R01_CD1996
˜R01_CD2009
R01_OO1996
˜R01_OO2009
R01_DD1996
˜R01_DD2009
R01_DO1996
˜R01_DO2009
R01_GD1996
˜R01_GD2009
R01_GO1996
23
˜R01_GO2009
24
如何申請?
如有疑問請洽承辦人孫小姐 電話(037)
246166 分機33603
25
申請種類
• 一般申請
–
–
–
–
基本資料檔
系統抽樣檔
抽樣歸人檔
特定主題分檔
• 特殊需求
– 一般申請未提供的檔案
• 教學研究用申請
– 教學研究用資料內容為承保抽樣歸人檔,共六年( 8590)1,000人資料,檔案大小共63.8 MB,壓縮後約7.12
MB。(FREE)
26
27
https://registry.nhri.org.tw/cd/index.asp
繳交研究成果
28
29
30
違反規定之處理
• 因故需展延繳交期限或計畫主題變更,請填寫「
變更申請表」提出申請
• 根據中央健保局「國家衛生研究院全民健康保險
研究資料庫資料加值服務申請原則」第十二條:
「本資料庫使用者如違反本原則或其他相關法令
之規定,其使用權立即中止,除須立即繳回所申
請加值資料且不得保留任何備份或相關加值資料
檔案外,國衛院並得停止其個人或單位申請及使
用本加值資料之權利,並保留法律責任之追訴權
。」
31
32
有用的網站資訊
1. 教學課程
2. 研討會
1. 歷年申請案
2. 成果報告
3. 期刊發表
33
健保資料與實際研究範例
34
Macro-vascular Disease
35
36
Study Diabetes Cohort and Controls
• Diabetes Cohort:
– Identified from the 1997 ambulatory care visit claim
data with a diagnostic code of “250” or “A181”.
(N=500,868)
– Problem with “diagnostic codes”
• Controls:
– Age and sex matched non-diabetic controls
(N=500,248)
37
Append
to
Diabetic ambulatory
care 1997 (pt)
763,138
Mar97-Jan98
5,678,360
Apr97-Feb98
5,708,788
Apr 42,340
May97-Mar98
5,807,071
May 46,210
Jun97-Apr98
5,853,541
Jun 34,854
Jul97-May98
5,930,129
Jul 37,003
Aug97-Jun98
5,981,475
Aug 33,452
Sept97-Jul98
6,078,384
Sept 38,444
Oct97-Aug98
6,128,648
Oct 37,577
Nov97-Sept98
6,165,398
Nov 34,030
Dec97-Oct98
6,232,127
Dec 34,032
Jan98-Nov98
6,228,545
dmcohort Jan
275,932
Excluding
patients not coming to clinic visits after their
first appearance and those patients whose first and last outpatient
visits were equal to or less than
days apart
Mar 54,080
Selection of the diabetic
group
Feb97-Dec97
5,570,955
Jan 302,914
Feb 63,159
Diabetic ambulatory
care 1998 (v)
6,873,615
Diabetic ambulatory
care 1997-1998 (v)
12,929,184
Merged to
Aggregated by keeping the first
appearance for each patient
Diabetic ambulatory
care 1997 (v)
6,055,569
2
5
6
9
2
2
30
dmcohort Feb
46,118
diabetes cohort
500,868
dmcohort Mar
30,947
dmcohort Apr
22,166
dmcohort May
19,922
dmcohort Jun
15,966
dmcohort Jul
16,246
v = visits
pt = patients
dmcohort Aug
14,218
dmcohort Sept
18,990
dmcohort Oct
15,241
dmcohort Nov
13,238
dmcohort Dec
12,189
38
Registry of
Beneficiaries by the end of 2002
71,657,657
Delete those with date of enrollment to NHI after Dec 31, 1997
and date of withdrawal from NHI before Jan 1, 1997
Registry of
beneficiaries
27,719,373
Aggregated by identifying the first date of
enrollment to NHI for each individual
first date of
enrollment
21,407,463
Aggregated by identifying the last date of withdrawal to
NHI for each individual
Delete those in diabetic
group (n=495,759). Linkage
for the other 5,109 diabetic
patients failed
Files
merged
last date of
withdrawal
21,407,463
Selection of the control group
21,407,463
Pool of controls
20,911,704
Age-sex matched
stratified random
sampling
control group
500,248
39
Cumulative Event Rates (%)
1997-2002
LEA
PRP
DM/M:2.40
DM/F:1.87
DM/M:0.70
DM/F:0.52
CN/M: 0.28
CN/F: 0.17
CN/M: 0.20
CN/F: 0.15
40
41
合計金額:$20,500
42
43
44
45
46
Neoplasm
47
We Considered a Better Design in
2008
• DM and control cohorts: 2000
• Excluding criteria can be set based on the
information between 1997-1999
• Follow-up can be made from 2000-2006
• Prior history of co-morbidity 1997-1999
• Real “Incidence rate” can therefore be
calculated
48
Incident cases
1997
2000
2006
TIME
Prevalent cases
49
Impact Factor: 10.84
ISI Journal Citation Reports © Ranking: 2009:
2/65 (Gastroenterology & Hepatology)
50
DM and
controls were
identified
from the
2000 NHI
claims
51
Co-morbidity is
available in
1997-1999
52
Reviewer’s Comments (1/2)
•I am surprised by the low percentages of
patients with risk factors for liver and
biliary tract malignancies. … such as
hepatitis B (1% in the diabetic group and
less than 1% in the control group) and
hepatitis C (less than 1% in both groups).
53
Reviewer’s Comments (2/2)
•Is it possible to expand the collection of
risk factor information to include
ambulatory claims and years 2001-2006
rather than limit it to only in-patient claims
during 1997-2000?
54
NTD$
126,800
DM
615,532 IDs
NHRI
CD for DM & Non-DM
1997-2006
Non-DM
614,871 IDs
55
56
57
58
59
Diabetic Ketoacidosis
60
61
62
63
64
Urinary Tract Disease and Infection
65
66
A Follow-up Analysis
Under Reviewed by Critical Care & Medicine
67
68
69
Other Research on Urinary Tract
Disease (with 100-million insurers dataset)
• Increased risk of urinary tract calculi risk
among patients with diabetes mellitus -A
population-based cohort study
– Revision requested by Urology
• Population-based cohort study on risk of end
stage renal disease in patients with diabetes
mellitus
– Manuscript almost completed
70
• Problems with NHI Data
– Proxy of “mortality”
– Improving accuracy of “diagnosis”
71
72
73
研究者要做哪些準備?
74
光碟片中的ASCII資料
(1)
使用歸人檔進行追蹤研究時可能
發生的問題
77
精神疾病住院病患歸人檔
• 自1996年至2001年之「全民健保住院醫療費用清
單明細檔,簡稱DD檔」)中擷取出符合以下2條件
之每一筆住院資料:
– 「就醫科別」為精神科(代碼為13)
– 「診斷代碼」之ICD_9CM前三碼為290至319之任一項
或A-code為A210至A219之任一項
• 就上述之每一筆住院資料中擷取其已轉碼之身份
證統一編號,共得91,104個不同的ID。
• 再將這91,104個ID在「國家衛生研究院全民健保
研究資料庫」1996年至2007年所有之就醫資料擷
取出來,得到此歸人檔。
78
兩個問題值得考慮
• 根據1996-2001的住院資料,假設一個人在
2001年因為精神疾病而「首次」住院,則
此人將被包括於此資料庫之91,104名精神疾
病病患之中。
– 此病人是否為新發生個案?
– 此病人在「首次」住院前(1996-2000)的所有
門住診資料,包括用藥等醫令資料是否可視為
精神疾病病患之醫療利用訊息?
79
(2)
抽樣檔是從「門住診紀錄」中利
用系統隨機抽樣獲得,若經歸人
程序後,歸人樣本不一定還是隨
機樣本
80
某統計研究所碩士論文
• 題目:泌尿系統感染症住院醫療資源利用
之研究
• 方法:該研究利用2002年「住院醫療費用
清單明細」系統抽樣檔共530筆診斷為「泌
尿道感染(590、595、597、5990、6465、
6466與601)」之紀錄進行描述性統計、集
群分析、回歸分析、與類神經網路等分析
。
81
主要研究結果…
• 男女病患比例約為3:7(歸戶後)
• 男性病患集中於學齡前,但女性病患除
了在學齡前外,20-45歲也是集中的年齡
• 費用與住院日數高度相關,且呈偏右分
布
• 病患年齡是除了住院日數外另一個影響
住院費用的因素,兩者共解釋74%的費
用變異量
82
問題是…
• 系統抽樣檔雖是隨機抽取,但住院次數
愈多者,被抽中的機會愈大
• 當將系統抽樣檔進行「歸人」後,得到
的病人樣本便是屬於較常看病的人
• 因為住院或門診較多次的病人,其住院
或門診紀錄會有較高的機率被抽中
83
健保資料的優點與限制
84
Advantages of Using NHIRD in
Medical Research
• Less costly
• Large number of study subjects
• Less vulnerable to selection bias & in some
cases to information bias
• Great potential for long-term follow-up
studies
85
86
Limitations
• Limited information
• Concern about the validity and completeness
of NHI data
• Training for data management is needed
87
(3)
使用住院檔時必須要了解到長天
期住院分次申報的問題
88
結語
89
• 成功利用健保資料進行論文發表的第一步
是了解健保資料的內容;它能做什麼?它
不能做什麼?
• 使用健保資料需要的資料處理與統計分析
能力門檻較高。
– 較有效率的統計軟體,如SAS、R
– 串檔、歸戶……….
90
謝謝聆聽
91