3月10日-資料庫簡介

Download Report

Transcript 3月10日-資料庫簡介

資料庫簡介
資料/資訊/知識/智慧的區別
•
•
•
•
資料
觀察事實與事件,加以系統化的記錄,所收集的原
始數據、符號、圖片,在未經過資料處理之前即稱
為資料。
資訊
為了要思考決策問題的解決方式,資料必須經處理
之後才成為有組織、有價值的資訊。
知識
將資訊經過整理歸納之後,獲取其規則而建立知識
體系,通常都用在人工智慧上。
智慧
以知識來解決實際問題,所發揮的就是一種智慧型
式,一般用來發展更進一步的人工智慧上。
資料處理
• 資料處理(Data Processing ,DP)
就是將資料經過各種有系統的分類、統計、
歸納等的處理,使其成為具有參考價值資
訊的過程。
• 電子資料處理(Electronic Data
Processing ,EDP)
以電子計算機進行資料處理。
資料儲存階層
• 位元
• 位元組
• 字組
• 欄位
資料儲存階層
• 紀錄
• 檔案
• 資料庫
為何需要使用資料庫?
• 你很喜歡買音樂CD
– 如果只有10片 (很容易找到要聽的那片)
– 如果有千千萬萬片
• 1.循序搜尋法 (從第一片開始找…很花時間)
• 2.分類搜尋法
–
–
–
–
古典音樂
流行音樂
交響樂
爵士樂
為何需要使用資料庫?
• 方便管理資料
– 查詢資料
– 修改資料
– 新增資料
– 刪除資料
• 例子:
– 中國醫圖書館藏書查詢
資料庫系統簡介(1/7)
• 存放在資料庫內的資料必須以一定的方式組
織起來,由一個軟體加以管理,作為應用程
式和資料的連接埠。
資料庫管理人員
使用者
資料庫管理系統
資料庫
Ex: ACCESS
使用者
使用者
China Medical University, Taiwan
資料庫系統簡介(2/7)
• 資料庫常用基礎術語:
– 欄位(Field)
– 記錄(Record)
– 資料表(Table)
– 索引(Index)
資料庫系統簡介(3/7)
• 欄位(Field) :
– 資料庫中的資料屬性(Attributes)稱為欄位。
例如學生資料屬性有學號、姓名、性別、出生
年月,那麼資料庫為了記錄這些資料,就需要
設定相關的欄位。
資料庫系統簡介(4/7)
• 記錄(Record) :
– 某一實體對應的資料稱為記錄。例如一年級,
某一學生的以下一組資料,就是資料庫中的一
條記錄。通常一筆記錄會包含多個欄位。
思考題
• 若要建立一個病人的資料表做為電子病歷
之用途, 請問會有那些欄位才能建立一個完
整資料表?
資料庫系統簡介(5/7)
• 資料表(Table):
– 由許多記錄所組成的資料庫,儲存在儲存媒介
上就成為資料表。無論是新增、修改、刪除還
是查詢資料庫,都需要針對對應的資料表進行
存取操作。
資料庫系統簡介(6/7)
• 索引(Index) :
– 索引是為了加速資料庫搜尋而設計的物件。它
將以某一個欄位元作為索引關鍵字(Index
Key),使用該欄位元記錄值作為參照,依一
定的次序重新編排資料庫內記錄的儲存次序。
資料庫系統簡介(7/7)
CD管理資料表
索
引
值
建立兩資料表的關連
索
引
值
演唱者資料表
思考題
• 舉例說明資料庫應用於醫學或健康照護領
域.
資料庫管理系統概論
• 資料庫的定義
所謂資料庫就是一組相關資料的集合,乃
是企業的應用系統所使用的一組不變的資
料。
• 資料庫管理系統(Data Base Management
System, DBMS)的定義
所謂資料庫管理系統就是一組可以讓使用
者建立與維護資料庫的程式。
使用資料庫的優點
(資料庫系統與檔案系統間的差異)
•
•
•
•
•
•
•
減少重複(redundancy)
避免不一致(inconsistency)
資料共用(shared)
標準強迫推行(enforced)
確保安全性(security)
維持整合性(integrity)
調和衝突的需求
資料庫系統的缺點
• 初期投資極高
• 為了定義與處理的一般性而浪費資源
• 為了提供安全性(security)、同步控制、復
原、與整合性而浪費資源。
• 若DBA用人不當可能造成資料庫監控失靈。
資料庫管理系統的功能
•
•
•
•
資料定義(Data definition)
資料操作(Data manipulation)
資料安全性與整合性(security and integrity )
復原(Recovery)與同步控制(Concurrency
Control)
• 資料字典(Data Dictionary)
• 效能(Performance)
資料庫管理師(Database
Administrator, DBA)
• 負責建立與維護實際的資料庫,並以技術
控制方式強制推行DA的資料儲存政策,屬
於資訊技術專業人員。
關連式資料庫
• 關連式(Relations)
– 不能有重複的值組
– 值組間沒有次序性
– 屬性間沒有次序性
– 所有屬性的值是基元的
• MS-ACCESS 為關連式資料庫
美國癌症登記及老人醫療保險資料庫之發展與應用
-論台灣癌症登記與健康保險聯結資料庫之可行性
• 根據美國國家癌症研究中心的統計,到2011年1
月止,運用美國癌症登記(Surveillance,
Epidemiology, and End Results Program,簡稱
SEER)及老人醫療保險(簡稱Medicare)行政
申報資料庫連結資料庫發表在同儕審查期刊的文
章已超過650篇以上,在癌症醫療品質及成本相
關的研究有卓著的成果。
• 我國全民健康保險自1995年開始辦理,全民健康
保險資料庫業已廣泛應用,另一方面我國癌症登
記資料庫也漸趨成熟。若能將兩者結合,應可發
揮相當程度的綜效。
• 本文的目的是希望藉由他山之石,提供我國未來
整合癌症相關資料庫供臨床、學術研究應用及政
策評估之參考。
• 本篇文章將針對以下內容作介紹:資料蒐集之行
政層級及架構、資料庫的結構、附加應用軟體及
程式介紹、資料庫驗證(Validation)與申請費用、
資料庫的使用限制與病人個別資料保護,並以乳
癌為例,說明該資料庫在臨床研究、醫療品質及
癌症治療成本研究方面之應用,並提供建議。
台灣地區透析患者接受副甲狀腺切除手術之住院醫
療服務利用分析 -以全民健保研究資料庫為例(20002004)
• 本研究設計是回溯性之次級資料分析,主要資料
來源是從西元2000年到2004年共五年,登錄於國
家衛生研究院發行之全民健康保險研究資料庫。
使用的檔案包括醫事機構基本資料檔、重大傷病
證明申請檔、專科醫師證書主檔和住院醫療費用
清單明細檔等。經資料處理後,取得全國透析患
者接受副甲狀腺切除手術共1,326人進入本研究。
• 醫療資源利用包括住院天數和費用。以病人之年
齡、性別、透析方式、接受手術方式、接受透析
時間、合併症個數、手術醫院之層級別、權屬別、
分局別、醫院手術量、醫師年資和醫師手術量分
析副甲狀腺切除手術率、住院天數和醫療費用。
資料採用統計套裝軟體SPSS® for windows
12.0版進行描述性統計及推論性統計分析。
• 研究結果發現:(一)在手術率方面,從西元2000
年到2004年逐年增加,年發生率由每一千人年
5.11次,逐年上升到9.42次。手術率男性多於女
性,年齡小多於年齡大,腹膜透析多於血液透析,
非糖尿病多於糖尿病患者。
• (二)在住院天數方面,全副甲狀腺切除手術高於
部分副甲狀腺切除手術,血液透析高於腹膜透析,
合併症個數越多,住院天數越久,醫學中心高於
區域及地區醫院,醫院分局別以台北分局最多,
高手術量醫院和低年資、低手術量醫師,住院天
數較多。
• (三)在醫療費用方面,血液透析高於腹膜透析,
接受透析時間越久,合併症個數越多,醫療費用
越高,公立醫院高於私立醫院,醫院分局別以南
區分局最多,低年資和低手術量醫師,醫療費用
較高。
資料倉儲
• 資料倉儲 (data warehouse) 技術主要是應
用於收集儲存顧客的相關資料,並可將不
同來源、不同時期之資料格式及定義不一
致之資料加以處理,並整合內部或外部的
資料,經過篩選、轉換、存入資料倉儲,
以方便企業決策者對顧客資料之應用分析。
資料倉儲特性
•
•
•
•
以主題為導向(Subject-Oriented)
整合性(Integration)
時間變化性(Time Variation)
非揮發性(Non Volatilization)
資料倉儲VS傳統檔案與資料庫
整合醫療資料之物件關聯式資料
倉儲架構
• 隨著醫療機構資訊化的發展與醫療機構經
營環境的變化,如何有效地整合醫療機構
內部的資訊以提供決策層級的分析支援,
儼然已成為醫療機構資訊化的新一波浪潮。
為此,許多中大型醫療機構紛紛著手導入
所謂的醫療資料倉儲系統,希望運用在商
業界發展已甚為成熟的資料倉儲架構,協
助處理醫療機構進行各種決策分析的資訊
需求。
• 現行的資料倉儲系統主要架構在關聯式資
料庫之上,採用的星狀綱要模式僅適用於
處理文字、數字為主的一般性資料,且針
對的是觀察數值欄位變化的多維度統計分
析。對於醫療資料中許多非文字數字的資
料,如X光片、心電圖、超音波影像、電腦
斷層掃描及醫生處方等綜合影像文件等資
訊,並無法提供有效的資料組織、儲存與
進行異質資料之間的彙整分析。
• 本研究中,我們提出一種基於物件關聯式
資料庫的資料倉儲架構,並提出一種適合
此種物件關聯式資料倉儲的資料模式,藉
由疾病實例,來進行醫療資料倉儲與資料
超市之建置,說明此資料模式的具體可行
性。
思考題
• 資料倉儲如何應用於醫學領域?
• 何謂big data, 請解釋之.
References
• 計算機概論 林騰皎, 曹祥雲, 新文京出版
• Access 2003 使用技巧 文淵閣 松崗