Transcript 3月10日-資料庫簡介
資料庫簡介 資料/資訊/知識/智慧的區別 • • • • 資料 觀察事實與事件,加以系統化的記錄,所收集的原 始數據、符號、圖片,在未經過資料處理之前即稱 為資料。 資訊 為了要思考決策問題的解決方式,資料必須經處理 之後才成為有組織、有價值的資訊。 知識 將資訊經過整理歸納之後,獲取其規則而建立知識 體系,通常都用在人工智慧上。 智慧 以知識來解決實際問題,所發揮的就是一種智慧型 式,一般用來發展更進一步的人工智慧上。 資料處理 • 資料處理(Data Processing ,DP) 就是將資料經過各種有系統的分類、統計、 歸納等的處理,使其成為具有參考價值資 訊的過程。 • 電子資料處理(Electronic Data Processing ,EDP) 以電子計算機進行資料處理。 資料儲存階層 • 位元 • 位元組 • 字組 • 欄位 資料儲存階層 • 紀錄 • 檔案 • 資料庫 為何需要使用資料庫? • 你很喜歡買音樂CD – 如果只有10片 (很容易找到要聽的那片) – 如果有千千萬萬片 • 1.循序搜尋法 (從第一片開始找…很花時間) • 2.分類搜尋法 – – – – 古典音樂 流行音樂 交響樂 爵士樂 為何需要使用資料庫? • 方便管理資料 – 查詢資料 – 修改資料 – 新增資料 – 刪除資料 • 例子: – 中國醫圖書館藏書查詢 資料庫系統簡介(1/7) • 存放在資料庫內的資料必須以一定的方式組 織起來,由一個軟體加以管理,作為應用程 式和資料的連接埠。 資料庫管理人員 使用者 資料庫管理系統 資料庫 Ex: ACCESS 使用者 使用者 China Medical University, Taiwan 資料庫系統簡介(2/7) • 資料庫常用基礎術語: – 欄位(Field) – 記錄(Record) – 資料表(Table) – 索引(Index) 資料庫系統簡介(3/7) • 欄位(Field) : – 資料庫中的資料屬性(Attributes)稱為欄位。 例如學生資料屬性有學號、姓名、性別、出生 年月,那麼資料庫為了記錄這些資料,就需要 設定相關的欄位。 資料庫系統簡介(4/7) • 記錄(Record) : – 某一實體對應的資料稱為記錄。例如一年級, 某一學生的以下一組資料,就是資料庫中的一 條記錄。通常一筆記錄會包含多個欄位。 思考題 • 若要建立一個病人的資料表做為電子病歷 之用途, 請問會有那些欄位才能建立一個完 整資料表? 資料庫系統簡介(5/7) • 資料表(Table): – 由許多記錄所組成的資料庫,儲存在儲存媒介 上就成為資料表。無論是新增、修改、刪除還 是查詢資料庫,都需要針對對應的資料表進行 存取操作。 資料庫系統簡介(6/7) • 索引(Index) : – 索引是為了加速資料庫搜尋而設計的物件。它 將以某一個欄位元作為索引關鍵字(Index Key),使用該欄位元記錄值作為參照,依一 定的次序重新編排資料庫內記錄的儲存次序。 資料庫系統簡介(7/7) CD管理資料表 索 引 值 建立兩資料表的關連 索 引 值 演唱者資料表 思考題 • 舉例說明資料庫應用於醫學或健康照護領 域. 資料庫管理系統概論 • 資料庫的定義 所謂資料庫就是一組相關資料的集合,乃 是企業的應用系統所使用的一組不變的資 料。 • 資料庫管理系統(Data Base Management System, DBMS)的定義 所謂資料庫管理系統就是一組可以讓使用 者建立與維護資料庫的程式。 使用資料庫的優點 (資料庫系統與檔案系統間的差異) • • • • • • • 減少重複(redundancy) 避免不一致(inconsistency) 資料共用(shared) 標準強迫推行(enforced) 確保安全性(security) 維持整合性(integrity) 調和衝突的需求 資料庫系統的缺點 • 初期投資極高 • 為了定義與處理的一般性而浪費資源 • 為了提供安全性(security)、同步控制、復 原、與整合性而浪費資源。 • 若DBA用人不當可能造成資料庫監控失靈。 資料庫管理系統的功能 • • • • 資料定義(Data definition) 資料操作(Data manipulation) 資料安全性與整合性(security and integrity ) 復原(Recovery)與同步控制(Concurrency Control) • 資料字典(Data Dictionary) • 效能(Performance) 資料庫管理師(Database Administrator, DBA) • 負責建立與維護實際的資料庫,並以技術 控制方式強制推行DA的資料儲存政策,屬 於資訊技術專業人員。 關連式資料庫 • 關連式(Relations) – 不能有重複的值組 – 值組間沒有次序性 – 屬性間沒有次序性 – 所有屬性的值是基元的 • MS-ACCESS 為關連式資料庫 美國癌症登記及老人醫療保險資料庫之發展與應用 -論台灣癌症登記與健康保險聯結資料庫之可行性 • 根據美國國家癌症研究中心的統計,到2011年1 月止,運用美國癌症登記(Surveillance, Epidemiology, and End Results Program,簡稱 SEER)及老人醫療保險(簡稱Medicare)行政 申報資料庫連結資料庫發表在同儕審查期刊的文 章已超過650篇以上,在癌症醫療品質及成本相 關的研究有卓著的成果。 • 我國全民健康保險自1995年開始辦理,全民健康 保險資料庫業已廣泛應用,另一方面我國癌症登 記資料庫也漸趨成熟。若能將兩者結合,應可發 揮相當程度的綜效。 • 本文的目的是希望藉由他山之石,提供我國未來 整合癌症相關資料庫供臨床、學術研究應用及政 策評估之參考。 • 本篇文章將針對以下內容作介紹:資料蒐集之行 政層級及架構、資料庫的結構、附加應用軟體及 程式介紹、資料庫驗證(Validation)與申請費用、 資料庫的使用限制與病人個別資料保護,並以乳 癌為例,說明該資料庫在臨床研究、醫療品質及 癌症治療成本研究方面之應用,並提供建議。 台灣地區透析患者接受副甲狀腺切除手術之住院醫 療服務利用分析 -以全民健保研究資料庫為例(20002004) • 本研究設計是回溯性之次級資料分析,主要資料 來源是從西元2000年到2004年共五年,登錄於國 家衛生研究院發行之全民健康保險研究資料庫。 使用的檔案包括醫事機構基本資料檔、重大傷病 證明申請檔、專科醫師證書主檔和住院醫療費用 清單明細檔等。經資料處理後,取得全國透析患 者接受副甲狀腺切除手術共1,326人進入本研究。 • 醫療資源利用包括住院天數和費用。以病人之年 齡、性別、透析方式、接受手術方式、接受透析 時間、合併症個數、手術醫院之層級別、權屬別、 分局別、醫院手術量、醫師年資和醫師手術量分 析副甲狀腺切除手術率、住院天數和醫療費用。 資料採用統計套裝軟體SPSS® for windows 12.0版進行描述性統計及推論性統計分析。 • 研究結果發現:(一)在手術率方面,從西元2000 年到2004年逐年增加,年發生率由每一千人年 5.11次,逐年上升到9.42次。手術率男性多於女 性,年齡小多於年齡大,腹膜透析多於血液透析, 非糖尿病多於糖尿病患者。 • (二)在住院天數方面,全副甲狀腺切除手術高於 部分副甲狀腺切除手術,血液透析高於腹膜透析, 合併症個數越多,住院天數越久,醫學中心高於 區域及地區醫院,醫院分局別以台北分局最多, 高手術量醫院和低年資、低手術量醫師,住院天 數較多。 • (三)在醫療費用方面,血液透析高於腹膜透析, 接受透析時間越久,合併症個數越多,醫療費用 越高,公立醫院高於私立醫院,醫院分局別以南 區分局最多,低年資和低手術量醫師,醫療費用 較高。 資料倉儲 • 資料倉儲 (data warehouse) 技術主要是應 用於收集儲存顧客的相關資料,並可將不 同來源、不同時期之資料格式及定義不一 致之資料加以處理,並整合內部或外部的 資料,經過篩選、轉換、存入資料倉儲, 以方便企業決策者對顧客資料之應用分析。 資料倉儲特性 • • • • 以主題為導向(Subject-Oriented) 整合性(Integration) 時間變化性(Time Variation) 非揮發性(Non Volatilization) 資料倉儲VS傳統檔案與資料庫 整合醫療資料之物件關聯式資料 倉儲架構 • 隨著醫療機構資訊化的發展與醫療機構經 營環境的變化,如何有效地整合醫療機構 內部的資訊以提供決策層級的分析支援, 儼然已成為醫療機構資訊化的新一波浪潮。 為此,許多中大型醫療機構紛紛著手導入 所謂的醫療資料倉儲系統,希望運用在商 業界發展已甚為成熟的資料倉儲架構,協 助處理醫療機構進行各種決策分析的資訊 需求。 • 現行的資料倉儲系統主要架構在關聯式資 料庫之上,採用的星狀綱要模式僅適用於 處理文字、數字為主的一般性資料,且針 對的是觀察數值欄位變化的多維度統計分 析。對於醫療資料中許多非文字數字的資 料,如X光片、心電圖、超音波影像、電腦 斷層掃描及醫生處方等綜合影像文件等資 訊,並無法提供有效的資料組織、儲存與 進行異質資料之間的彙整分析。 • 本研究中,我們提出一種基於物件關聯式 資料庫的資料倉儲架構,並提出一種適合 此種物件關聯式資料倉儲的資料模式,藉 由疾病實例,來進行醫療資料倉儲與資料 超市之建置,說明此資料模式的具體可行 性。 思考題 • 資料倉儲如何應用於醫學領域? • 何謂big data, 請解釋之. References • 計算機概論 林騰皎, 曹祥雲, 新文京出版 • Access 2003 使用技巧 文淵閣 松崗