資料採礦在交通事故資料分析之應用初探

Download Report

Transcript 資料採礦在交通事故資料分析之應用初探

永續運輸資訊系統
-交通事故資料分析研究
周家慶 高級分析師
交通部運輸研究所
簡報內容
 背景
 交通事故資料庫與地理資訊系統
 資料採礦(Data Mining)
 Oracle 之資料採礦模組
– Oracle Data Mining (ODM)
 試作過程
 結論與建議
背景
 運輸研究所進行
– 「交通事故資料庫系統」研究及其分析與設計
• 評估交通事故分析所需之資料庫來源探討,包括死因資料
庫、健保資料庫、保險資料庫、事故資料庫等。
– 「交通事故地理資訊系統資料庫建置」
• 進行國省道與臺北市事故資料之實作。
– 本研究重點在探討各種資料庫之龐大資料量狀況下,
如何利用資料採礦架構進行事故資料分析工作。
 本架構將為永續運輸資訊系統中之基本資料庫,
而永續運輸資訊系統之發展目的乃是希望成為
政府從事交通施政成效評估、區域交通建設發
展比較與交通成長變化追蹤分析等重要工作之
重要工具。
交通事故分析相關資料庫
1/3
 死因檔
– 死因資料係記錄我國國民死亡之有關資料,每位當
年死亡者的資訊均以一筆記錄儲存於死因檔中,而
依據國際疾病傷害與死因分類標準,與道路交通事
故直接相關的死因分類為ICD 碼E810至E819之運輸
事故。
 事故檔
– 道路交通事故料係A1、A2及A3類道路交通事故案
件內容,每一事故案件所記錄之資料可分成事故地
點、事件本身、涉案當事人三部份,此三部份之資
料分別儲存三個資料表格,彼此間以發生時間-年+
序號為串連之鍵,來連結同屬一件事故的人、事、
地資料。
交通事故分析相關資料庫
2/3
 汽車保險資料檔
–資料檔包括一般車險及強制汽車責任險兩部份,保
險從業人員處理保險事件時,其係依據投保、理賠
等處理階段與保險種類之不同,而填具不同的書面
資料,包括:一般車險與強制汽車責任險個別之保
單資料、批單資料、理賠申請書、理賠計算書、求
償計算書,此些資料在資料記錄方式、資料庫結構
設計方式上彼此相連結。
 門診檔與住院檔
–健保資料庫記錄民眾以健康保險方式就醫之各種資
料,所用之資料檔為門診處方及治療明細資料檔以
及住院醫療費用清單資料檔。
交通事故分析相關資料庫
3/3
交通事故地理資訊系統
1/3
 都市地區事故資料之空間定位
– 市區交通事故,以地址或交叉路口進行發生地點的
描述。
– 以完整且正確的門牌地址資料庫進,提高事故地點
的定位精度,台北市門牌地址的地理資訊資料庫。
– 交叉路口型事故資料則透過交叉道路之路名與電子
地圖之道路名稱比對取得其路口X/Y坐標值,同時
亦針對事故位置資料中之地標/地物與電子地圖之地
標/地物比對取得其X/Y坐標值,以提高都市地區事
故定位精度 。
交通事故地理資訊系統
2/3
交通事故地理資訊系統
3/3
 國省道事故資料之空間定位
– 依里程數
– 透過位置參考系統進行
– 利用動態分段功能分別設定
•
•
•
•
•
LRS Datum為交通路網
路網之鍵值為道路名稱與里程起訖欄位名稱
Linear Reference Methods為依里程計算
Event Data為透過ODBC連結之事故點資料
事故資料之鍵值為道路名稱、事故發生里程
都市地區事故資料瀏覽
都市地區事故資料之空間分析
1/3
以「交通部運輸研究所」與「台北體育場郵局」為中心500公尺半徑之範圍
都市地區事故資料之空間分析
2/3
以「民權東路三段」之線形100公尺環域範圍,分析該範圍內之事故資料
都市地區事故資料之空間分析
3/3
對所選取之行政區,作交叉路口的半徑範圍內之肇事當量的前10名排名
(肇事當量=9.5*死亡人數+3.5*受傷人數+ 總肇事次數)
國省道事故資料瀏覽
國省道事故資料之空間分析
1/2
國道1號於15k至40k交通尖峰時段之A1與A2事故分佈
國省道事故資料之空間分析
2/2
指定行政區範圍、分析時段、分析長度和每次移動距離,分析範圍內之道路,依肇事當量作排序
資料採礦(Data Mining)
 資料採礦是一種在大量資料之資料庫中尋找有興
趣、有價值的資訊或知識,所以資料採礦可說是
結合統計理論、訊息理論與資料庫技術的一種資
料分析機制。
 進行資料採礦之要件
– 首先須定義清楚任務
– 針對每個不同的任務,再來決定須要什麼樣的資料
• 再從這些資料中找出其所須的特徵,這些特徵是可以區分出
不同的類別且具代表性,而它所表現的地方就是要選的屬性
– 觀察效能,成本效益,是否可以產出更高的利潤
– 過程都必須是可以被量測的
資料採礦之進行步驟
 釐清目標與理解資料
 獲取相關技術與知識
 整合與查核資料
 去除錯誤或不一致及不完整的資料
 由資料選取樣本先行試驗
 建立模式與型樣
 實際資料採礦分析工作
 測試與檢核
資料採礦常用模式分類
 Classification(分類)
– 運用已知的結果,結合其相關屬性,來推導出在資
料中存在的規則及事實,方法包括類神經網路、決
策樹、... 。
 Prediction(預測)
– 運用歷史資料去預測未來變化, 如Regression、
Time-series 、... 。
 Association
– 在找尋資料的關聯性。
– 找出在某一事件或是資料中會同時出現的東西。
資料採礦常用模式分類
 Segmentation
– 使用區隔(Clustering)方法之類聚的現像,其主要區
別在於Clustering並未於事前資料的屬性,而是直接
做分群,再做資料分析;不同於Classification的是
其已先定義每群資料,對每群資料的特性事前就知
道。所以Classification是supervised學習,而
Clustering是unsupervised學習。
 Sequence
– 用來分析事件的發生是否有連續性,在時間序列上,
依照經驗法則之趨勢分析。
Oracle 資料採礦模組-ODM
 由Data Mining 應用程式介面(API)與Data Mining
伺服器(DMS)組成。
 Data Mining 應用程式介面
– 提供使用者利用java程式語言型資料分析工作。
– 應用程式介面參考Java Data Mining (JDM) 標準規範
– JDM內容包括Object Management Group之通用倉儲詮
釋(Common Warehouse Metadata,CWM), Data Mining
Group (OMG)之Predictive Model Markup Language
(PMML)與ISO最新版資料庫查詢語法之SQL/MM。
 Data Mining 伺服器則為資料庫系統之伺服功能。
ODM模式建立與應用流程
ODM之模式建立
 模式建立之任務設定檔
– 資料型態、輸入資料來源、資料是否已處理狀況為
unprepared或是discretized、目標屬性名稱、Naive
Bayes 演算法之參數設定、任務名稱、模式名稱
 模式建立主程式
– 資料庫連結、建立實體資料物件連結、建立資料採
礦函數物件設定、執行模式建立工作
 模式建立結果
ODM輸入資料處理
資料為”discretized”之BINNED與”unprepared”之UNBINNED之差異
ODM各採礦任務控制表格
odm_mining_model資料表格所儲存之模式
odm_mining_task資料表格所紀錄之各任務狀態
odm_test_result資料表格紀錄之各mining_task測試結果
事故資料分析試作
1/5
 資料項選擇
– 主要肇因
• 分駕駛人與非駕駛人因素
–
–
–
–
–
–
–
速限
天候
光線
路面狀況
道路障礙物與視距
號誌種類與狀況
標誌
事故資料分析試作
2/5
 資料前置處理
– 台北市74至90年事故件數為52150筆
– 資料缺失
•
•
•
•
•
•
•
主要肇因:空白約有20227筆
天候:異常值約有17筆
光線:異常值約有77筆
路面狀況:異常值約有210筆
道路障礙物與視距:異常值約有22筆
號誌種類與狀況:異常值約有242筆
標誌:異常值約有198筆
事故資料分析試作
3/5
 使用模式:Naïve Bayes Classifier
 進行方式
– Oracle ODM
• 檢核後之事故資料匯入Accident資料表。
• 修改Oracle所提供Naïve Bayes Classifier之Java範例程式,
將其中之資料輸入與輸出方式改為本研究需求後即可使用。
• 模式建立後,以模式建立資料進行檢測模式之解釋能力。
– Christian Borgelt
• http://fuzzy.cs.uni-magdeburg.de/~borgelt/doc/bayes/bayes.html
•
•
•
•
決定各屬性資料之值域(程式dom)。
產生Naïve Bayes Classifier模式(程式bci)。
執行Naïve Bayes Classifier之分析工作(程式bcx)。
計算confusion matrix以檢測模式之解釋能力(程式xmat) 。
事故資料分析試作
Oracle ODM
4/5
事故資料分析試作
5/5
Christian Borgelt之Naïve Bayes
(期望值,變異數)[筆數]
結論
 Oracle ODM之作法較複雜,也需java程式撰寫經驗,
恐對非資訊專長之使用者形成障礙,但其與資料庫之
整合程度較高,對資料量龐大之業務需求當可提高維
護管理之效益,且同時提供Naive Bayes Classifier與
Association Rules函數之PMML之匯入與匯出功能,提
高模式之交換能力為其優點。
 本次試作僅進行Data Mining之整體操作,驗證其實用
性。因此後續仍有許多工作要進行,其中如前所述最
費時的資料準備工作,甚或會佔掉整各計畫50%之能
量。
 本研究希望先行導入Data Mining技術於交通事故分析
工作,並期望陸續將之推廣至交通運輸其他領域,如
車流資料分析、家庭旅次行為分析、…等課題。
簡報結束
敬請指教