簡報下載

Download Report

Transcript 簡報下載

判斷新聞稿的正確性使用LUCENE搜尋引擎
組員:黃信元、溫柏叡、
黃晟期、尹亮
指導老師:沈彥良老師
目錄






動機
系統架構
開發環境--Eclipse
分詞器--Lucene
爬蟲--Heritrix
搜尋介面--Sublime
Text2
 報告撰寫--Google
Docs
 輸入畫面
 輸出畫面






研究過程
問題與討論
分工
甘特圖
總結
參考資料
動機
我們生活在一個資訊大爆炸的時代,我們不僅能更容易的取得資料,
雜亂的資訊也跟著其他重要的資訊一同到來,我們很難在一瞬間找
到我們所要的,因此,一個能夠有效率地找出資訊的系統是必需的。
我們這次專題主要以搜尋新聞為主導。現代人不斷接受新資訊,有
一研究甚至說要看懂每天我們所看的報紙所需的資料量就超過中世
紀時一個人畢生所需要的資訊,因此,「篩選資訊」是必須的,而
我們的專題便是幫助使用者搜尋他們想要看的新聞。
對於瀏覽新聞的使用者來說,該篇新聞中真實的陳述有多少是難以
從文中得知的,因此,我們希望可以藉著這次的專題課程嘗試解決
這個問題,譬如說,可在搜尋結果後依據可靠性,出現1到5級分的
評等(5級分表可信度極高)。
系統架構
• 搜尋引擎運作流程圖
搜尋畫面
(使用者輸
入)
處理
結果畫面
抓取
(網路爬蟲
Heritrix)
分析
(分詞器
HTML Paser)
索引&儲存
(Lucene)
事前準備
開發環境--Eclipse
Eclipse是著名的跨平台開源整合式開發環境(IDE),最初主要用來
Java語言開發,目前亦有人透過外掛模組使其作為C++、Python、PHP
等其他語言的開發工具。
Eclipse的本身只是一個框架平台,但是眾多外掛模組的支援,使得
Eclipse擁有較佳的靈活性。許多軟體開發商以Eclipse為框架開發自己
的IDE。
分詞器--Lucene
 Lucene是一套用於全文檢索和搜尋的開放源碼程式庫,由Apache
軟體基金會支持和提供。Lucene提供了一個簡單卻強大的應用程
式介面,能夠做全文索引和搜尋,在Java開發環境裡Lucene是一
個成熟的免費開放原始碼工具;就其本身而論,Lucene是現在並
且是這幾年,最受歡迎的免費Java資訊檢索程式庫。也是我們做
搜尋引擎最主要的程式。
爬蟲--Heritrix
 我們採用Heritrix,這是一個用來製作網路存檔的網路爬蟲,簡單
來說其功能便是將網頁下載到電腦中。這是一個由網際網路檔案
館和北歐國家圖書館共同以JAVA寫成的自由軟體,其最大贊助者
為Alexa(一個網路排行公司)。
文字編輯--Sublime Text 2
Sublime Text 是一個跨平台文字與原始碼編輯器,有著許多為其設計
的第三方外掛和擴展軟體使其功能更豐富和方便。其全景位於編輯
視窗右側方便編輯者尋找,而許多擴展主體使它可以支援更多種程
式語言,自動完成幫助編輯者更快輸入完畢,多重選擇幫助使用者
可以同時將所有同名變數進行更名,其最大特點為可以很容易地進
行自訂。
報告製作--Google Docs
Google Docs 是 Google 的一項基於 Web程式 的雲端服務,協同編輯
是我們選擇在雲端寫此報告的原因。協同編輯是由多用戶透過網路
與雲端程式同時進行文件編輯的名稱,其最大好處是不需各自進行
打字後再由一人統整,所有編輯者可以及時看見編輯後的樣貌,並
同時進行討論。
輸入畫面
輸出畫面
研究方法與過程
一、網路蜘蛛擷取資料
網路爬蟲(spider)不斷地從web上尋找網頁並且
下載下來。最常用的方法是把整個web網路看作
是一個有向圖,從種子URL集合開始,開始抓取
並且存到本地,並且解析出網頁內容中包含的url
鏈結,然後把這些新的url加到url集合中。一般按
照寬度優先的方式來查找。 這個過程不斷重複直
到URL集合中所有鏈結都已經採集過,或者是採
集時間限制到了,或者是所有的不超過某一深度
的連接都已經採集過了。這些下載下來的網頁的
標準html文本,以及採集url,採集時間等要素都
要記錄下來。
二、建立索引
由Lucene內部提供的索引程式,可以將網路
爬蟲爬下來的網頁轉成索引,使搜尋時可
以立即找到檔案
三、建立網頁
這次建立網頁的方法為先找一個範本後進行
修改,如改變區域順序、增添文字、修改文
字、改變對齊線。
網頁範本
新增留言區
四、使用免費網路空間架設網站
 註冊帳號
 新增新網址
 取得FTP上傳用資料
五、整合
問題與討論
 Q1:使用搜尋我知道,製作搜尋引擎是什麼?
 Why:從來沒有接觸過
 Ans:從基本範例著手修改
 Q2:程式編譯一直失敗
 Why:不懂寫法&邏輯BUG
 Ans:請高手DEBUG
 Q3:全組都不想做事情了
 Why:製作有點複雜,每個部份大家都不想去做
 Ans:總有一個人「我不入地獄誰入地獄」的去做了
分工
判斷新聞稿的正確性
組長
黃信元
搜尋介面/報告/影片拍攝
組員
溫柏叡
分詞器/索引/PHP/影片剪輯
組員
尹亮
網路爬蟲/資料庫架設
組員
黃晟期
報告/投影片/影片拍攝
甘特圖
工作項目 九月
彥良聊聊
資料蒐集
分詞器
網路蜘蛛
索引
輸入/輸
出畫面
報告撰寫
成果發表
十月
十一月
十二月
一月
二月
總結
 我們平常使用搜尋引擎時只知道鍵入文字進輸入
框,卻從來沒有想過從簡單的框格到出現充滿標
題與部分內容結果頁面背後是需要如此多的程式
和背景工作需要完成。這個專題讓我們知道,我
們製作的超簡單版搜尋引擎就是如此複雜,從網
路爬蟲蒐集資料、索引程式製作索引到最後出現
結果頁面的任何一項步驟都是既複雜又耗時的作
業。現在,每當我想到幾大搜尋引擎公司在搜尋
時可以正確判斷使用者的意圖還可提供一些準確
又重要的相關資訊,實在令人感到非常欽佩。
參考資料
1.邱哲、符滔滔、王學松。《開發專屬個人的搜尋引擎:
使用Lucene & Heritrix (第二版)(附光碟)》
2.張義和、王敏男、周金聖(2010)。《完全專題製作第二
版》。台北:新文京。
3.PHP官方網站:http://php.net/
4.Lucene官方網站:http://lucene.apache.org/
5.Eclipse官方網站:http://www.eclipse.org/
6.Wikipedia網站:http://en.wikipedia.org/wiki/Heritrix