專題報告 歌手與詞曲人之合作關係網路分析 Analysis of Singer And Songwriters Cooperation Network 指導教授:吳邦一 博士 學生: 黃耀霆、戴瑞宏 概 要 本專題在網際網路中擷取歌手 與詞曲人之合作關係網路,建立 資料庫將資料建檔,使用TF-IDF 統計方法計算與分析歌手與詞曲 人的合作關係密切程度,並建構 網站提通使用者查詢相關資料與 分析結果。 系 統 功 能 @ 基本查詢功能 - 輸入關鍵字查詢歌手、專輯、歌曲資訊 @ 進階查詢功能 - 多重條件查詢,更加精確地找到歌手專輯等資訊 @ 歌手歌曲歷年專輯收錄次數查詢 - 查詢歌手精選歌曲在歷年專輯收錄次數以及排行 @ 合作關係查詢 - 查詢歌手與哪些作詞、作曲人的合作關係較為密切 或是作詞人與作曲人之間的合作關係的密切程度 研 究 步 驟 [1] 確定資料來源 - 音樂歌詞網 尋找合適的音樂網站 以便抓取可利用的資料 [2] 建立規劃資料庫 - 資料庫正規化 以資料庫正規化的模式.
Download ReportTranscript 專題報告 歌手與詞曲人之合作關係網路分析 Analysis of Singer And Songwriters Cooperation Network 指導教授:吳邦一 博士 學生: 黃耀霆、戴瑞宏 概 要 本專題在網際網路中擷取歌手 與詞曲人之合作關係網路,建立 資料庫將資料建檔,使用TF-IDF 統計方法計算與分析歌手與詞曲 人的合作關係密切程度,並建構 網站提通使用者查詢相關資料與 分析結果。 系 統 功 能 @ 基本查詢功能 - 輸入關鍵字查詢歌手、專輯、歌曲資訊 @ 進階查詢功能 - 多重條件查詢,更加精確地找到歌手專輯等資訊 @ 歌手歌曲歷年專輯收錄次數查詢 - 查詢歌手精選歌曲在歷年專輯收錄次數以及排行 @ 合作關係查詢 - 查詢歌手與哪些作詞、作曲人的合作關係較為密切 或是作詞人與作曲人之間的合作關係的密切程度 研 究 步 驟 [1] 確定資料來源 - 音樂歌詞網 尋找合適的音樂網站 以便抓取可利用的資料 [2] 建立規劃資料庫 - 資料庫正規化 以資料庫正規化的模式.
專題報告 歌手與詞曲人之合作關係網路分析 Analysis of Singer And Songwriters Cooperation Network 指導教授:吳邦一 博士 學生: 黃耀霆、戴瑞宏 概 要 本專題在網際網路中擷取歌手 與詞曲人之合作關係網路,建立 資料庫將資料建檔,使用TF-IDF 統計方法計算與分析歌手與詞曲 人的合作關係密切程度,並建構 網站提通使用者查詢相關資料與 分析結果。 系 統 功 能 @ 基本查詢功能 - 輸入關鍵字查詢歌手、專輯、歌曲資訊 @ 進階查詢功能 - 多重條件查詢,更加精確地找到歌手專輯等資訊 @ 歌手歌曲歷年專輯收錄次數查詢 - 查詢歌手精選歌曲在歷年專輯收錄次數以及排行 @ 合作關係查詢 - 查詢歌手與哪些作詞、作曲人的合作關係較為密切 或是作詞人與作曲人之間的合作關係的密切程度 研 究 步 驟 [1] 確定資料來源 - 音樂歌詞網 尋找合適的音樂網站 以便抓取可利用的資料 [2] 建立規劃資料庫 - 資料庫正規化 以資料庫正規化的模式 規劃資料庫的格式 [3] 擷取資料 - 使用PHP撰寫PARSER [4] 資料前置處理 & 儲存 - 將資料統一格式儲存 [5] 運算分析 - 使用TF-IDF計算合作關係 [6] 成果呈現 - 以網站的型式提供使用者查詢 資 料 庫 生日 姓名 星座 歌手 其他 資料表基本 關聯示意圖 M 發行 N 專輯 歌曲 N 其他 年代 詞曲創作者 創作 M 姓名 其他 研 究 步 驟 [1] 確定資料來源 - 音樂歌詞網 尋找合適的音樂網站 以便抓取可利用的資料 [2] 建立規劃資料庫 - 資料庫正規化 以資料庫正規化的模式 規劃資料庫的格式 [3] 擷取資料 - 使用PHP撰寫PARSER 利用PARSER從網頁文字資料中抓取所需的資料 [4] 資料前置處理 & 儲存 - 將資料統一格式儲存 [5] 運算分析 - 使用TF-IDF計算合作關係 [6] 成果呈現 - 以網站的型式提供使用者查詢 資 料 抓 取 <body> … <div id=“menu”> <span class=“type1”><p>所需資料</p></span> <span class=“type2”><p>所需資料</p></span> <span class=“type3”><p>所需資料</p></span> <span class=“type4”><p>所需資料</p></span> </div> … </body> <div id=“main”> <div class=“top”><div class=“content1”>所需資料</div></div> 所需資料 <div class=“mid”><div class=“content2”>所需資料</div></div> 所需資料 <div class=“down”><div class=“content3”>所需資料</div></div> 所需資料 </div> 利用parser過濾大量的html標籤以獲得真正需要的資料 研 究 步 驟 [1] 確定資料來源 - 音樂歌詞網 尋找合適的音樂網站 以便抓取可利用的資料 [2] 建立規劃資料庫 - 資料庫正規化 以資料庫正規化的模式 規劃資料庫的格式 [3] 擷取資料 - 使用PHP撰寫PARSER 利用PARSER從網頁文字資料中抓取所需的資料 [4] 資料前置處理 & 儲存 - 將資料統一格式儲存 將資料做整理 給予有規則性的ID以利於分類 進行儲存 [5] 運算分析 - 使用TF-IDF計算合作關係 [6] 成果呈現 - 以網站的型式提供使用者查詢 編 號 整 理 歌曲 sname 10001010001 s1 10001010002 s2 10001010003 s3 10001010004 s4 專輯 歌手 aid aname 1000101 a1 1000102 a2 pid name 1000103 a3 10001 A 1000104 a4 10002 B 10003 C 10004 D …… sid …… …… 研 究 步 驟 [1] 確定資料來源 - 音樂歌詞網 尋找合適的音樂網站 以便抓取可利用的資料 [2] 建立規劃資料庫 - 資料庫正規化 以資料庫正規化的模式 規劃資料庫的格式 [3] 擷取資料 - 使用PHP撰寫PARSER 利用PARSER從網頁文字資料中抓取所需的資料 [4] 資料前置處理 & 儲存 - 將資料統一格式儲存 將資料做整理 給予有規則性的ID以利於分類 進行儲存 [5] 運算分析 - 使用TF-IDF計算合作關係 利用TF-IDF的統計方法 計算出關係權重判定關係密切程度 [6] 成果呈現 - 以網站的型式提供使用者查詢 運 算 分 析 Ex: 作曲人A對歌手B的重要性 TFIDF 在一份給定的文件裡,詞頻(term frequency,TF) 指的是某一個給定的詞語在該文件中出現的次數。 對於在某一特定文件裡的詞語 來說,它的重要性可表示為: 作曲人A與歌手B合作的歌曲數量 歌手A發行歌曲的全部數量 是該詞在文件 中的出現次數,而分母則是在文件 中所有字詞的出現次數之和。 逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。 某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目, 再將得到的商取對數得到: 所有歌手總人數 作曲者A跟歌手們的合作數量(人數) |D|:語料庫中的文件總數 :包含詞語 的文件數目(即 則 tfidfi,j = tfi,j˙idfj 的文件數目) 研 究 步 驟 [1] 確定資料來源 - 音樂歌詞網 尋找合適的音樂網站 以便抓取可利用的資料 [2] 建立規劃資料庫 - 資料庫正規化 以資料庫正規化的模式 規劃資料庫的格式 [3] 擷取資料 - 使用PHP撰寫PARSER 利用PARSER從網頁文字資料中抓取所需的資料 [4] 資料前置處理 & 儲存 - 將資料統一格式儲存 將資料做整理 給予有規則性的ID以利於分類 進行儲存 [5] 運算分析 - 使用TF-IDF計算合作關係 利用TF-IDF的統計方法 計算出關係權重判定關係密切程度 [6] 成果呈現 - 以網站的型式提供使用者查詢 將網站做成搜尋引擎的模式 提供使用者多項查詢服務 使 用 者 介 面 搜尋引擎首頁 使 用 者 介 面 資料查詢結果 使 用 者 介 面 專輯收錄排行 研 究 成 果 作曲人李偲菘 與其他作詞人的關係 使用TFIDF和合作數量這兩種方法來計算 分析合作關係,結果有所不同。除了合作數量 外,詞曲人的合作對象專一性也會影響到合作 密切程度的排名。 周杰倫幫徐若瑄寫歌 徐若瑄幫周杰倫填詞 合作密切的原因? 透過網路報導 得知原因 了解兩人關係