原名「台灣學術線上」
包含TAO期刊庫 + TAO書籍庫 + 論文 + 史料文獻
首頁 | 關於TAO | 瀏覽 | 進階查詢 | 參考工具 | 會員服務 | 已購專書 | RSS服務 | 電子報 | FAQ  
查詢範圍:
   
查詢模式:
熱門查詢詞:
dvd印刷管理青少年憂鬱癥貨幣觀測
   
   
   
     
   
 
項次 書目
1
題名:利用共生詞彙特性發展一個二階段文件群集法     (20點)
A Two-Stage Document-Clustering Method Utilizing Co-Occurring Words
著者:李維平(Wei-Ping Lee) ;吳澤民(Tzer-Min Wu) ;王美淳(Mei-Chun Wang)
出版地區:台灣
出版城市:彰化縣
學科:自科綜合 ; 應科綜合
關鍵字:文件群集 ; 關聯規則 ; 文件探勘 ; 共生詞彙 ; document clustering ; association rule ; text mining ; co-occurring words
刊名:科學與工程技術期刊
卷期:3卷1期(2007.3)
頁碼:9-18
語言:繁體中文
摘要: 中文摘要PDF ; 英文摘要PDF

群集化(clustering)是在資料探勘領域中被廣泛應用的技術,將其概念應用於文字探勘的領域中,亦是近來的熱門研究議題。若將群集化技術應用於文件型態的資料時,常會採用向量空間模型(vector space model, VSM)來表達文件資料,然而在學術研究上卻發現有兩個缺失:一?無法辨識文中詞彙間的關聯性,造成文件誤判。在向量空間模型中,每個關鍵詞彙所構成的維度都是獨立的,無法區別文中詞彙間的關聯性(包括一詞多義、一義多詞、以及共同發生詞彙),使得進行文件相似度的比對時可能會造成誤判的情況,降低文件群集之品質。另一缺失則?如維度太高,易造成群集失準的問題。向量空間模型的維度是由文件集所有的關鍵詞彙之數量而定,當文件所萃取出來的關鍵字過多時,便會使得向量空間模型的維度增加,導致群集的結果也比較不準確。 ?了改善向量空間模型的兩大缺點,本文嘗試提出一個二階段的文件群集法,第一階段先將關鍵字進行群集,第二階段再利用這些關鍵字群集將文件分群;本文透過關聯規則技術的應用,來改善向量空間模型的缺失並增進文件群集的品質,此外,關鍵字群集後的結果還可以幫助文件群集作概括性的描述。本文以Reuters-21578文件集進行實驗評估,將本論文所提出的文件群集法與傳統的文件群集法相比較,實驗結果證實本論文所提出的方法確實能得到高品質的文件群集。
Clustering techniques have been developed in many application domains. When clustering text-based documents, the Vector Space Model (VSM) is often used to represent them. However, the VSM model has two major disadvantages in text-clustering research. First, the correlation between terms such as synonymy, polysemy and co-occurring words cannot be distinguished in VSM. Second, the dimensions will increase if many keywords are retrieved from documents. These disadvantages increase the complexity when calculating similarity between document collections; moreover, the accuracy of the clustering is adversely affected. We propose a two-stage document-clustering method to ameliorate the disadvantages of the VSM model in document clustering. In the first stage, the keywords are clustered; in the second stage, the documents are clustered from the results obtained in the first stage. The Reuters-21578 corpus was applied to test our proposed method. The results indicate that our method can improve the document-clustering quality better than other traditional clustering methods.


    

本卷期目次
科學與工程技術期刊 3卷1期 (2007.3)
己內醯胺脫氮菌之分離、脫氮情形與生理特性/ 王俊欽李季眉
MC-CDMA系統工作於存在高斯相關分支與選頻性通道環境中的效能分析/ 陳雍宗劉昱吟
三維重疊式網格數值模擬法之建立/ 秦雅嫺
對向汽車頭燈照射對正向駕駛者辨識距離的影響/ 楊旻洲王凱正
偏壓輔助成核對多晶CVD鑽石成長之影響/ 李世鴻焦繼葳
利用共生詞彙特性發展一個二階段文件群集法/ 李維平吳澤民王美淳
Using an N-gram-Based Mapping Approach to Content-Based Music Information Retrieval/ Chueh-Chih LiuTe-Wei ChiangTien-Wei Tsai
電腦輔助工程在CNC立式加工中心機進給系統高速化之應用/ 陳俊達王焜潔周信暐
3吋小型液晶面板LED背光系統之薄型導光板設計研究/ 黃顯川楊萬隆葉志庭
偏壓輔助成核對多晶CVD鑽石成長之影響/ 李世鴻焦繼葳
對向汽車頭燈照射對正向駕駛者辨識距離的影響/ 楊旻洲王凱正
MC-CDMA系統工作於存在高斯相關分支與選頻性通道環境中的效能分析/ 陳雍宗劉昱吟
三維重疊式網格數值模擬法之建立/ 秦雅嫺
Using an N-gram-Based Mapping Approach to Content-Based Music Information Retrieval/ Chueh-Chih LiuTe-Wei ChiangTien-Wei Tsai
己內醯胺脫氮菌之分離、脫氮情形與生理特性/ 王俊欽李季眉
The Effects of Cutoff Voltage and Heat Treatment on the Behavior of a Nanocrystalline Cu-Doped Tin Oxide Applied to a Li-Ion Battery/ Shao-Ting ChangIng-Chi LeuMin-Hsiung Hon
電腦輔助工程在CNC立式加工中心機進給系統高速化之應用/ 陳俊達王焜潔周信暐
3吋小型液晶面板LED背光系統之薄型導光板設計研究/ 黃顯川楊萬隆葉志庭
利用共生詞彙特性發展一個二階段文件群集法/ 李維平吳澤民王美淳
 
   
 
   

與TAO合作 | 隱私與版權聲明 | 聯絡方式 | 下載Adobe Reader
地址:台北市中正區(100)北平東路30-12號3樓
電話:(02)2393-6968 傳真:(02)2393-6877
Email: service@wordpedia.com
Wordpedia Family: 學校、企業版入口 | 遠流影音館
Copyright©2011 Wordpedia Co., Ltd. All Rights Reserved.