English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 56401/90256 (62%)
造訪人次 : 11689208      線上人數 : 44
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library & TKU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋
    請使用永久網址來引用或連結此文件: http://tkuir.lib.tku.edu.tw:8080/dspace/handle/987654321/114441


    題名: 中文BR斷詞器之建置與應用 : 以批踢踢實業坊股票版為例
    其他題名: Implementation and application of a binding ratio Chinese parser : a case study of PTT stock board
    作者: 葉寶純;Ye, Bao-Chun
    貢獻者: 淡江大學統計學系碩士班
    林志娟
    關鍵詞: Chinese parser;data mining;Natural Language Processing;text mining;中文斷詞器;文字探勘;自然語言處理;資料探勘
    日期: 2017
    上傳時間: 2018-08-03 14:52:42 (UTC+8)
    摘要: 任何分析中文文章方面的工作,都必須要能夠解析出文章中的詞彙,才有辦法進行後續處理,因此中文斷詞在中文自然語言的處理上,是相當基礎且重要的前置作業。本論文提出了一種改善中文斷詞的方式,透過BR比值公式轉化詞頻,之後搭配資料探勘中的集群分析(clustering)、決策樹(decision tree)、支持向量機(support vector machine)以及貝氏分類器(Bayes classifier)得到最佳的分群和分類,驗證的部分以正確率、精確率、召回率和綜合評價指標評估模型分類效果,即斷詞效果。
    以批踢踢實業坊股票版文章為例,在不需要提取大量文章訓練斷詞器的前提下,依照文章不同結構的比例提取貼文,經過公式轉換後,進行分群以及訓練分類器,實證結果顯示,在不需要大量的文章資料,跟現行常用的中文斷詞器相比較,本研究所提出的中文BR斷詞器亦能夠保持不錯的斷詞效果。
    The efficiency of the full-text parser cannot be emphasized enough while working with natural language processing systems especially for Chinese articles. Inspired by the mutual information theory of Shannon (1949), this research proposes an adjusted form of point mutual information, called binding ratio. Incorporating with the cluster analysis, decision tree, support vector machine and Bayes classifier, the binding ratio Chinese parser enhances the word breaking performance in terms of the accuracy, precision, recall rate and f1-measure. The implementation and application has been provided using articles collected from Taiwan’s internet platform PTT stock board in this research.
    顯示於類別:[統計學系暨研究所] 學位論文

    文件中的檔案:

    檔案 描述 大小格式瀏覽次數
    index.html0KbHTML58檢視/開啟

    在機構典藏中所有的資料項目都受到原著作權保護.

    TAIR相關文章

    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library & TKU Library IR teams. Copyright ©   - 回饋