淡江大學機構典藏:Item 987654321/74365
English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 62805/95882 (66%)
造訪人次 : 3918133      線上人數 : 656
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library & TKU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋
    請使用永久網址來引用或連結此文件: https://tkuir.lib.tku.edu.tw/dspace/handle/987654321/74365


    題名: Application of Chinese semantic in spam mail filtering
    其他題名: 中文語意結構在垃圾信過濾的應用
    作者: 陳美華;Chen, Mei-Hua
    貢獻者: 淡江大學統計學系碩士班
    陳景祥;Chen, Ching-Hsiang
    關鍵詞: 垃圾郵件;資料採礦;中文斷詞;機率類神經網路;多層感知機;spam;data mining;Chinese Word Segmentation;MLP;PNN;C4.5
    日期: 2011
    上傳時間: 2011-12-28 18:25:06 (UTC+8)
    摘要: 為了阻擋垃圾信件, 各界都有所努力, 例如各個國家紛紛成立「反制垃圾郵件法」(「或稱垃圾郵件管制法」), 軟體公司發展防毒以及防惡意程式的軟體等等, 但是即使有再好的防護還是未能完全阻絕。一般使用資料採礦的方法辨別垃圾郵件, 大部分都是從技術方面提升其分類效用, 像是改良分類器或是尋求更好的分類方法,甚少從資料輸入這一部分著手, 本篇論文主要的目的就是透過改善資料輸入的方式, 來使得分類效果提升。
    在此考慮了三種類型的輸入變數組合, 除了14個寄件者行為特徵以及20個經由TF-IDF 權重計算所挑選的關鍵字是由前人所提出之外, 我們加入了24個語意成份(也就是各個詞語的詞性) 來表達垃圾郵件寄送者在郵件書寫時的方式。由C4.5、多層感知機以及機率神經網路所驗證的結果來看, 若是加入24個語意成份作為輸入變數, 其效果會比只有14個行為特徵變數加上關鍵字還要好。
    In order to prevent spam mails, there are many achievement from the collective efforts of all sectors, although the protections become better and better, the challenges remain.
    The study focus on how much information is added in the odel, for this reason we hope to explain the output by meliorated version of input elements.
    We use 14 features of sender’s behavior and 20 keywords which calculated to be the most effectiveness by TF-IDF. Besides that, we proposed 24 new variables of semantic component that simulated the habits of writer and considered the expression between
    spam e-mail sender and ligitimate e-mail sender. The result shows that simultaneous use of all variables achieve the best results from the point of view of classifiers whatever in C4.5, MLP, or PNN.
    顯示於類別:[統計學系暨研究所] 學位論文

    文件中的檔案:

    檔案 大小格式瀏覽次數
    index.html0KbHTML419檢視/開啟

    在機構典藏中所有的資料項目都受到原著作權保護.

    TAIR相關文章

    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library & TKU Library IR teams. Copyright ©   - 回饋