English  |  正體中文  |  简体中文  |  全文筆數/總筆數 : 64191/96979 (66%)
造訪人次 : 8153827      線上人數 : 7814
RC Version 7.0 © Powered By DSPACE, MIT. Enhanced by NTU Library & TKU Library IR team.
搜尋範圍 查詢小技巧:
  • 您可在西文檢索詞彙前後加上"雙引號",以獲取較精準的檢索結果
  • 若欲以作者姓名搜尋,建議至進階搜尋限定作者欄位,可獲得較完整資料
  • 進階搜尋
    請使用永久網址來引用或連結此文件: https://tkuir.lib.tku.edu.tw/dspace/handle/987654321/87467


    題名: 吉尼係數離散化演算法
    其他題名: A discretization algorithm based on class-attribute Gini index
    作者: 黃鈺傑;Huang, Yu-Chieh
    貢獻者: 淡江大學數學學系碩士班
    伍志祥
    關鍵詞: 分類;決策樹;離散化;吉尼係數;classification;Decision tree;Discretization;Gini Index
    日期: 2012
    上傳時間: 2013-04-13 11:10:31 (UTC+8)
    摘要:   由於資訊化時代的來臨以及網際網路的蓬勃發展,資料數量以驚人速度成長,因此,現今的研究議題著重於如何從大量的資料中有效地擷取隱藏其中且具有參考價值的資訊。由於許多機器學習演算法只處理離散數值資料及名目資料;然而連續屬性資料是常見的資料形式,離散化演算法可以把連續屬性值分割成有限個離散區間,精簡資料的複雜度;不僅能使我們更容易了解資料的分佈和特性,也解決了機器學習演算法對連續屬性處理不易的限制。在這項研究中,提出了CAGI(Class-Attribute Gini Index)離散化演算法,並與CAIM(Class-Attribute Interdependence Maximization)離散化演算法以及CACC(Class-Attribute Contingency Coefficient)離散化演算法比較。根據實驗顯示,CAGI離散化演算法在某些資料集的表現不但可以更正確地離散連續屬性之資料,亦可提升分類器的預測準確度。
      Due to the information age and the rapid development of Internet, the amount of data grows rapidly. Thus, the research topic nowadays focuses on how to capture valuable information among a large amount of data efficiently. The majority of machine learning algorithms can be applied only to data described by discrete numerical or nominal attributes, but continuous attribute data is the most common form of data. Discretization algorithm can divide a continuous attribute’s values into a finite number of intervals and simplify the complexity of data. It not only makes us easier to understand the distribution and characteristic of data, but ends the restriction of machine learning algorithms. In this paper, we propose CAGI(Class-Attribute Gini Index) discretization algorithm and compare with CAIM(Class-Attribute Interdependence Maximization) discretization algorithm and CACC(Class-Attribute Contingency Coefficient) discretization algorithm. The result of experiment shows that in some dataset, CAGI discretization algorithm not only discretizes the data more correctly, but improves the accuracy of classification.
    顯示於類別:[應用數學與數據科學學系] 學位論文

    文件中的檔案:

    檔案 大小格式瀏覽次數
    index.html0KbHTML200檢視/開啟

    在機構典藏中所有的資料項目都受到原著作權保護.

    TAIR相關文章

    DSpace Software Copyright © 2002-2004  MIT &  Hewlett-Packard  /   Enhanced by   NTU Library & TKU Library IR teams. Copyright ©   - 回饋