欧美一级特黄aaaaaaa在线观看-欧美一级特黄aaaaaa在线看片-欧美一级特黄aa大片-欧美一级特黄刺激大片视频-深夜久久-深夜激情网站

熱門關鍵字:  聽力密碼  單詞密碼  新概念美語  巧用聽寫練聽力  零起點
圖書信息

文本分類中的幾個關鍵問題研究

中國水利水電出版社
    【作 者】裴志利 【I S B N 】978-7-5170-3115-4 【責任編輯】張玉玲 【適用讀者群】本專通用 【出版時間】2015-05-19 【開 本】16開 【裝幀信息】平裝(光膜) 【版 次】第1版第1次印刷 【頁 數】96 【千字數】105 【印 張】6 【定 價】25 【叢 書】 【備注信息】
圖書詳情

    本書基于數據挖掘的相關技術做了如下幾個方面的工作:①針對標準互信息和tf.idf特征權重公式的缺點提出了改進方法,改進的方法明顯提高了宏觀準確率、宏觀召回率和宏觀F1值;②針對標準tf.idf方法估算特征權重的盲目性,提出了基于實數域粗糙集理論的特征頻率重要度加權方法,該方法改善了樣本空間的分布狀態,明顯提高了文本分類的效果;③提出了一種基于互信息和信息熵對的特征選擇方法,利用該方法進行特征選擇的分類效果接近代表分類水平的支持向量機;④提出了基于粗糙集的多知識粒度的啟發式屬性約簡方法,通過引入悲觀和樂觀多粒度函數,有效提高了分類的效率和準確率;⑤研究了基于深度學習的主要模型,并選擇其中的Autoencoder進行文本分類研究,在語料庫20NG上進行了驗證,證明了方法的有效性。

    近幾十年來,隨著計算機技術和網絡技術的迅猛發展,極大地方便了人們的交流與溝通,但是技術的進步和發展也使得互聯網上出現了海量的文本資源,而對于互聯網用戶來說,出現了擁有海量信息但知識相對貧乏的現象,從而導致人們從海量的信息中獲取有意義的、相關性強的知識變得困難,因此將文本信息按照某些主題分類是一個迫切需要解決的問題。

    文本分類(Text Classification)是指依據文本的內容,由計算機根據某種分類算法,把文本判分為預先定義好的一個或多個類別的過程。文本分類作為信息處理的一個重要環節,已經成為信息技術領域的一個主要研究方向。文本分類技術的出現,使文檔可以自動地按照類別組織和處理,符合人類組織和處理信息的方式,方便了人們準確地定位所需的信息。同時,作為信息過濾、信息檢索、搜索引擎等領域的技術基礎,文本分類技術有著廣泛的應用前景。

    20世紀50年代末開始,H.P.Lunhn等人對文本分類的工作進行了開創性的研究。1961年,第一篇關于自動文本分類的文章《Automatic indexing: an experimental inquiry》(Maron)發表,隨后很多學者進入了這一領域的研究。20世紀80年代末之前,知識工程專家規則仍是自動文本分類的主要方法。到了90年代,隨著可用文本數據量的不斷增長,機器學習和統計方法被引入自動文本分類技術中,分類結果比基于知識工程專家規則的自動文本分類方法取得了長足的發展,并成為了主流研究方向。

    基于機器學習的文本分類方法中主要采用向量空間模型VSM(Vector Space Model),這個模型的關鍵技術有三個方面:特征選擇、特征權重估算、文本分類器設計。目前的相關研究工作主要是針對以上三個方面的關鍵技術進行討論的。文本分類是一個系統工程,其中最重要的一個環節是特征選擇。特征選擇是指從高維的文本特征空間中選擇出最能代表文本內容的特征詞,特征選擇技術一方面能夠降低文本特征空間的維數,大大提高文本分類的效率;另一方面通過消除無效的特征詞,提高文本分類的精度。在實際的語料庫中,我們通常選取一個詞作為一個特征,將文本抽象成向量空間中的一個點是對文本進行結構化表示的一個重要步驟,由于文本中的詞語很多,就會造成特征空間的維數災難,面對如此高維的特征空間,如果不進行特征空間的優化處理,那么任何分類算法都是無法承受的,所以尋找優秀的特征選擇方法就是必要和有用的。

    近幾十年來,伴隨著信息技術的發展,人們產生和收集數據的能力迅速提高,數據的規模急劇增加,傳統的統計分析技術由于其自身的局限性,以及海量數據的復雜性、異構性、動態性,使得隱藏在數據中間的、有用的知識難以被發現,因此出現了“數據豐富而信息缺乏”的現象。人們希望能夠有新的工具自動地分析和整理如此龐大和復雜的數據,從中發現有價值的信息,為決策提供必要的支持。面對這一挑戰,數據挖掘技術便應運而生了。

    數據挖掘(Data Mining),又稱為數據庫中的知識發現,是指從海量的、不完全的、有噪聲的、模糊的數據中抽取出潛在的、有效的、新穎的、有用的和最終可以理解和運用的知識的過程。數據挖掘是一門涉及面很廣的交叉學科,包括機器學習、數理統計、人工智能、神經網絡、數據庫、模式識別、粗糙集和模糊數學等相關技術,它的主要任務是對數據進行關聯分析、分類、聚類、預測、孤立點分析、演變分析等。盡管數據挖掘技術還有許多懸而未決的問題,但它廣泛的應用前景和巨大的商業魅力,吸引了眾多學者極大的研究熱情和產業界人士的廣泛關注。

    很多數據挖掘技術在自動文本分類中得到了廣泛的應用。文本分類中的核心問題是構造分類器,分類器需要通過某種算法進行學習獲得。在文本分類中,幾乎存在著和一般分類同樣多的方法,主要的方法有:Rocchio算法、樸素貝葉斯算法(Naive Bayesian,NB)、K-近鄰算法(K-nearest neighbor,KNN)、DT算法、ANN算法和SVM等算法。文本分類作為處理和組織大量文本數據的關鍵技術,可以在很大程度上解決信息的雜亂問題,對于信息的高效管理和有效利用都具有極其重要的意義,并且已成為數據挖掘領域中一個重要的研究方向。因此,文本分類與數據挖掘相結合也就成了必然。

    基于機器學習的文本分類技術經過幾十年的發展,已能較好地解決了大部分具有數據量相對較小、標注比較完整及數據分布相對均勻等特點的問題和應用。但是,自動文本分類技術的大規模應用仍有很多關鍵問題沒有得到很好的解決,這些問題的解決不僅可以使文本分類技術盡快進入應用階段,同時也為很多學者提供了明確的研究方向。

    在上述背景下,有必要利用數據挖掘方法在文本分類領域做一些有益的嘗試工作。本書受到國家自然科學基金項目(61163034,61373067)資助,鑒于作者水平有限,書中難免存在錯誤之處,敬請讀者批評、指正。

    作者

    2014年12月28日

    于內蒙古民族大學計算機科學與技術學院

    第1章 緒論 1
    1.1 數據挖掘技術簡介 1
    1.1.1 數據挖掘的背景介紹 1
    1.1.2 數據挖掘的研究現狀 1
    1.1.3 數據挖掘的相關知識 3
    1.1.4 數據挖掘的應用和研究方向 7
    1.2 數據挖掘技術在文本分類中的應用 8
    1.2.1 數據挖掘技術在文本分類中的應用 8
    1.2.2 文本分類的應用和展望 9
    1.3 本書工作 11
    第2章 基于改進互信息和特征權重的文本分類方法 13
    2.1 背景介紹 13
    2.2 特征選擇前的低頻特征預處理 15
    2.3 改進互信息的特征選擇方法 16
    2.3.1 互信息方法 16
    2.3.2 互信息公式的改進 17
    2.4 改進的特征權重的估計方法 19
    2.4.1 tf.idf方法 19
    2.4.2 改進的tf.idf方法 19
    2.5 模擬實驗 21
    2.5.1 評價方法 21
    2.5.2 實驗結果 22
    2.6 本章小結 25
    第3章 基于互信息和信息熵對的特征選擇方法 26
    3.1 背景介紹 26
    3.2 特征選擇方法 27
    3.2.1 互信息方法 27
    3.2.2 信息熵和信息熵對 27
    3.2.3 基于互信息和信息熵對的特征選擇方法 28
    3.3 仿真實驗 29
    3.3.1 數據集 29
    3.3.2 評價方法 30
    3.3.3 實驗結果 30
    3.4 本章小結 34
    第4章 基于實數域粗糙集特征加權的文本分類方法 35
    4.1 引言 35
    4.2 基于實數域粗糙集理論的幾個定義 35
    4.3 基于實數域粗糙集理論的改進特征加權公式 37
    4.3.1 tf.idf方法 37
    4.3.2 改進的tf.idf方法 37
    4.4 實驗結果和分析 40
    4.5 本章小結 43
    第5章 基于多粒度粗糙集的啟發式屬性約簡 44
    5.1 引言 44
    5.2 粗糙集基本概念 45
    5.2.1 上近似集和下近似集 45
    5.2.2 不可區分關系 45
    5.2.3 信息系統和決策信息系統 45
    5.2.4 屬性約簡 45
    5.3 多粒度粗糙集模型 46
    5.3.1 悲觀多粒度下近似和上近似 46
    5.3.2 樂觀多粒度下近似和上近似 46
    5.4 基于多粒度粗糙集模型構造新的知識粒度函數 46
    5.4.1 基于多粒度屬性重要度的屬性約簡 46
    5.4.2 基于多知識粒度的啟發式屬性約簡算法 48
    5.5 實驗結果與分析 48
    5.5.1 選取語料集 48
    5.5.2 語料預處理 49
    5.5.3 評價指標 49
    5.6 本章小結 50
    第6章 基于深度學習的文本分類 51
    6.1 背景介紹 51
    6.1.1 研究背景及意義 51
    6.1.2 研究現狀 52
    6.1.3 本章的研究內容 53
    6.2 文本分類技術及深度學習相關技術 54
    6.2.1 文本預處理過程 54
    6.2.2 文本的數學表示模型 55
    6.2.3 常用的文本分類算法 57
    6.2.4 深度學習的相關技術 60
    6.3 基于單個自動編碼器的文本分類 61
    6.3.1 自動編碼器結構 63
    6.3.2 實驗數據分析 65
    6.4 基于多個自動編碼器的文本研究 70
    6.4.1 基于多個自編碼器分類的理論研究 70
    6.4.2 實驗結果分析 71
    6.5 本章小結 75
    第7章 結論和展望 76
    參考文獻 78





最新評論共有 0 位網友發表了評論
發表評論
評論內容:不能超過250字,需審核,請自覺遵守互聯網相關政策法規。
用戶名: 密碼:
匿名?
注冊
主站蜘蛛池模板: 亚洲综合激情网| 欧美日韩国产一区二区三区伦| 久久精品国产精品亚洲20| 精品国语对白精品自拍视| 91精品国产综合久久久久久| 免看一级a毛片一片成人不卡| 91久久精一区二区三区大全 | 日韩有色| 99成人国产精品视频| 亚洲一区免费| 国产区精品视频| 色香蕉影院| 国产区二区| 日日夜夜2017| 91精品国产免费久久国语麻豆 | 正在播放91| 国产精品资源| 亚洲视频黄色| 福利国产精品| 六月婷婷久久| 亚洲一区二区视频| 国产第一页视频| 久久这里只有| 91精品国产高清| 韩国美女爽快一级毛片黄| 五月婷婷婷| 55夜色66夜色国产精品站| 国内精品视频在线播放一区| 色综合久久九月婷婷色综合| 国产99对白在线播放| 激情婷婷在线| 日韩在线一区二区三区免费视频| 91久久精品一区二区| 好吊妞视频在线观看| 色视频哟女在线观看| 成人免费va视频| 精品日本亚洲一区二区三区| 婷婷97| 亚洲成人99| 大臿蕉香蕉大视频成人| 日本久久综合|