國內最好的論文代寫網,論文發表網--原創論文代寫網。 代寫論文QQ: 4000123242

代寫論文

代寫論文三重保障: 質量保證 時間保證 安全保證  代寫QQ:4000123242  服務電話:1818-1919-655

論文搜索 熱門搜索:java 職場 傳感器 家具 車險
產業 

基于文本序列和語義信息學習的計算機文本分類研究

日期:09-20 來源:網絡收集 點擊次數: 提醒:需要原創論文請聯系客服
特別提示:網站上的論文收集于互聯網,可能不完整,非原創。需要原創,高品質,包通過的論文請趕緊聯系客服進行原創定制。

認證QQ:4000123242   服務電話:18181919655(微信同號)   徐老師:2852358635   程老師:56223941   更多老師>>>

本文是一篇計算機論文,計算機應用專業的特色是“厚基礎,重方向”。本專業學生可以學到很扎實的計算機應用基礎知識,就業面廣;同時,在此基礎上又強化專業方向,學生們有重點地掌握一個專門化的技能,以便從事專業性較強的計算機崗位工作。(以上內容來自百度百科)今天為大家推薦一篇計算機論文,供大家參考。   第一章 緒論   1.1 論文研究背景及意義 互聯網技術發展使得各種信息大量充斥于網絡世界,而信息的主要形式就是文本,新聞、小說、博客、聊天等包含了大量的文本內容,如何對文本數據進行自動分類、組織和管理,已成為一個重要的研究課題。對文本進行分類有著重要意義,一方面文本分類可以幫助人們高效、快捷地管理和使用文本數據,例如檢索系統;另一方面,文本分類為人們對文本中的數據進一步挖掘提供了基礎,例如問答系統、詞性標注等。最初的文本分類是專業人士根據領域知識對少量文檔進行的,花費高昂且無法大規模分類,不能滿足互聯網發展的需求[1],因此人們希望通過輔助工具來更快、更好和更準確的管理更多的信息。基于機器學習的文本分類系統能夠在給定的分類模型下,根據文本的內容自動對文本分門別類,從而更好地幫助人們組織文本、挖掘文本信息,因此得到日益廣泛的關注,成為信息處理領域最重要的研究方向之一[1]。文本分類最早興起于上世紀 60 年代,主要通過一些人工定義的規則手動分類,工作量大,效率低[1]。隨著互聯網的發展,低效的規則方法無法滿足大數據量文本分類的需求,因此發展出了高效的自動文本分類模型。文本分類模型的關鍵在于學習好的特征,即文本表示學習,其屬于表示學習的一部分,良好的文本表示可以極大地幫助提升文本分類的效果。目前主要的文本表示學習的方法和理論有向量空間模型(Vector Space Model,VSM)、主題模型(如 LDA,LSI)和基于神經網絡的深度學習模型[2-11]。向量空間模型的基礎為詞,通過信息增益等特征選擇方法選擇特征,通過 TF_IDF 等方法計算特征值,最后以選擇的特征和特征值構建文本表示;但其丟失了文本語義和序列信息,一般用于長文本的分類,不適用于短文本和句子級文本的分類。主題模型通過學習詞和文本的主題分布來表示文本和詞,雖然學習到了淺層語義,但是其所學習語義是粗粒度的、模糊的主題;另外主題模型計算復雜,需要并行化計算,且其不適用于短文本和句子級文本建模。基于神經網絡的深度學習模型是目前研究最多和最廣泛的方法,該類方法一般在詞向量基礎上通過深度學習模型(如 CNN、RNN、AutoCoder 等)利用文本的序列信息來學習文本表示;相較于前兩種方法,深度學習模型最大的優勢在于其可以自動學習文本特征和文本表示,但是其目前對于句子和短文本級的文本建模較多,而對于長文本建模較少,且在長文本分類上的表現不理想。 ............   1.2 國內外研究現狀 文本分類的任務包括分詞、詞表示、文本表示和文本分類模型。分詞是其他任務的基礎,中文分詞需要用分詞算法切割漢字,英文需要轉換形態;詞表示是文本表示和分類的基礎,詞表示有多種方法,包括 one-hot 表征,詞向量和主題分布表征等;文本表示一般是在詞表示的基礎上通過表示學習算法得到;文本分類模型在文本表示基礎上學習,包括經典統計機器學習模型、神經網絡模型和深度學習模型等。本部分將重點闡述在詞表示、文本表示和文本分類模型上的研究。   1.2.1 詞表示 詞表示是文本分類的基礎,詞表示旨在使算法(或計算機)理解詞的意思,包括語義等詞的語言特征信息。但是此處的理解詞與人類理解詞是不同的,前者只是將詞表示于向量空間中,用某個位置代表某種語義,并不理解其所代表的事物或概念的特征、屬性和用法等。最初的詞表示采用獨熱(one-hot representation)模式,即將語料中的所有詞編上序號,詞所編序號的位置的值為 1,其余位置為 0,例如“機器”=[0,0,0,1,0]。這種方法表示太過稀疏,且詞與詞之間不存在關聯,即使相同語義的詞也無法度量,只是將詞符號化或者數值化了,不包含任何語義等信息。為克服 one-hot 模式的缺點,人們提出來詞的連續空間表示,其中分布式表示是目前應用最廣泛的方法。分布式表征是基于分布式假說提出的[12],分布式假說認為上下文相似的詞,它們的語義也相似;其核心思想可以概括為兩點:選擇一種方式描述上下文和選擇一種模型建立詞和其上下文之間的關系[13]。分布式表示先后有三種實現:基于矩陣的分布式表示、基于聚類的分布式表示和基于神經網絡的分布式表示[14-17]。基于矩陣的分布式表示又被稱為分布語義模型,基本思想是通過對“詞-上下文”矩陣進行矩陣分解(如 SVD,奇異值分解)從而獲得低維稠密的向量來表示詞,主流方法有 LSA 等模型[3,6,7];基于聚類的分布式表示又被稱為分布聚類,其基本思想是通過聚類來建立詞和其上下文之間的關系;目前主流的表示方法是第三種,本文主要介紹基于神經網絡的分布式表示。 .........   第二章 文本分類相關理論與技術   文本分類是自然語言處理的一項任務,其研究和實現需要依托于其他相關的基礎技術和理論,本章將主要討論論文依賴的技術和理論,包括:分布式假說、深度學習模型、語言模型、詞向量學習模型、分詞技術、經典分類算法和 TensorFlow技術。   2.1 分布式假說 Harris 于 1954 年提出了語言的分布式結構[36]。Harris 認為語言具有分布式結構,語言可以被多個獨立的特征結構化表示,即分布式表示。語言中的元素的分布可以認為是其周圍環境(上下文)的綜合。針對語言的分布式結構,Harris 從四個方面進行了論證:(1)語言(文本)中的每個部分并非隨機出現的,其出現一定是與其他部分相[代寫論文就找123Yc.coM原創論文網,QQ:56.223.941]關聯的,甚至于其出現的位置也與其他元素的位置息息相關。(2)語言中元素的分布并非自由多變的,而是相對固定和相對受限的,這種限制分布可能出于語義、句法等的需要,且一般適用于其出現的各種環境。例如:形容詞一般會修飾名字,“藍藍的”一般修飾“大海”和“天空”。(3)語言的分布式表述可以涵蓋語言的所有元素且無需其他類型信息的支持,可以表述一個詞,一個短語,一句話,一段文本等。(4)語言中每個元素的相關元素對其的限制可以簡單地通過一個相關性網絡進行描述,甚至某些元素直接作為其他元素的部分而存在。總之,Harris 從各個方面論述語言存在分布式結構。同時,Harris 討論了語言的分布式結構與語義上的關聯,其認為語義是基于元素分布式結構的一個函數。隨后,1957 年 Firth 進一步闡述將語言的分布式結構總結為分布式假說,即“詞的語義由其上下文決定”[12]。這成為了詞表示學習的基礎理論,基于此理論,后人通過聚類、矩陣分解和機器學習等方法不斷地嘗試學習更準確的詞表示。 ........   2.2 深度學習模型 LSTM(Long Short-Term Memory)模型即長短詞記憶模型,是循環神經網絡模型(Recurrent Neural Network,RNN)的一個變種[37]。RNN 旨在利用歷史信息幫助當前的學習,一般 RNN 模型只使用了前一個歷史信息(比如一個詞),可以幫助我們記憶短距離的信息,但在實際中由于梯度消失問題(激活函數的原因)導致 RNN 在許多情況下無法記憶歷史信息(參數得不到訓練),因此人們提出了LSTM 模型,該模型解決了梯度消失的問題,使得模型可以記憶一定長度的歷史信息,其結構見圖 2-1。從圖 2-1 可以看出,RNN 是一個在時間上延展的深度學習模型,其每一個時間步都可以產生一個輸出,對于這些輸出我們可以取均值,取最大值和取最后一個輸出等。LSTM 對 RNN 的改進主要是圖中的 A,即隱藏層。LSTM 將隱藏層分層了三部分:輸入門(input gate)、遺忘門(forget gate)和輸出門(output gate),其結構見圖 2-2。 ........   第三章 基于文本語義和序列信息的通用文本表示模型............ 21 3.1 基于詞向量的文本語義研究 .... 21 3.2 文本序列信息含義和學習方法研究............ 22 3.3 通用文本表示模型研究 ............ 24 3.3.1 文本表示方法分析 ........... 24 3.3.2 多粒度文本學習 ..... 25 3.3.3 通用文本表示模型 ........... 26 3.4 本章小結...... 27 第四章 基于通用文本表示模型的文本分類研究.... 28 4.1 句子分類模型 ........ 28 4.1.1 基于 LSTM and Word-Sum 的句子分類模型 ......... 28 4.1.2 基于 CNN and Word-Sum 的句子分類模型............ 32代寫論文QQ:562239414.2 文檔分類模型........ 35 4.3 本章小結 ...... 40 第五章 實驗與分析............ 41 5.1 實驗環境...... 41 5.2 實驗數據...... 41 5.3 實驗內容...... 43 5.4 實驗結果與分析.... 47 5.5 本章小結...... 55   第五章 實驗與分析   5.1 實驗環境 本論文的實驗在 PC 機上進行,操作系統為 Windows7(64 位)操作系統;開發語言為 python;中文分詞工具采用中科院 NLPIR,英文分詞和詞干提取工具是NLTK;具體實驗環境配置見表 5-1 所示。詞嵌入數據主要包含中文數據集和英文數據集兩部分數據。對于中文數據集,本文選取了 40 萬搜狗新聞數據①和網絡爬蟲爬取的 10 萬篇新聞數據兩個數據集,分別包含了 993147 個詞語和 306573 個詞語;對于英文數據集,本文選取維基百科 100 萬條數據②,共包含了 52930 個單詞(詞干)。在詞向量實驗中,本文主要使用中文數據集來探討詞向量,所學得的詞向量數據是本文文本分類實驗的基礎。Standard Sentiment TreeBank 是一個對評論極性分類的數據集。該數據集上的任務有兩個:一是五分類任務 SST_5;二是二分類任務 SST_2。五分類任務中共包含 9161 個訓練數據和 2126 條測試數據,數據分屬于 negative、very negative、neural、positive 和 very positive 五個類別;二分類任務中共包含 7388 個訓練數據和 1748 個測試數據,分屬于 positive 和 negative 兩個類別。酒店評論語料是情感極性分類語料,這里主要有積極和消極兩種情感。酒店評論語料共有 10000 條評論,我們從中選取較短的句子級別的語料共 5453 條,其中消極評論 1291 條,積極評論 4162 條,我們選取消極評論和積極評論中的一半作為訓練集,另一半作為測試集。
...........   結論   隨著互聯網的崛起和發展,各種新聞、論壇、微博等網站涌現在互聯網中,人們每天都可以看到各方面、各種類型的信息,這些信息信息中尤以文本信息居多,且覆蓋面最廣。那么如何去向讀者推薦新聞,如何從論文評論中分析人們的行為,如何從萬千數據中挖掘有用的信息等這些任務都包含了豐富的商業信息,同時這也可以反過來更好地服務人們。實現這些任務的基本手段是對信息進行分類,其中以文本分類為主要基本手段。文本分類由來已久,現代互聯網的發展將自動文本分類推到了研究前沿,近年許多學者投入了文本分類相關的研【論文論文就找123yC.cOm原創論文網,QQ:562.239.41】究。本論文基于近年來人們對于文本語義、文本序列信息、深度學習模型等研究,進一步研究文本表示學習,提出了多粒度文本學習的方法和通用文本表示模型,并在此基礎上提出了兩個句子分類模型和兩個文檔分類模型,最終在句子分類和文檔分類任務上取得了良好的表現。 (1)在詞義研究方面,通過對詞向量原理的研究和分析,本文揭示詞向量所編碼的分布式信息的本質含義,即一種包含了語義、詞性、語用和語法等一般語言特征的綜合編碼,是廣義上的語義,并最終通過實驗進一步發現詞向量的這種本質特性不受學習模型、詞向量維度和訓練數據集的影響,而是源自于分布式假說和語言模型本身。基于此,本文進一步揭示了詞向量學習與任務的相關性,即將詞向量學習與任務優化共同訓練將有助提升任務效果,詞向量的動態更新可以幫助模型自動學習更加完好的特征,并最終通過句子分類實驗證明了這一結果。 (2)在序列信息方面,本文從詞和句子兩種粒度下揭示了文本序列信息的本質含義。詞級的順序性反應了文本的句法、語法等信息,句子級的順序性反映了文本的行文邏輯信息,是理解文章的基礎。同時,本文從全局序列信息學習和局部序列信息學習兩個方面分析序列信息學習方法。最終本文將序列信息的學習用于文本分類的任務,并在句子和文檔分類上取得了良好的表現;尤其是句子級序列信息的學習,對文檔分類有很大的幫助。 (3)在文本表示和文本分類方面,本文提出了多粒度文本學習的方法,并提出了通用文本表示模型。該模型一方面可以幫助學習良好的文本表示,另一方面可以將不同長度的文本表示學習統一起來。同時,基于通用文本表示模型和多粒度文本學習方法本文提出了兩個句子分類模型和文檔分類模型,并在文本分類任務上取得了良好表現,尤其是在文檔分類任務上的效果,充分證明了多粒度文本學習方法的正確性。 (4)在句子分類實驗中,本文提出的句子分類模型取得了較佳的成績,雖然沒有超越最優效果,但是這為我們下一步的工作奠定了基礎。在文檔分類實驗中,本文提出的文檔分類模型 IBLM 和 IIRPM 在復旦新聞分類語料分別獲得了 94.7%和 95.8%的準確率,超越了其他論文中的方法;在 20Newsgroups 上分別獲得了73.1%和 74%的準確率,其中 74%是當前最佳效果;同時,通過實驗發現 IIRPM的分類效果在不同維度詞向量下都表現優異,這一結果將有助于對于模型進行計算效率上的優化,減少計算時間。 .......... 參考文獻(略)代寫論文QQ:56223941

關鍵詞:文本 語義 序列 計算機 信息

 1/2    1 2 下一頁 尾頁

版塊搜索

論文服務咨詢
企業:4000123242
企業:2852358635
程老師:56223941
售前郵箱:a@hhlw.com
電話:18181919-655
業務合作咨詢
投訴建議
澳门葡京网上娱乐_澳门葡京网投注册_澳门葡京网投网址