中文文本分類中的特征選擇研究
- 文件介紹:
- 該文件為 pdf 格式(源文件可編輯),下載需要
20 積分
- 中文文本分類中的特征選擇研究
目的: 隨著信息技術(shù)不斷前進和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展和普及,信息呈近乎爆炸的形式急速膨脹。無論網(wǎng)絡(luò)上、企業(yè)中或是個人系統(tǒng)上,都有海量的信息需要處理。文本作為計算機系統(tǒng)中信息的最重要表現(xiàn)形式之一,其增長速度更為驚人。如何在海量文本庫中搜尋、過濾和管理這些文本成為一個亟待解決的問題。作為數(shù)據(jù)挖掘技術(shù)的重要手段之一,基于機器學(xué)習(xí)的文本分類技術(shù)可以在較大程度上解決文本庫雜亂無章的現(xiàn)象,幫助人們將大量的文本自動分門別類,從而更好地把握文本信息,使信息的價值最大化。 在采用向量空間模型對文本進行表示的情況下,文本分類的最大特點和困難之一是特征空間的高維性和文檔表示向量的稀疏性。中文的詞條總數(shù)有二十多萬條,尋求一種有效的特征抽取算法,降低特征空間的維數(shù),提高分類的效率和精度,成為文本自動分類中需要首先面對的重要問題。特征選擇是解決這個問題的有效方法。 本選題的核心目的就在于研究如何進行特征項的選取,使得分類的效率和效果最好。 思路: 首先需要理解中文文本分類技術(shù)以及應(yīng)用的框架,熟悉中文文本分類技術(shù)的各個組成部分,然后搭建一個中文文本分類的輔助平臺(包括分詞組件、分類器、測試文檔集、訓(xùn)練文檔集,大部分都可以從開源軟件或公開資料里獲得),在輔助平臺的基礎(chǔ)上研究特征相的提取并用實驗檢驗之。 方法: 通過閱讀大量的資料或文檔學(xué)習(xí)所要用的知識和技術(shù),并通過實驗驗證自己的想法和理論。 相關(guān)支持條件: PC、java或C++開發(fā)環(huán)境、中文文本分類輔助平臺(自己搭建)、Internet ...
中文文本分類中的特征選擇研究_下載(pdf格式) 技術(shù)文檔
主站蜘蛛池模板:
成年人黄色免费视频
|
国产激情91久久精品导航
|
拍真实国产伦偷精品
|
日韩一区二区在线播放
|
日韩一区二区三区在线视频
|
亚洲精选一区二区
|
岛国一区
|
精品久
|
a级毛片毛片免费观看久潮喷
|
国产亚洲欧美在线视频
|
国产精品美女在线观看
|
亚州精品天堂中文字幕
|
精品国产一区二区国模嫣然
|
国产精品久久久久久久久久99
|
成人二区
|
你懂的av|
国产精品久久久久久久久久久免费看
|
黄色av网站在线观看
|
一本色道精品久久一区二区三区
|
www久久av
|
欧美精品一区二区三区在线播放
|
亚洲91精品|
91精品国产一区二区三区
|
国产精品明星裸体写真集
|
亚洲一本
|
午夜电影网
|
日韩毛片在线视频
|
三级黄色网址
|
精品久久香蕉国产线看观看亚洲
|
日批免费在线观看
|
日本手机在线
|
狠狠干天天干
|
在线视频 亚洲
|
久久久久久久一区
|
在线成人
|
热re99久久精品国99热观看
|
三级成人在线
|
欧美8一10sex性hd
|
99精品电影|
欧美久久久久久久久
|
日韩精品免费
|