資料載入處理中...
跳到主要內容
臺灣博碩士論文加值系統
:::
網站導覽
|
首頁
|
關於本站
|
聯絡我們
|
國圖首頁
|
常見問題
|
操作說明
English
|
FB 專頁
|
Mobile
免費會員
登入
|
註冊
切換版面粉紅色
切換版面綠色
切換版面橘色
切換版面淡藍色
切換版面黃色
切換版面藍色
功能切換導覽列
(216.73.216.138) 您好!臺灣時間:2025/06/21 19:58
字體大小:
字級大小SCRIPT,如您的瀏覽器不支援,IE6請利用鍵盤按住ALT鍵 + V → X → (G)最大(L)較大(M)中(S)較小(A)小,來選擇適合您的文字大小,如為IE7或Firefoxy瀏覽器則可利用鍵盤 Ctrl + (+)放大 (-)縮小來改變字型大小。
字體大小變更功能,需開啟瀏覽器的JAVASCRIPT功能
:::
詳目顯示
recordfocus
第 1 筆 / 共 1 筆
/1
頁
論文基本資料
摘要
外文摘要
目次
參考文獻
電子全文
紙本論文
QR Code
本論文永久網址
:
複製永久網址
Twitter
研究生:
林巧雲
研究生(外文):
LIN,CHIAO-YUN
論文名稱:
機器學習資料前處理技術探討~以文字探勘於預測股票漲跌為例
論文名稱(外文):
Discussion on Pre-processing Technology of Machine Learning Data ~ Using Text Mining As an Example To Predict Stock Ups And Downs
指導教授:
徐偉智
指導教授(外文):
HSU,WEI-CHIH
口試委員:
宗靜萍
、
汪桓生
、
陳朝烈
、
徐偉智
口試委員(外文):
TZUNG,CHING-PING
、
WANG,HUAN-SHENG
、
CHEN,CHAO-LIEN
、
HSU,WEI-CHIH
口試日期:
2020-07-22
學位類別:
碩士
校院名稱:
國立高雄科技大學
系所名稱:
電腦與通訊工程系
學門:
工程學門
學類:
電資工程學類
論文種類:
學術論文
論文出版年:
2020
畢業學年度:
108
語文別:
中文
論文頁數:
109
中文關鍵詞:
資料集品質
、
資料前處理
、
情緒分析
、
資料探勘
、
離群值處理
外文關鍵詞:
The Quality Of Data Set
、
Data Preprocessing
、
Sentiment Analysis
、
Data Mining
、
Outlier processing
相關次數:
被引用:
2
點閱:1401
評分:
下載:81
書目收藏:4
數據化時代來臨,各種分析技術及工具因應而出。但多數企業或研究人員大部分多專注於各種分析技術及模型,少有人關注資料集的品質。資料探勘為巨量資料分析中一個關鍵的過程。資料探勘透過資料的清理、整合、精簡、轉換,將資料準備就緒後,接下來經過挖礦的模式與方法得到有價值的資訊。其中清理、整合、精簡、轉換四步驟稱為「資料前處理(Data Preprocessing) 」,為影響資料集品質最深遠也最重要步驟。
本論文以社群及新聞計算後的情緒分數來預測大盤漲跌為例子,利用實例呈現資料探勘的過程及方法。整個研究的過程中,「資料前處理」作業佔了整個研究的百分之六十九,為研究中最繁瑣及費時的過程。該實例首先,透過python爬蟲程式蒐集社群及新聞資料。接著,執行資料前處理、中文斷詞處理、以情緒分析方法取得情緒分數並產生建模資料集。最後,以倒傳遞類神經網路演算法建立預測模型、評估及比較。經由實驗結果證實兩點,第一,資料集經由正規化及離群值處理產生的預測模型,準確度有明顯的改善;第二,使用情緒分數的模型對於預測股票上漲準確度較佳。
The era of big data is coming, and various analysis techniques and tools are produced. However, most companies or researchers mostly focus on various analysis techniques and models, and few people pay attention to the quality of data sets. Data Mining is a key process in the analysis of Big Data. Data Mining prepares data through the procedures of data cleaning, integration, reduction and transformation. Next, through mining models and methods to obtain valuable information. Among them, the four steps of cleaning, integration, reduction and transformation are called "Data Preprocessing", which are the most profound and important steps that affect the quality of the data set.
This paper takes the sentiment score calculated by the community and news as an example to predict the market's ups and downs, and uses examples to present the process and method of Data Mining.
In the entire research process, the "Data Preprocessing" operation accounted for 69% of the entire research, which was the most tedious and time-consuming process in the research. In this example, first of all, collect the community and news information through the python crawler program. Next, perform Data Preprocessing, Chinese Word-Segmentation Processing, Sentiment Analysis to obtain sentiment score, and generate modeling data sets. Finally, the Back-Propagation Neural Network Algorithm is used to build a predictive model, evaluate and compare. The experimental results confirmed two points. First, the accuracy of the prediction model generated by the data set through normalization and outlier processing has been significantly improved; second, the model using sentiment scores has better accuracy in predicting stock rises.
中文摘要.......................................................i
英文摘要.......................................................ii
致 謝.......................................................iv
目 錄.......................................................v
表 目 錄.....................................................vii
圖 目 錄.....................................................ix
第一章 緒論.....................................................1
1-1 研究背景與動機..............................................1
1-2 研究目的....................................................2
1-3 研究架構....................................................2
第二章 文獻探討.................................................3
2-1 資料前處理(Data Preprocessing)..............................3
2-1-1 為什麼需要資料前處理?......................................3
2-1-2 資料前處理步驟.............................................4
2-1-3 相關係數-皮爾遜積差相關係數.................................7
2-1-4 資料類別不平衡問題(Class Imbalance Problem)................10
2-2 情緒分析(Sentiment Analysis)................................14
2-3 結巴中文斷詞系統.............................................17
2-4 類神經網路...................................................20
第三章 資料前處理.................................................23
3-1 研究架構......................................................23
3-2 研究工具簡介..................................................24
3-3 資料集與資料前處理.............................................27
3-3-1資料的蒐集....................................................27
3-3-2網路爬蟲設計與實做............................................30
3-3-3資料的整合....................................................37
3-3-4情緒的處理及資料集的產生.......................................39
3-3-5相關係數分析..................................................44
3-3-6離群值檢視....................................................47
第四章 實驗結果與分析...............................................51
4-1 實驗環境與數據..................................................51
4-2 實驗的設計......................................................53
4-3 實驗結果與分析..................................................55
4.3.1 實驗一:情緒分數於股票漲跌預測之BPN模型..........................55
4.3.2 實驗二:無情緒分數於股票漲跌預測之BPN模型........................60
4.3.3 實驗三:情緒分數拆分成正負於股票漲跌預測之BPN模型.................65
4.3.4 實驗四:情緒分數(離群值處理)於股票漲跌預測之BPN模型...............70
4.3.5 實驗五:無情緒分數(離群值處理)於股票漲跌預測之BPN模型.............76
4.3.6 實驗六:情緒分數拆分成正負(離群值處理)於股票漲跌預測之BPN模型......82
4.3.7 實驗結果分析...................................................88
第五章 結論與未來研究方向.............................................92
5-1 結論.............................................................92
5-2 未來研究方向.....................................................94
參考文獻.............................................................95
[1]Han, J., M. Kamber, and J. Pei, "資料探勘 Data Mining Concepts and Techniques 3/e. ", 高立, 新北市, 2014.
[2]簡禎富 and 許嘉裕, "資料挖礦與大數據分析 = Data mining & big data analytics. ", 前程文化, 新北市, 2014.
[3]曾新穆, "巨量資料分析前處理程序之關鍵議題及挑戰,", http://www.twcloud.org.tw/files/file_pool/1/0i235514714386617720/5.pdf (accessed June 30,2020)
[4]Pang, B. and L. Lee, 2008, "Opinion Mining and Sentiment Analysis," Foundations and Trends in Information Retrieval, 2(1-2), pp. 1–135.
[5]Pang, B., L. Lee, and S. Vaithyanathan., "Thumbs up?: sentiment classification using machine learning techniques," in Proceedings of the ACL-02 conference on Empirical methods in natural language processing, Association for Computational Linguistics ,vol. 10, pp.79-86,2002.
[6]Snyder, B. and R. Barzilay. "Multiple aspect ranking using the good grief algorithm," in Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference, pp.300-307,2007.
[7]張琇茵, 2018, "基於社群與新聞內容之情感分析預測股價指數趨勢," 碩士論文, 國立臺北科技大學.
[8]張偉德, 2018, "應用情感分析從媒體評論推測企業聲譽之研究," 碩士論文, 國立中央大學.
[9]許家銘,2017,"情感分析應用於社群媒體輿論分析之研究," 碩士論文, 國立中央大學.
[10]陳岳群,2014,"使用情緒分析於公眾行為預測之研究," 碩士論文,樹德科技大學,高雄市,台灣.
[11]IT閱讀, "最全中文停用詞表整理(1893個),", https://www.itread01.com/content/1494661154.html (accessed June 30,2020)
電子全文
國圖紙本論文
推文
當script無法執行時可按︰
推文
網路書籤
當script無法執行時可按︰
網路書籤
推薦
當script無法執行時可按︰
推薦
評分
當script無法執行時可按︰
評分
引用網址
當script無法執行時可按︰
引用網址
轉寄
當script無法執行時可按︰
轉寄
推文
推文
推文到facebook
推文到plurk
推文到twitter
Google bookmarks
myshare
reddit
netvibes
top
相關論文
相關期刊
熱門點閱論文
1.
許家銘
2.
應用情感分析從媒體評論推測企業聲譽之研究
3.
基於社群與新聞內容之情感分析預測股價指數趨勢
4.
使用情緒分析於公眾行為預測之研究
5.
以個人消費行為預測信用卡詐欺事件之研究
6.
資料前處理:整合補值法與樣本選取之研究
7.
結合潛在語意檢索及資訊粒化於資料探勘
8.
基於中文語法規則的意見單元抽取方法之研究
9.
網路口碑之文字數量、文本情感、熵值與結構於產品銷售績效之影響─以電影產業為例
10.
資料探勘技術應用於航空業航班延誤分析-以C公司為例
11.
使用情緒分析來探勘社群網路中的負向情緒個案
12.
文字情緒分析候選人形象:以2016美國總統大選為例
13.
以文字探勘方法探討國立臺灣大學校務建言與回覆關聯性之研究
14.
時間序列前處理與樣式探勘技術
15.
情感分析於社群媒體國軍申訴之研究
無相關期刊
1.
運用文字探勘與文本情感分析技術探討消費者評論-以Booking.com網站為例
2.
文字探勘技術應用於股票論壇之投資議題研究-以PTT論壇Stock版為例
3.
對社群媒體進行文字探勘與情緒分析來 預測股票走勢:使用SVM 與LDA 演算法
4.
應用深度學習與自然語言處理新技術預測股票走勢 – 以台積電為例
5.
機器學習演算法在股票交易策略之應用
6.
整合情感分析與文字探勘技術應用於新聞標題分析:以外匯市場預測為例
7.
使用機器學習於股票市場預測
8.
使用文字探勘探討上下游公司間股價走勢之研究
9.
機器學習與文字探勘應用於交易策略之研究-以臺灣50為例
10.
各類新聞與正負面情緒對房市之影響:文字探勘之應用
11.
運用文字探勘技術建置電影影評劇透預測模型—以PTT電影版影評為例
12.
應用文字探勘法探討TripAdvisor住宿評論
13.
科技接受模式於健身App使用意願之探討-以騎行運動為對象
14.
應用文字探勘及機器學習技術於股票推薦系統之研究
15.
運用文字探勘探討臺灣實驗教育政策的實施與討論度分析
簡易查詢
|
進階查詢
|
熱門排行
|
我的研究室