文字探勘(Text mining)大概相當於「文字分析」,指文字處理過程中產生高品質的資訊。
而高品質的資訊通常透過「分類」、「預測」來產生,文字探勘一般會涉及輸入文字的處理過程,產生結構化資料,最後得出評價、解釋輸出。
*處理過程:進行分析,會加上一些衍生語言特徵、消除雜音,再插入到資料庫
高品質的文字探勘通常是指某種組合的相關性、新穎性、趣味性。
- 典型文字探勘方法:文字分類、文字群集、概念/實體探勘、生產精確分類、觀點分析、文件摘要、實體關係模型
- 文字分析:資訊檢索、詞典分析來研究詞語的頻數分布、圖型識別、標籤/注釋、資訊抽取
- 資料探勘技術:連結和關聯分析、視覺化、預測分析
本質上,首要的任務是,透過自然語言處理(NLP)和分析方法,把文字轉化為資料,進行分析。
文字探勘的方法
1、利用電腦化工具
文字探勘利用電腦化的工具,從原始資料中去自動檢索、摘錄和分析大量的文字。資料探勘也是利用相同技術,去分析資料庫和統計資訊,統稱TDM (Text & Data Mining)。
2、運用NLP協助
文字探勘不只是檢索過程,它運用自然語言處理 (NLP),即機器學習(Machine Learning)來協助了解大量資訊中的連結和模式,分析所有潛在資源,來洞悉資源之間的新關聯。
3、專業學術文章要特別工具
文字探勘還在實驗階段,需要專業的工具及部份的程式設計知識。
尤其對科學、技術和醫學的內容而言,文字探勘在初始階段,典型的文字探勘工具是針對一般的網路內容,如:新聞或社交媒體文,但專業學術文章,有獨特行話、縮寫字,所以作為專業學科研究者,需要特別訂作工具。
4、巨量文章和圖書章節的大量下載
文字探勘需要巨量文章和圖書章節的大量下載,應用程式界面( APIs)讓文字探勘更容易去下載巨量內容,且快速回覆結果,可以減少整體的下載時間。
【推薦學習】
結帳輸入優惠碼「BLOGONLY200」購買上述任一線上課程現折$200!
想成為爬蟲工程師 、資料分析師 、資料工程師 、資料分析領域專家 、人工智慧產品經理嗎?還是你的公司正需要培養此領域人才呢?
點我了解 AI資料科學家全方位學程 👉 https://bit.ly/3o4N39e
每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。
若想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或有其他想了解的主題歡迎在下方留言讓我們知道唷!
參考資料