【AI60問】Q49什麼是文字探勘?

by 提拔我園丁
緯育TibaMe AI小教室-Q49人什麼是文字探勘?

文字探勘(Text mining)大概相當於「文字分析」,指文字處理過程中產生高品質的資訊。

而高品質的資訊通常透過「分類」、「預測」來產生,文字探勘一般會涉及輸入文字的處理過程,產生結構化資料,最後得出評價、解釋輸出。

*處理過程:進行分析,會加上一些衍生語言特徵、消除雜音,再插入到資料庫

高品質的文字探勘通常是指某種組合的相關性、新穎性、趣味性。

  • 典型文字探勘方法:文字分類、文字群集、概念/實體探勘、生產精確分類、觀點分析、文件摘要、實體關係模型
  • 文字分析:資訊檢索、詞典分析來研究詞語的頻數分布、圖型識別、標籤/注釋、資訊抽取
  • 資料探勘技術:連結和關聯分析、視覺化、預測分析

本質上,首要的任務是,透過自然語言處理(NLP)和分析方法,把文字轉化為資料,進行分析。

文字探勘的方法

1、利用電腦化工具

文字探勘利用電腦化的工具,從原始資料中去自動檢索、摘錄和分析大量的文字。資料探勘也是利用相同技術,去分析資料庫和統計資訊,統稱TDM (Text & Data Mining)。

2、運用NLP協助

文字探勘不只是檢索過程,它運用自然語言處理 (NLP),即機器學習(Machine Learning)來協助了解大量資訊中的連結和模式,分析所有潛在資源,來洞悉資源之間的新關聯。

3、專業學術文章要特別工具

文字探勘還在實驗階段,需要專業的工具及部份的程式設計知識。

尤其對科學、技術和醫學的內容而言,文字探勘在初始階段,典型的文字探勘工具是針對一般的網路內容,如:新聞或社交媒體文,但專業學術文章,有獨特行話、縮寫字,所以作為專業學科研究者,需要特別訂作工具。

4、巨量文章和圖書章節的大量下載

文字探勘需要巨量文章和圖書章節的大量下載,應用程式界面( APIs)讓文字探勘更容易去下載巨量內容,且快速回覆結果,可以減少整體的下載時間。

【推薦學習】

結帳輸入優惠碼「BLOGONLY200」購買上述任一線上課程現折$200!

想成為爬蟲工程師 、資料分析師 、資料工程師 、資料分析領域專家 、人工智慧產品經理嗎?還是你的公司正需要培養此領域人才呢?

點我了解 AI資料科學家全方位學程 👉 https://bit.ly/3o4N39e

每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。

若想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或有其他想了解的主題歡迎在下方留言讓我們知道唷!

參考資料

分享這篇文章:
0 留言
4

您也許會喜歡

發佈留言

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料