テキストマイニング

2021年04月02日

テキストマイニングとは、大量の文章データ（テキストデータ）を対象としたデータマイニングのことを指します。大量のテキストデータに対して、統計学や人工知能を適用して付加価値の高い情報を取り出す技術のことです。

テキストマイニングは、その名の通りテキストデータ（文章データ）を分析の対象とします。例えば、自社商品や自社サービスのアンケートを行い、集計した大量のアンケート結果から情報を抽出する場合や、SNSに対してテキストマイニングを行い、SNS内でつぶやかれる内容から有益な情報を見つけ出すために活用されたりします。

ビッグデータを活用したテキストマイニングは「定性データ」を活用するための方法と言われることもあります。顧客や消費者から得たビッグデータには数字の「定量データ」と文字などの「定性データ」の２種類に大別され、消費行動や傾向を知るために定量データを分析し、その理由解明するために定性データを活用します。

テキストマイニングでは、アンケート結果やSNSなどの内容、コールセンターと顧客のやり取り内容、インターネット上の掲示板での書き込み、口コミなど、幅広いテキストデータを活用することができます。具体的には、文章からなるデータや単語を分節・単語などで区切り、それらの出現頻度、出現傾向、時系列、相関関係を分析することで有益な情報を抽出します。

例えば、「私は五反田で働いています」という文章を、
「私は/五反田/で/働いて/います」というようにように区切り抽出し、分析した結果から、「五反田で働いている人は、18時退社が多い」などの情報を得ることができます。

このように、定性データを分析するテキストマイニングはビッグデータの１つとして注目されています。