umegusa's blog

備忘録

データマイニングしようぜ!!

メリークリスマス!
こちらはAizu Advent Calendar 2013の記事になります。

こんばんは、25日目担当の海草(@kaisou4537)です。

にゃんひまから受け継いできました、海草です。
私のこと知ってる人どのくらいいるかな?
さすがに卒業したのでもう知ってる人もそんなにいないと思います。
知ってたら声かけてください!!

みなさん元気ですか!私は元気です!多分!
クリスマスですね!
皆さんは誰とクリスマスを過ごしてるのかな?
私は飲みに行ってました。

さて、今回はデータマイニングのお話。
最後だけど普通でごめんなさい、きっと残ってる人たちがすごい記事を書いてくれると信じてます。
データマイニングの概要的なお話をします。
最近データアナリストとかたくさん出てきたので皆さんもこの機会にマイニングしてみてはどうでしょう。

データマイニング

データマイニングは大量のデータから有効な情報を取り出すためのプロセスのことです。たまたま見つかったものではなく、汎用性が高く、私たちにとって有力な情報で実際に使うことができる状態にするように、データのパターンを見つけることになります。
ちなみにKDD(knowledge-discovery in databases)とも呼ばれているみたいですよ。

データマイニングにも色々な種類があります。テキストマイニングやウェブマイニングとかはよく聞くと思います。これらも少し触れておきましょう。

ウェブマイニング
Webサイトの構造やWeb上のデータを利用したマイニングのことです。
Webのデータやコンテンツ、テキスト情報から役立つ情報を抽出することで、様々な物に活用させます。掲示板やブログ、商品レビューから意見・評判を抽出して活用するレコメンドシステム、Twitterのつぶやきを利用・解析したシステムとかちらほら見かけると思います。

テキストマイニング
その名の通り、テキストデータを対象としたデータマイニングのことです。構造化データ内のパターンを導出したり、入力テキストを構造化するプロセスに活用したりすることができます。

データマイニングってどうやるの

一通り紹介したところでデータマイニングってどんな手順でやるのかを説明していきます。基本的には4つのプロセスを行います。

  1. データの収集・選択
  2. 前処理・変換
  3. パターン発見
  4. 結果の解釈・評価・活用

図示すると以下の感じになります。

f:id:umegusa:20131225004050p:plain

これらを説明していきます。

データの収集・選択

はじめに行うのはデータの収集と選択になります。
データマイニングを行う上で一番重要なプロセスになります。
(全体の70~80%はこのプロセスになります)

まず事前にデータマイニング目標(ゴール)を定めることが重要になります。マイニングの結果、何が言えるのか、その部分を詰めていくことになります。

目標を設定したら、データウェアハウスからマイニングに必要な目的データセットを選択します。

目標を設定する際、どのアルゴリズムを使用するかを考察するのもこの段階になります。

前処理・変換

データクリーニングを行います。
選択したデータから、ノイズとなるデータや異常値を除去したり、単位を揃えたりするなど、データを処理できる形に変換します。

クリーニングしたデータを知識発見アルゴリズムが適用できる形に変換します。
事例選択など、データ変換は表形式にしてまとめるのがいいと思います。また、テキスト情報やWebの情報など、構造を持つデータもあると思いますが、その場合は特殊な変換が必要なことがあります。

アルゴリズムに適用する形にデータを変換してください。

パターン発見

知識発見アルゴリズムを適用して、パターン候補の抽出を行います。
知識発見アルゴリズムには、機会学習や統計的手法などが用いられます。

結果の解釈・評価・活用

最後に抽出したパターンを解釈し、評価します。
データが意味のある形になっているか、目標通りのパターンが抽出されているかが鍵になります。

データマイニングはこれらの繰り返し

必ずしも目標としているパターンを見つけられるとは限りません。
各プロセスで自身の欲しい情報が入手できていなければ、基本的には一つ前のプロセスをもう一度行う、という形で進めていきます。

最初に目標を設定すると言いましたが、最初から明確なものを設定することも難しいです。

プロセスを繰り返すことで、より明確な目標を定めることができるようになるはずです。

まとめ

いろいろ言いましたが、結局は良質なデータ群と最適な知識発見アルゴリズムを見つけられることがデータマイニング成功のカギになります。

データマイニングで重要なところは、データの選択・取得・前処理になります。先ほども言った通り、この部分が全プロセスの8割ほどを占めています。

パターンの発見ではなく、設定した目標に対応して、有効な情報が得られたということがゴールになります

データがきれいにそろっていれば、成功といっても過言ではないですね!

最後に

長くなってしまいましたが終わりです。
身の回りにある小さな情報でもいろいろな見方で活用の仕方は変わってくると思います。
データマイニングはそういう発見ができる、宝探しのようなものです。
この機会にみなさん挑戦してみてはいかがでしょう?

ここまで目を通していただきありがとうございました!
年末は地元に帰っておいしい日本酒たくさん飲みたいですね。

日本酒初心者の方はこちらの記事を見て日本酒にトライしてみてはいかがでしょう!
日本酒の魅力・会津の酒(Aizu Advent Calendar 2012)

これからもブログちょこちょこ書いていくんで暇な人は是非。
それではみなさんよいお年を!