BIZine  RSSを登録する

ビジネスインテリジェンス、データマイニングを学ぶメールマガジンです。単なるデータ分析手法だけではなく、データをどのように経営に活かして行くかをお伝えします。

現在休刊中です    
解除

規約に同意して

2006/03/13

BIZine ~ビジネスインテリジェンス、データマイニングを学ぶメルマガ~ No.007

☆〜--------------------------------------------------------------〜☆

 ◆ビジネスインテリジェンス、データマイニングを学ぶメルマガ◆

  ◇ BIZine ◇

☆〜--------------------------------------------------------------〜☆
No.007 オープンソースのデータマイニングツール「Weka」

 こんにちは。オフィス エヌ・ビー・アイの本田です。
 今年の1月に、今まで勤めていた会社を退職して独立しました。
 バタバタしてしまって、メルマガの発行を、ず〜っとサボっていました。
 スミマセン。m(_ _)m。

 さて、今回はオープンソースのデータマイニングツールである「Weka」につ
いて御紹介いたします。

 Wekaは、ニュージーランドのWaikato大学が中心となって開発しているデー
タマイニングツールです。Javaで作られていて、WindowsやMacなど、様々なプ
ラットフォームで動くGUIを備えたツールになっています。

 このメルマガでは、面倒な理屈などは抜きにして、取り敢えずは使ってみて、
データ分析やデータマイニングの有用性を理解していただくのを趣旨としてい
ますので、まずは、ツールを入手して使ってみることにしましょう。

 まず、インストールから始めなければなりませんが、インストールのための
ファイルは、

 http://www.weka-jp.info/

から入手することが出来ます。このサイトのトップページに本家Wekaへのリン
クが貼られていますので、ここからダウンロードが可能です。
 Windowsマシンにインストールする場合は、自己解凍形式のファイルも用意
されていますので、こちらを使うと便利です。このファイルを使う場合、実行
形式のファイルとなっていますので、実行させたら後は、通常のアプリケーシ
ョンをセットアップするときのように、セットアップウィザードに従ってアプ
リケーションのセットアップを行えば、簡単にインストールが完了します。

 インストールが完了したら、早速、使ってみてデータマイニングを実感して
みましょう。

 Wekaには、いくつかのサンプルファイルが付いていますので、そちらを使っ
てみることにします。
 Wekaをインストールしたフォルダの下に、dataというフォルダがあります。
その中に幾つかのデータが入っていますが、ここでは、weather.arffというフ
ァイルを使ってみます。
 このファイルの中身をテキストエディタなどで開いてみると、@で始まる行
が、ファイルの先頭に幾つか見られます。
 これは、最初の @relation がデータの名前、その後に続く @attribute が
データの属性名と、データ型となります。
 そして、 @data 以下が、それぞれの属性を並べたデータセットになってい
ます。

 このファイルでは、outlook(天候)、temperature(気温)、humidity(湿
度)、windy(強風)、そして開催(play)の属性が設定されています。
 今回行うデータの分析では、最後に出てきた属性情報(play)が予測される
変数(独立変数)、それ以外の属性情報が予測の元となる変数(従属変数)と
なります。
 ちなみに、Wekaでは、今回使うようなarff形式のファイルだけではなく、一
般的なCSVファイルも扱うことが可能です。

 では、実際にWekaを使ってみましょう。
 今回は、先程のファイルから、どのような条件のときにイベントが開催され
たかを分析します。

 Wekaを起動すると、最初に鳥の絵が描いてあるウィンドウが表示されます。
 画面下部に幾つかボタンがありますが、この中で「explorer」と書いてある
ボタンをクリックしてください。
 そうすると、別ウィンドウが開きますので、上部にある「Open File」と書
かれているボタンをクリックし、先程の weather.arff を読み込んでみましょ
う。そうすると、画面右下にヒストグラムが表示され、データが読み込まれた
ことが分かると思います。

 次に、決定木を作るための学習を行います。
 画面最上部に、幾つかのタブが表示されていますが、Classifyというタブを
選んでください。次にClassifierの欄にあるChooseと書いてあるボタンをクリ
ックして、実行アルゴリズムを選ぶのですが、ここでは、treesの下にある
J48というアルゴリズムを選びます。その他は、取り敢えず、デフォルト値の
ままにして、実行してみましょう。

 画面左にある「Start」ボタンをクリックします。

 すると、計算が実行され、画面右のoutputの欄に計算結果が出てきます。

 数値や英語ばかりだと、よく分からないので、図示してみます。
 画面の左に、実行時刻(14:17:34など)と、trees.J48と書いてある行が表
示されていると思いますので、その上で、マウスを右クリックしてください。
 メニューが出ますので、その中から、「Visualize tree」を選びます。
 そうすると、また、別ウィンドウでツリー構造が表示されます。

 ツリーの見方は、直感的に分かると思いますが、まず天候(outlook)で分
岐させ、晴れ(sunny)の場合は、湿度が75%以下の場合は開催、75%を超える
場合は開催されないという学習がなされます。同様に、曇りの場合は、必ず開
催、雨の場合、強風でなければ開催されるという結果が導き出されます。

 如何でしょうか?
 今回の例は、簡単なものですが、皆さんのビジネスにも応用出来そうな部分
があるかどうか、考えてみては如何でしょう。

===おまけ===
 先日、3/3に徳島県立工業センター主催の産業技術フォーラムで、『ビジネ
スに活かすデータマイニング』というテーマで、講演させて頂きました。

「なぜ、徳島からわざわざ仙台に?」

とも思ったのですが、ありがたく受けさせて頂きました。
 そのセミナーが終わった後、聞きに来ていた方から伺ったのですが、警察な
どでも交通事故での、事故原因なんかの分析を行っているようですね。
 最初は「相関無し!」とか出てきてしまっていたようですが、学生が面白が
って、色々やっているうちに、路面とタイヤの関係が、ある状態のときに事故
が多いみたいな結果を出したようです。
 やっぱり、データの分析って、経験とセンスがものをいうところもあるのか
もしれません。
 まずは、簡単なところから、面白がってやってみるというのも意外と効果が
あるのではないでしょうか?

 では(^_^)/"

★----------------------------------------------------------
  BIZine

【発行】オフィス エヌ・ビー・アイ
    代表 本田 秀行 (HONDA, Hideyuki)

 〒984-0825
 仙台市若林区古城1丁目5−5−801
 TEL/FAX : 050-7503-2489 / 022-781-1526

 E-Mail: info@office-nbi.com
 URL: http://www.office-nbi.com

  発行システム:『まぐまぐ!』 http://www.mag2.com/ 
  配信中止はこちら http://www.mag2.com/m/0000176018.html 
----------------------------------------------------------★
現在休刊中です
解除

規約に同意して

最近の記事

上へ戻る