アルケミストは考えた

アクセスカウンタ

zoom RSS ビッグデータ活用の本質、それは因果関係から相関関係へのマインドシフト!

<<   作成日時 : 2013/10/31 01:39   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

   スモールデータは因果関係である。
   ビッグデータは相関関係である。
   ビッグデータはデータマイニングを超えた。


 最近ビッグデータという言葉をよく耳にするようになったが、このビッグデータとは一体何だろう。直訳すると「大きなデータ」ということになり、これは想像を絶するようなとてつもなく大きな情報の塊のことである。このつかみどころのない情報の塊の中から有用な情報やルールを引き出し、ビジネスなどに利用していくことを総称して「ビッグデータ」と呼んでいる。コンピュータの演算速度の高速化、メモリーの大容量化、そしてソフトウエアやアルゴリズムの高度化により、今までは解析が不可能と考えられていた非常に膨大なデータから、利用できるデータやルールを取り出すことができるようになったことが「ビッグデータ」を可能にした。

 コンピュータ能力が貧弱であった時代には、目の前に有用な情報を含む情報の塊があっても、それを解析する手段には限りがあった。そこで、セカンドベストの方法として、因果関係の有無やその大きさを確認することにより、情報の塊より有用情報を引き出す手法で私たちは情報を利用してきた。AならばBであるはず、そしてBならばCであるはずと考え、人為的に抜き出した情報群がこのルールを満たすかの確認をし、条件を満たすものについては、さらにこのA→B→Cの関係を強化する条件を見つけ出し、それをビジネスへと利用していた。この方法における問題点は、A→B→Cの関係を想起するのが人間であるということである。感のいい人は適切な因果関係をすぐに見いだせるし、感の悪い人は適切な因果関係が見いだせたと思われた場合でもそれは偶然にそうなったのであって、実は因果関係に乏しいという場合も存在した。いままでは、人間の直感という芸術的な要素に頼って、情報の塊より有用な情報やルールを引き出していたわけである。

 ビッグデータでは事情は大きく異なる。人間の感が成果を大きく左右する因果関係による方法においては、データ(情報)の一部を恣意的に用いていたのみであるが、ビッグデータにおいてはすべての情報をコンピュータを用いて論理と力で解析することになる。ここに論理とは仕事で培われた常識のようなものであるが、解析が進むにつれてその論理に収まりきらない結果が多出することになる。人間が関与するのは、与えた条件と導かれる結果の相関関係を確認しながら、情報処理のための関係式を変化させていくことのみである。条件と結果の相関関係が高い場合、条件と結果の因果関係がはっきりしていればそれで人間は安心できるが、それがはっきりしていない場合にも、相関関係が高い以上、それが現実であると受け止めることになる。なにしろ、全世界にある、ありとあらゆるデータを解析し、その強い相関関係に至ったのであるから、これを否定することはできない。

 以上、「ビッグデータ」以前においては、コンピュータの貧弱な処理能力のために、処理したい情報の塊(データ)があってもそれを有効に処理することはできず、セカンドベストの方法として人間が作業仮説A→B→Cを想定し、その関係が強く成立するかを確認していた。このときには、この作業仮説が成り立ちそうかどうかの答えは得られたが、それ以外の仮説、たとえばD→Eなどについては触れられることなく通り過ぎることになった。一方、「ビッグデータ」においては、すべてのデータを処理することにより、AとBの関係は?、DとEの関係は?、とその相関関係を探ることが可能になる。相関関係が強い場合、なぜそうなっているかの説明が難しくても、それが現実世界で起こっていることである。現実にそうなっていることは、ビジネスへの応用も効きやすい。付け加えると、世の中のデータには事実誤認のものも含まれる。これらのデータも一緒に処理するのがビッグデータである。全ての情報が正しければ相関係数は1.000となるが、誤りを含むのでそうはならない。したがって、信頼できる答えは相関係数が1にできるだけ近いものということになる。

 すべての情報を利用するところがビッグデータが優れているところである。そして、このビッグデータからは相関関係に基づいて種々の有用情報やルールを得ることができる。ビッグデータのためのコンピュータ能力は、処理速度や容量にソフトウエアやアルゴリズムの高度化も加わり、その解析に十分な領域に入ってきた。しかし、ビッグデータにおいても人間の能力が問われることになる。ビッグデータでえられる成果物の成否を決めるのはやはり人間である。日本でもデータサイエンティストの養成が急務とされている。



参考:ビッグデータ(Wikipedia)

 ビッグデータ(英: big data)とは、市販されているデータベース管理ツールや従来のデータ処理アプリケーションで処理することが困難なほど巨大で複雑な データ集合の集積物を表す用語である。その技術的な課題には収集、取捨選択、保管、検索、共有、転送、解析、可視化が含まれる。大規模データ集合の傾向をつかむことは、関連データの1集合の分析から得られる付加的情報を、別の同じデータ量を持つ小規模データ集合と比較することにより行われ、「ビジネスの傾向の発見、研究の品質決定、疾病予防、 法的引用のリンク 、犯罪防止、リアルタイムの道路交通状況判断」との相関の発見が可能になる。

 IBMによるWikipediaの可視化イメージ 大きさはテラバイトで、ウィキペディアのテキストおよび画像は、ビッグデータの典型的な例である。

 2012年現在妥当な時間内に処理することが可能なデータ集合のサイズの制限は、エクサバイトのオーダーのデータである。科学者が大規模なデータ集合による制限に遭遇することは、しばしば発生し、その分野にはゲノミクス 、 気象学、コネクトミクス、複雑な物理シミュレーション、生物調査および環境調査が含まれる。同様の制限は インターネット検索、金融、ビジネスインフォマティクスにも影響を与える。 データ集合が増加するのは、情報収集モバイル装置、空間センサー技術(リモートセンシング)、ソフトウェアログ、カメラ、マイクロフォン、無線ID読取機、ワイヤレス・センサー・ネットワークの普及も1つの原因である。全世界での1人当たりの情報容量は1980年代以降40か月ごとに倍増し、2012年現在1日あたり毎日2.5京(2.5×1018)バイトのデータが作成された。大企業にとっての課題は、組織全体にまたがるビッグデータの主導権を誰が握るかということである。

 ビッグデータは、大部分のリレーショナルデータベース管理システム、デスクトップ統計可視化パッケージでは処理が困難であり、その代わり、「数十台、数百台、ときには数千台ものサーバ上で動く大規模並列化ソフトウェア」が必要になる。何を「ビッグデータ」と考えるかは、データ集合を管理する組織の能力と、扱うデータの領域において従来分析に用いられてきたアプリケーションの能力に依存する。数百ギガバイトのデータに初めて直面してデータ管理の選択肢について再検討を始めた組織もある。また数十、数百テラバイトのデータになって初めて真剣に検討が必要になった組織もある。


          ブログ一覧に戻る        ホームページ「アルケミストの小部屋」に戻る






 

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
ビッグデータ活用の本質、それは因果関係から相関関係へのマインドシフト! アルケミストは考えた/BIGLOBEウェブリブログ
文字サイズ:       閉じる