大学、専門学校や企業などの研究室を訪問し、研究テーマや実験の様子をレポート
第28回 Part.1第28回 ビッグデータの新たな解析法を開発(1)
Part.1
データから新しい価値を創造する
データサイエンス
汪 金芳(ワン・ジンファン)教授
公開:
数年前から「ビッグデータ」という言葉がよく使われるようになった。このビッグデータの解析や活用のために、「データサイエンス」という新しい学問も登場している。そこで今回は、ビッグデータを解析する新たな手法を研究している横浜市立大学の汪金芳先生の研究室を訪ね、データサイエンスの意義や具体的な研究内容について話を伺った。(Part.1/全4回)
横浜市立大学のデータサイエンス学部は、2018年4月に開設されたばかりの新しい学部で、学科としてはデータサイエンス学科がある。文理融合型というのも特色の1つで、高校の理系出身者が8割、文系出身者が2割となっている。この4月からは大学院も開設されるなど、より本格的な教育・研究体制が整えられつつある。
「データサイエンス」という名称の付く学部は全国でもまだ数少ないが、どのような学部なのか。まず、そこから教えていただくことにした。
「データサイエンスという言葉は比較的新しいものですが、その背後には統計科学と計算機科学があります。日々生まれるさまざまなデータを統計科学や計算機科学の力を生かして解析し、社会に向けて新しい価値を創造するための新たな学問がデータサイエンスだといえるでしょう」
データを扱う学問としては、情報工学や情報科学などがあるが、そうした学問とはどこが違うのだろうか。
「情報工学など従来の学問とはデータに対するアプローチの仕方がかなり異なると思います。まず、データサイエンスでは、ビッグデータを扱うことが大きなポイントです。逆にいえば、ビッグデータというものが出てきて、これに対応するために、データサイエンスという新しい学問が必要になったという側面もあります。
統計科学と計算機科学を中心にしながら、それ以外にも、もともとは個別領域で研究していた学問を組み合わせて、ビッグデータなどの解析や活用方法を追究しているのです」
データサイエンス自体は新しい学問だというが、その考え方は1970年代からあったそうだ。
「アメリカの高名な統計学者ジョン・テューキーが『探索的データ解析(EDA)』ということを提唱しました。これは、データ解析は数学のための科学でもなければ応用数学でもなく、それ自体が新しい価値を創造するための新たな学問だ、という意味です。おそらく、当時は理解できる人がほとんどいなかったと思いますが、それが現実のものになったといえます」
データサイエンス力を
身につけた人材を育成
データサイエンス学部ではどのような人材を育てようとしているのかについても、話をうかがってみた。
「データを扱うので、基礎的数学、統計科学、計算機科学などについての専門的な知識が身につくようにしていきますが、コミュニケーション力も重視しています。コンピュータについては、リテラシーのレベルを超えて、プログラミングや機械学習などより専門性の高い内容も含みます。
これらを中心にデータサイエンス力(データアナリティクス力、データエンジニアリング力、社会展開力)を育て、ビジネスや行政の現場で、さまざまな問題を定式化し、解析して理解し、その結果を人々とコミュニケーションしながら意思決定にまでつなげられるような人材を育てたいと考えています。
ということで、データサイエンス力は、データアナリティクス力、データエンジニアリング力、社会展開力、という3つの力を有機的に結合した総合的能力です。万能名人はいませんので、チームワークが非常に重要です」
データサイエンスの重要なポイントにもなっているという「ビッグデータ」という言葉は、ここ数年、よく見聞きするようになったものだ。統計やコンピュータの世界では従来も大量のデータを扱っていたはずだが、ビッグデータはこれまでのデータとはどう違うのだろうか。
「ビッグデータは、従来のデータに比べて飛躍的に量が多いデータのことです。そういうデータが出てきたのは、センサーなどデータを読み取る技術が進化したためです。たとえば、クルマに付いているセンサーは周囲の状況や対象物との距離など膨大な量のデータを瞬時に読み取ることができるようになり、これが自動運転などの可能性を広げています。
インターネット上ではツイッターなどSNSで、世界中の人が画像を含めて情報を発信しています。これも膨大な量のデータですが、いまはそれをリアルタイムで取得することができます。
何らかのテーマについての特性や傾向などを調べるとき、これまでは無作為サンプリングによる電話調査などをしていました。しかし、いまでは、そのテーマに関するツイッター上の意見を瞬時に読み取り、傾向を分析することもできるようになってきています。
このように、ビッグデータは、その量、読み取るスピード、さらに質まで、これまでのデータと異なる面があるので、活用していく方法を開発するためにデータサイエンスという新しい学問が必要になってきたということができます」
ビッグデータの活用例は、自動運転、保険料の自動査定、自動翻訳、生活習慣病の予測、フェイク(偽)ニュースの自動検出など社会のあらゆるジャンルにおよび、地球規模では、国連が定めた持続可能な開発目標「SDGs」に貢献することにもつながっていくという。
《つづく》