はじめに

最近は機械学習という言葉、とくにDeepLearningなど耳にした方多いかと思います。

機械学習(Machine Learning)とは、沢山のデータから様々な手法、規則にを利用して解析を行い、ある特定の検知・分類・判定を行うような仕組みです。

機械学習は身近なところにも存在します。

  • あなたにおすすめの商品/こちらの商品を買った人はこちらの商品を買っています
  • 画像認識
  • 音声認識
  • スパムフィルタ
  • 異常値検知
  • チェス・将棋のAI

さらに、下記のような機械学習のクラウドサービスが出てきて個人でも容易に動かせるようになりました。

  • Azure Machine Learning
  • Amazon Machine Learning
これらのサービスのおかげで、物理的リソース(マシン)も実装リソース(機械学習部分の実装)も 昔では考えられないくらい簡単になり、手を出しやすい分野になりました。

ただ、実際に機械学習を動かすとなると、データはどうするんだという問題が発生すると思います。 (結構膨大なデータ量が必要になることが多いです。)

今回は機械学習のやり方はもうすでに沢山のサイトがあるので

  • 実際には膨大なデータ量が必要でサンプルの学習しかしたことがない
  • アイデアはあるけど、実際そうなるかわからない、試すにもデータ作成は面倒だ
  • データ作成が面倒だけど、オリジナルの機械学習をしてみたい
という方々に向けて、機械学習に使えそうなオープンデータ・研究目的に公開されているデータについてまとめてみました。
※ 2016/4/25 のまとめです。古いデータの可能性もありますのでご了承ください

オープンデータ・研究目的に公開されているデータ

Open DATA METI

経済産業省がオープンデータを実践するために設置した試験サイト。
Open DATA METI

  • 白書・統計などの公表データ
  • 報告書などの公表データ

各自治体(都道府県・市区町村)のオープンデータ

各自治体が公表しているオープンデータ。世界各国で、行政機関が保有する公共データを公開する流れが強くなっています。

クリエイティブ・コモンズ等の表記もあり、二次利用許可している場合もあります。

東京都オープンデータ
世田谷区オープンデータ
いわき市オープンデータ
静岡市オープンデータ

  • 病院の位置
  • 駐車場の位置
  • 他多数(サイト見てもらったほうが早いです)

病院とか駐車場の位置とか公開されていたり、機械学習以外でもなんか利用できそうな気分になります。

政府統計

国が行っている公的統計のさまざまな統計結果がみれます。
政府統計 e-Stat

国立情報学研究所

国立情報学研究所が情報学関連分野の研究者に提供しているデータです。

  • 基本的に研究目的でのみ利用可
  • 一部、研究機関に所属していないとNGも有るので注意

情報学研究データリポジトリ

  • Yahoo!知恵袋データ
  • 楽天市場の商品データ,レビューデータなど
  • ニコニコ動画コメント等データ
  • ニコニコ大百科データ
  • ホットペッパービューティーデータ
  • クックパッドデータセット・レシピデータ・献立データ
  • HOME’Sデータセット・賃貸物件データ,画像データ
  • 国文研データセット 古典籍データ(書誌,画像,タグ,本文テキスト)
  • NTCIRテストコレクション
  • 音声コーパス

企業・機関

東京メトロオープンデータ開発者サイト

  • データ詳細(東京メトロ全線の列車位置、遅延時間など)
  • 商業目的の利用は禁止
  • アプリ等への広告掲載、アプリ等内での課金は禁止する

nico-opendata

  • 利用目的は研究に限定
  • 静画メタデータ/静画データ
  • 学習済みニューラルネットワークモデル

Yahoo! Labs

  • 非商用、研究目的のデータセット 要研究機関所属
  • メタタグ付き写真・動画

IMAGENET

  • 非商用、研究者向けにのみデータを配布
  • メタタグ付き写真

まとめ

ここで紹介したサイト以外にもオープンデータ、公開データは沢山あります。
もちろんサービスを作るとなるとそのまま利用する訳にはいかないデータもありますが、まずは取っ掛かりとしてこの中から、興味がある分野のデータを元に機械学習を試してみるのはいかがでしょうか。