読者です 読者をやめる 読者になる 読者になる

Amazon Elastic MapReduce(beta)

dev cloud

Amazonが新しいサービスを開始しました。
http://aws.amazon.com/elasticmapreduce/
EC2/S3上でHadoopベースのMapReduceインフラを提供するサービスです。今までもEC2上でHadoopを使うことはできましたが、

  • Log in to the AWS Management Console to start an Amazon Elastic MapReduce “job flow.” Simply choose the number and type of Amazon EC2 instances you want, specify the location of your data and/or application on Amazon S3, and then click the “Create Job Flow” button. Alternatively you can start a job flow by specifying the same information mentioned above via our Command Line Tools or APIs.
  • Monitor the progress of your job flow(s) directly from the AWS Management Console, Command Line Tools or APIs. And, after the job flow is done, retrieve the output from Amazon S3.

とあるように、WebベースのAWS Management ConsoleからJobを起動できたり、Jobの実行状況をモニターできるそうなので、MapReduceがより手軽に使えるようになりますね。
HadoopJavaで実装されていますが、Hadoop Streamingを経由することで任意のプログラム言語からアクセスすることができます。
冒頭に、

Using Amazon Elastic MapReduce, you can instantly provision as much or as little capacity as you like to perform data-intensive tasks for applications such as web indexing, data mining, log file analysis, machine learning, financial analysis, scientific simulation, and bioinformatics research.

とある通り、大量データを扱うCPU intensiveな処理にはいろいろと応用ができると思います。
丸山先生も「MapReduceは意外と適用範囲が広いのではないか」とおっしゃっていますが、このようなインフラが整備されることで敷居が低くなり、新しい知見がいろいろと得られる機会が増えるのではないかと思います。MapReduceHadoopは、ある意味「クラウドアーキテクチャ」「クラウドミドルウェア」と言える存在になりつつあると感じます。