Hadoopクラスタ on AWSの俺々ベストプラクティス(2014年10月時点)

  • VPCを使って固定IPを振り、ホスト指定は基本的にIPで行う
  • DNS名はAWSデフォルトから変えない(逆引き対策)
  • クラスタ用にサブネットを切り、サブネット内は通信フリーにする(ポート開放の運用負荷軽減のため)
  • サブネット内にはVPNでアクセスできるようにする(管理系UIなど独自のポート番号を使うものが多いため)
  • VPC内にNTPサーバーを立て、全サーバーを同期する
  • AMIはHVMに対応したものを使う(t2.smallやr3.largeなどお得なインスタンスを使うため)
  • マーケットプレイス提供のAMIはルートボリューム以外としてマウントできない制限がかかっているので使わず、コミュニティAMIをカスタマイズして使う