Hadoopクラスタ on AWSの俺々ベストプラクティス(2014年10月時点)
- VPCを使って固定IPを振り、ホスト指定は基本的にIPで行う
- DNS名はAWSデフォルトから変えない(逆引き対策)
- クラスタ用にサブネットを切り、サブネット内は通信フリーにする(ポート開放の運用負荷軽減のため)
- サブネット内にはVPNでアクセスできるようにする(管理系UIなど独自のポート番号を使うものが多いため)
- VPC内にNTPサーバーを立て、全サーバーを同期する
- AMIはHVMに対応したものを使う(t2.smallやr3.largeなどお得なインスタンスを使うため)
- マーケットプレイス提供のAMIはルートボリューム以外としてマウントできない制限がかかっているので使わず、コミュニティAMIをカスタマイズして使う