検索ログの解析で問題となるのは処理に要する時間である。なにしろ、クックパッドは毎月900万人近いユーザーが利用するサービスだ。「たべみる」のサービスが対象とするのは、1年分の検索ログであり、そのデータ量は膨大になる。
7000時間を30時間にまで短縮
同社では、社内のデータベースサーバを利用して、この処理を実施した場合、7000時間はかかると見積もった。しかし、米AmazonのIaaS型のクラウドサービスであるEC2を活用し、50台のインスタンス(仮想マシン)を同時に立ち上げ、分散処理のフレームワークである「Hadoop」を利用したところ、わずか30時間で完了した。