在很多生产环境中,经常需要执行一些批处理任务来完成特定的任务。亚马逊AWS为批处理任务的执行设计了一套比较完备的体系架构,如下图所示:

     借助于AWS EC2、RDS、SimpleDB、S3、Auto Scaling、SQS等服务,可以轻松实现批处理任务的执行:

     1. 在该架构的最上层,是一个运行在EC2虚拟机上的任务管理节点,该节点主要有下列功能:接收用户请求,控制任务流程的启动,保存静态、动态数据以及任务信息,并且在特定的应用环境下还可能会直接控制底层的Worker服务器;

     2. 任务管理节点与底层Worker节点通过SQS的队列消息通信,任务管理节点接收到用户请求之后,就将任务信息发送到SQS的输入队列中,供Worker节点获取。采用队列的好处就是底层每个Worker节点都可以是独立的服务,并且管理节点和Worker节点松耦合,两者之间建立了一种异步接口调用关系;

     3. 任务管理节点将一些静态内容保存到S3上,其他一些批处理任务信息保存到SimpleDB中;

     4. 底层Worker节点同样部署在EC2虚拟机上,并且采用Auto Scaling对这些Worker虚拟机进行动态伸缩,以同时满足性能和预算要求,并且在某些批处理应用中Worker节点还可能需要从S3上获取到一些数据内容以便完成整个任务的处理;

     5. 每个Worker都是独立的服务节点,它们均从输入队列获取任务请求然后各自处理,处理完成之后将结果消息按照特定的格式发送到输出队列中,供后续流程使用,或者直接由任务管理节点进行处理;

     6. 这种架构非常适合批处理任务运行时间较长的应用,接口API均采用异步机制调用,并且能够自动伸缩,最大程度上满足性能要求并且又能在预算花费上进行权衡,各个模块之间的关系相对比较松散,非常便于部署。