跳到主要内容

简述YARN提交MR的流程 ?

参考答案:

YARN(Yet Another Resource Negotiator)是Hadoop集群的资源管理系统,它负责集群资源的分配和管理。在YARN上提交MapReduce(MR)任务时,需要经过一系列流程。以下是YARN提交MR任务的简要流程:

  1. Client提交作业

    • 当有任务开始时,Client(客户端)会向ResourceManager提交MR任务。
    • 提交的内容包括作业的配置信息、需要的资源量等。
  2. ResourceManager创建AppMaster

    • ResourceManager接收到Client提交的申请后,会选择一个相对空闲的NodeManager来创建AppMaster。
    • AppMaster是一个短进程,它的生命周期与MR任务紧密相关,当任务完成时,AppMaster也会结束。
  3. AppMaster申请资源

    • AppMaster启动后,会向ResourceManager申请运行Map和Reduce任务所需的资源。
    • 申请的资源包括内存、CPU等。
  4. ResourceManager分配资源

    • ResourceManager根据集群的资源情况和调度策略,为AppMaster分配所需的资源。
    • 这些资源可能分布在多个NodeManager上。
  5. NodeManager执行任务

    • 获得资源的NodeManager会下载并执行相应的任务。
    • 对于Map任务,NodeManager会读取输入数据,进行处理,并输出中间结果。
    • 对于Reduce任务,NodeManager会接收Map任务的输出,进行合并和排序,并输出最终结果。
  6. 任务执行与监控

    • 在任务执行过程中,AppMaster会持续监控任务的进度和状态。
    • 如果出现任务失败或资源不足等情况,AppMaster会向ResourceManager报告,并可能触发任务的重新调度或失败处理。
  7. 任务完成与结果收集

    • 当所有任务都执行完毕后,AppMaster会收集任务的输出结果,并通知Client任务已经完成。
    • Client可以从YARN集群中获取任务的执行结果。

通过以上流程,YARN能够实现对Hadoop集群中资源的统一管理和调度,确保MapReduce等计算框架能够高效、稳定地运行。同时,YARN的弹性资源分配机制也使得集群能够更好地应对不同规模和复杂度的计算任务。