Skip to content
共绩算力文档中心

队列管理操作指南

在 AI 训练或数据清洗场景中,当用户提交成千上万个并发计算任务(Job)时,极易引发底层集群的资源抢占、调度死锁或因配额不足导致的问题。

为此,引入队列管理概念的调度引擎。通过在平台层构建队列级别的任务管理,接管海量并发请求。系统将根据队列的并发限额,平滑、有序、限流地向底层物理集群发牌调度任务,彻底解决大规模并发下的资源抢占问题。

为了更好地使用队列调度功能,请您先了解以下四个核心实体与关键字段:

  • 独立任务 :不经过队列托管,直接下发至集群的单体任务。适合数量较少、需要立即请求全量资源的零散任务。

  • 队列:算力资源的管理池与限流器。队列本身拥有“全局并发上限”,负责统筹安排进入该池子内的所有任务。

  • 任务组:当您使用“队列模式”发任务时,这批任务会被打包成一个“任务组”。

    • 调度规则:同一个队列内的多个任务组将按先后顺序串行排队执行;
    • 并发规则:处于运行状态的任务组,其内部的子任务可以并发执行。
  • 子任务:归属于某个任务组内的任务实例(Job)。

  • 任务总完成数:指您本次发单期望系统为您执行的总任务数量。例如填写 100,系统就会在底层为您跑完 100 个子任务,也代表本任务组一共要完成 100 个子任务。
  • 任务组内并发节点上限:指在这个任务组内部,同一时间最多允许几个子任务处于“运行中”状态。通过此参数,您可以精准控制该批次任务的算力资源消耗速度。

进入左侧导航栏的 【队列管理】,点击右上角 【创建队列】。在弹窗中,您需要配置以下信息:

  • 队列名称:为您的队列命名(如:LLM-数据清洗高配池)。
  • 队列节点上限:设定该队列的全局承载力,即整个队列同时能跑多少个节点。
    • (请注意,一旦创建队列,该节点并发上限数值会占用平台全局的节点配额)

在队列大盘卡片上,您可以直观地看到队列的健康状态:

  • 状态:运行中(队列内有任务在跑)或 空闲中(队列内暂无任务)。
  • 实时统计:当前队列挂载的“任务组数”、正在消耗算力的“运行中任务总数”以及该队列产生的“总费用”等信息。

四、发布队列任务(提交任务组)

Section titled “四、发布队列任务(提交任务组)”

进入 【新增 Job 批处理】 页面,在【执行与调度策略】模块中,您将看到系统提供的两种模式。

我们强烈推荐您选择【队列任务】模式以获取最优的资源分配率:

  1. 投递目标队列:在下拉框中选择您刚刚创建的队列。
  2. 组内任务综述 (即任务总完成数):输入该任务组需要跑完的总任务量(如:10000)。
  3. 组内并发任务上限:输入您期望的并发度(如:50)。系统将保证这 10000 个任务中,时刻只有 50 个在跑,跑完一个补一个,直到全部完成。

💡 提示:提交成功后,您的这 50 任务将作为一个完整的“任务组”进入目标队列排队。

共绩云为您提供了 队列 -> 任务组 -> 子任务 的三级下钻深度管理视图。

任务组进度监控(全新多色进度条)

Section titled “任务组进度监控(全新多色进度条)”

点击某个队列进入【队列详情页】,看到“任务组列表”。

  • 进度条会实时渲染该任务组的执行水位。
  • 绿色 (运):正在执行中的子任务数。
  • 蓝色 (等):正在排队的子任务数。
  • 灰色 (停):已执行完毕或被停止的子任务数。
  • 状态说明:任务组的状态由其内部子任务的状态决定。若排在队列首位且有子任务在跑,即为 运行中;若在排队或等待资源,则为 等待中。
  • 批量删除:勾选列表左侧的复选框,可对历史废弃的任务组进行 批量删除 操作。

点击某个任务组,即可下钻至【任务组详情页】查看所有原子级的“子任务”。

  • 您可以通过顶部的 全部 / 运行中 / 等待中 / 已停止 选项卡快速过滤异常任务。
  • 对于卡死或配置错误的子任务,支持勾选后触发 批量停止
  • 点击任意子任务名称,即可进入终极的【任务详情页】,查看 K8s 底层日志、节点动态时间轴以及公网暴露端口。