队列管理操作指南
产品概述与核心优势
Section titled “产品概述与核心优势”在 AI 训练或数据清洗场景中,当用户提交成千上万个并发计算任务(Job)时,极易引发底层集群的资源抢占、调度死锁或因配额不足导致的问题。
为此,引入队列管理概念的调度引擎。通过在平台层构建队列级别的任务管理,接管海量并发请求。系统将根据队列的并发限额,平滑、有序、限流地向底层物理集群发牌调度任务,彻底解决大规模并发下的资源抢占问题。
二、核心概念解析
Section titled “二、核心概念解析”为了更好地使用队列调度功能,请您先了解以下四个核心实体与关键字段:
核心实体名词
Section titled “核心实体名词”-
独立任务 :不经过队列托管,直接下发至集群的单体任务。适合数量较少、需要立即请求全量资源的零散任务。
-
队列:算力资源的管理池与限流器。队列本身拥有“全局并发上限”,负责统筹安排进入该池子内的所有任务。
-
任务组:当您使用“队列模式”发任务时,这批任务会被打包成一个“任务组”。
- 调度规则:同一个队列内的多个任务组将按先后顺序串行排队执行;
- 并发规则:处于运行状态的任务组,其内部的子任务可以并发执行。
-
子任务:归属于某个任务组内的任务实例(Job)。
关键调度字段名词
Section titled “关键调度字段名词”- 任务总完成数:指您本次发单期望系统为您执行的总任务数量。例如填写 100,系统就会在底层为您跑完 100 个子任务,也代表本任务组一共要完成 100 个子任务。
- 任务组内并发节点上限:指在这个任务组内部,同一时间最多允许几个子任务处于“运行中”状态。通过此参数,您可以精准控制该批次任务的算力资源消耗速度。
三、创建与管理队列
Section titled “三、创建与管理队列”进入左侧导航栏的 【队列管理】,点击右上角 【创建队列】。在弹窗中,您需要配置以下信息:
- 队列名称:为您的队列命名(如:LLM-数据清洗高配池)。
- 队列节点上限:设定该队列的全局承载力,即整个队列同时能跑多少个节点。
- (请注意,一旦创建队列,该节点并发上限数值会占用平台全局的节点配额)
队列大盘监控
Section titled “队列大盘监控”在队列大盘卡片上,您可以直观地看到队列的健康状态:
- 状态:运行中(队列内有任务在跑)或 空闲中(队列内暂无任务)。
- 实时统计:当前队列挂载的“任务组数”、正在消耗算力的“运行中任务总数”以及该队列产生的“总费用”等信息。
四、发布队列任务(提交任务组)
Section titled “四、发布队列任务(提交任务组)”进入 【新增 Job 批处理】 页面,在【执行与调度策略】模块中,您将看到系统提供的两种模式。
我们强烈推荐您选择【队列任务】模式以获取最优的资源分配率:
- 投递目标队列:在下拉框中选择您刚刚创建的队列。
- 组内任务综述 (即任务总完成数):输入该任务组需要跑完的总任务量(如:10000)。
- 组内并发任务上限:输入您期望的并发度(如:50)。系统将保证这 10000 个任务中,时刻只有 50 个在跑,跑完一个补一个,直到全部完成。
💡 提示:提交成功后,您的这 50 任务将作为一个完整的“任务组”进入目标队列排队。
五、多维度的任务监控与管理
Section titled “五、多维度的任务监控与管理”共绩云为您提供了 队列 -> 任务组 -> 子任务 的三级下钻深度管理视图。
任务组进度监控(全新多色进度条)
Section titled “任务组进度监控(全新多色进度条)”
点击某个队列进入【队列详情页】,看到“任务组列表”。
- 进度条会实时渲染该任务组的执行水位。
- 绿色 (运):正在执行中的子任务数。
- 蓝色 (等):正在排队的子任务数。
- 灰色 (停):已执行完毕或被停止的子任务数。
任务组状态管控
Section titled “任务组状态管控”- 状态说明:任务组的状态由其内部子任务的状态决定。若排在队列首位且有子任务在跑,即为 运行中;若在排队或等待资源,则为 等待中。
- 批量删除:勾选列表左侧的复选框,可对历史废弃的任务组进行 批量删除 操作。
子任务精准启停
Section titled “子任务精准启停”
点击某个任务组,即可下钻至【任务组详情页】查看所有原子级的“子任务”。
- 您可以通过顶部的 全部 / 运行中 / 等待中 / 已停止 选项卡快速过滤异常任务。
- 对于卡死或配置错误的子任务,支持勾选后触发 批量停止。
- 点击任意子任务名称,即可进入终极的【任务详情页】,查看 K8s 底层日志、节点动态时间轴以及公网暴露端口。