Ask me what skills you need
What are you building?
Tell me what you're working on and I'll find the best agent skills for you.
Verl 分布式训练服务一键拉起与配置。触发场景:(1) 用户要启动 Verl 训练任务或部署 RLHF/DAPO 训练环境 (2) 在
在 NPU 集群上拉起 Verl 分布式训练服务,并灵活配置加速特性,支持 DAPO/GRPO 等 RLHF 算法。
1. 环境预检查 → 2. 用户交互 → 3. 配置确认 → 4. 镜像准备+容器拉起 → 5. SwanLab 配置 → 6. 生成双脚本 → 7. 复制+执行 → 8. 验证
执行以下 bash 命令自动探测机器环境:
# NPU 信息
npu-smi info
npu-smi info -t board 2>/dev/null
# Docker 和镜像
docker ps -a | grep verl
docker images | grep -E "verl|ascend"
# 模型权重
find /mnt/public /mnt2 /mnt/project -maxdepth 4 -type d -name "Qwen*" 2>/dev/null
# 数据集
find /mnt /mnt2 -name "*.parquet" 2>/dev/null | head -20
# 网卡和 IP
hostname -I
将检测结果记录,供阶段 2 使用。
通过 AskUserQuestion 分轮次收集,每轮提供预填值(来自阶段 1 检测结果)。
quay.io/ascend/verl:verl-8.3.rc1-910b-ubuntu22.04-py3.11-v0.7.0如果开启,逐项询问(提供默认值):
npx skills add ascend-ai-coding/awesome-ascend-skills --skill verl-feature-deployHow clear and easy to understand the SKILL.md instructions are, rated from 1 to 5.
Very clear and well structured, with almost no room for misunderstanding.
How directly an agent can act on the SKILL.md instructions, rated from 1 to 5.
Highly actionable with clear, concrete steps that an agent can follow directly.