Easton Man's Channel
3 hours ago
Harry Chen’s Blog
6000 端口占用导致 SLURM 卡死诊断一例
Telegraph
|
source
(author: Shengqi Chen (
[email protected]
))
Telegraph
6000 端口占用导致 SLURM 卡死诊断一例
今天在组里的某个 GPU 集群上部署了一套 SLURM,方便多人使用。我本以为只是从已有集群复制配置、启动服务,十分钟之内就能搞定,没想到因为一个玄学的问题整整卡了一个多小时。 问题现象:各个节点上的 slurmctld、slurmd、slurmdbd 都能正常启动,然而只要试图提交任务,机器上的 slurmd 和派生的 slurmstepd 就会卡死(任务并没有开始运行),不再有任何响应(slurmctld 也无法联系它),只能靠 SIGKILL 杀死后重新启动。各个进程的日志中都看不出什么异常;能看…
Home
Powered by
BroadcastChannel
&
Sepia