来源:互联网 更新时间:2026-06-17 13:23
Grok服务动不动就崩?别慌,用supervisord来守护它,配置好autorestart、startsecs=15这些参数,就能自动拉起,还能防误判重启。国产系统的话,首选systemd,设置OOMScoreAdjust=-900,防止被OOM Kill。要是连root权限都没有,那就用Shell循环脚本兜底——总有一款适合你。

Grok模型服务跑到一半突然退出,推理请求直接挂掉,WebUI白屏,用户等半天没反应——这种场景谁遇到谁知道。这不是偶发,是大模型服务在内存压力、CUDA上下文异常或Python GC抖动下常见的稳定性缺口。
这一步操作起来很简单,把Grok启动命令交给supervisord就行,不需要改业务代码。
第一步:确认supervisord已安装并运行
执行sudo supervisorctl status,如果提示FATAL或Connection refused,那就先跑一下sudo supervisord -c /etc/supervisord.conf,让守护主进程起来。
第二步:在/etc/supervisord.d/目录下新建配置文件
执行sudo nano /etc/supervisord.d/grok-webui.conf,填入下面这些内容:
[program:grok-webui]
command=/root/grok-webui/start.sh
directory=/root/grok-webui
autostart=true
autorestart=true
startsecs=15
stopwaitsecs=30
stderr_logfile=/var/log/grok-webui.err
stdout_logfile=/var/log/grok-webui.out
user=root
environment=PATH="/usr/local/bin:/usr/bin",HOME="/root"
第三步:重载配置并启动
执行sudo supervisorctl reread && sudo supervisorctl update && sudo supervisorctl start grok-webui,服务会立刻拉起,进入监控状态。
第四步:验证崩溃自动恢复能力
手动杀死进程试试:sudo supervisorctl stop grok-webui → 等5秒 → 跑ps aux | grep start.sh,如果看到新进程PID变了,就说明自动拉起生效了。再用curl http://localhost:7860测一下接口,看看有没有恢复响应。
如果你用的是银河麒麟V10 SP1或统信UOS Server 20,systemd比supervisord更深度集成,还支持OOMScoreAdjust,能有效防止被OOM Killer优先干掉。
方法一:创建服务单元文件
执行sudo nano /etc/systemd/system/grok-webui.service,写入:
[Unit]
Description=Grok WebUI Service
After=network.target
StartLimitIntervalSec=0
[Service]
Type=simple
User=root
WorkingDirectory=/root/grok-webui
ExecStart=/root/grok-webui/start.sh
Restart=always
RestartSec=8
MemoryLimit=12G
OOMScoreAdjust=-900
KillMode=control-group
[Install]
WantedBy=multi-user.target
方法二:启用并启动服务
依次执行:sudo systemctl daemon-reload → sudo systemctl enable --now grok-webui.service → sudo systemctl status grok-webui.service,确认状态显示active (running),就搞定了。
如果只有普通用户权限,装不了supervisord也没法改systemd,那就用纯Shell脚本做一个最小闭环守护。
在/home/yourname/grok-guard.sh中写入:
#!/bin/bash
cd /home/yourname/grok-webui
while true; do
if ! pgrep -f "start.sh" > /dev/null; then
echo "$(date): Grok process missing, restarting..." >> /home/yourname/grok-guard.log
nohup ./start.sh > /dev/null 2>&1 &
fi
sleep 10
done
给执行权限:chmod +x /home/yourname/grok-guard.sh
后台启动守护:nohup /home/yourname/grok-guard.sh > /dev/null 2>&1 &
注意:这个脚本每10秒轮询一次进程是否存在,不依赖信号机制,所以没法感知“假死”(进程还在但无响应的情况),仅适合做基础保活。如果追求更精细的监控,建议还是用前两种方案。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
帅到极致的网名女生霸气(精选100个)
帅气继父网名女生可爱英文(精选100个)
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
蒙古上单是什么梗
韦一敏是什么梗
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
如何在夸克浏览器中开启网页视频的倍速播放功能?
抖音最火沙雕男生网名(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
作家助手如何上传自制封面 作家助手如何设置小说的封面
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
因空难被判“过失杀人罪” 空客、法航均被顶格处罚22.5万欧元
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc