查看和卸载运行中的模型
监控活跃模型并释放内存资源
概述
当你在 OllaMan 中与模型交互时,模型会保持加载在内存中,以便在未来的对话中提供更快的响应。仪表盘允许你监控所有运行中的模型,并在需要时卸载它们以释放内存。
查看运行中的模型
打开仪表盘
点击侧边栏中的 Dashboard 进入概览页面。
找到运行中的模型区域
向下滚动找到 "运行中的模型" (Running Models)区域。此区域显示所有当前加载在内存中的模型。

查看模型信息
对于每个运行中的模型,你可以看到:
- 模型名称:完整的模型名称和标签(例如
llama3:8b) - 量化级别:使用的压缩方法(例如 Q4_0、Q8_0)
- 内存占用: 模型当前占用的显存(GPU)容量
- 磁盘占用: 模型当前占用的磁盘空间
- 过期时间:自动卸载倒计时(如果已启用)
卸载模型
当你需要为其他任务或模型释放内存时,可以手动卸载运行中的模型。
确定要卸载的模型
在**"运行中的模型"**区域,找到你想要卸载的模型。
点击卸载按钮
在模型卡片的右侧,点击 Unload 按钮。

确认操作
模型将立即从内存中卸载。你会看到:
- 模型从运行中的模型列表中消失
- 内存使用统计数据更新
- 出现确认消息
卸载后会发生什么?
- 模型文件仍然安装在磁盘上
- 你随时可以再次与它聊天
- 需要时模型会被重新加载到内存中
- 重新加载后的第一次响应可能需要几秒钟时间
理解内存使用
为什么模型保持加载状态
OllaMan 将模型保持在内存中以提供:
- 更快的响应时间:后续查询无需重新加载
- 更好的用户体验:即时继续对话
- 高效的资源使用:基于活动的自动管理
何时应该卸载模型
在以下情况下考虑卸载模型:
- 内存使用率高:系统可用内存不足
- 切换任务:使用完模型且近期不会再用
- 运行大型模型:需要为更大的模型释放空间
- 故障排除:解决内存相关问题
自动卸载功能
Ollama 会在一段时间后自动卸载不活跃的模型(默认:5分钟)。倒计时显示每个模型何时会被自动卸载。
内存使用统计
仪表盘实时显示内存指标:
显存使用
显示当前正在使用的显存(GPU)容量
运行中的模型数量
当前加载在内存中的模型总数
每个模型的内存
每个已加载模型的预估内存消耗
快捷操作
从运行中的模型区域,你还可以:
开始聊天
点击任何运行中模型旁边的 Chat 按钮,即可立即开始对话,无需重新加载。
查看模型详情
点击模型卡片查看有关模型配置和功能的更详细信息。
故障排除
最佳实践
内存管理建议
- 定期监控:在大量使用期间定期检查仪表盘
- 使用后卸载:使用完大型模型后释放内存
- 关闭聊天:关闭聊天窗口不会卸载模型——请使用卸载按钮
- 提前规划:在加载非常大的模型之前卸载较小的模型
OllaMan 文档