LogoOllaMan 文档

查看和卸载运行中的模型

监控活跃模型并释放内存资源

概述

当你在 OllaMan 中与模型交互时,模型会保持加载在内存中,以便在未来的对话中提供更快的响应。仪表盘允许你监控所有运行中的模型,并在需要时卸载它们以释放内存。


查看运行中的模型

打开仪表盘

点击侧边栏中的 Dashboard 进入概览页面。

找到运行中的模型区域

向下滚动找到 "运行中的模型" (Running Models)区域。此区域显示所有当前加载在内存中的模型。

运行中的模型区域

查看模型信息

对于每个运行中的模型,你可以看到:

  • 模型名称:完整的模型名称和标签(例如 llama3:8b
  • 量化级别:使用的压缩方法(例如 Q4_0、Q8_0)
  • 内存占用: 模型当前占用的显存(GPU)容量
  • 磁盘占用: 模型当前占用的磁盘空间
  • 过期时间:自动卸载倒计时(如果已启用)

卸载模型

当你需要为其他任务或模型释放内存时,可以手动卸载运行中的模型。

确定要卸载的模型

在**"运行中的模型"**区域,找到你想要卸载的模型。

点击卸载按钮

在模型卡片的右侧,点击 Unload 按钮。

卸载按钮位置

确认操作

模型将立即从内存中卸载。你会看到:

  • 模型从运行中的模型列表中消失
  • 内存使用统计数据更新
  • 出现确认消息

卸载后会发生什么?

  • 模型文件仍然安装在磁盘上
  • 你随时可以再次与它聊天
  • 需要时模型会被重新加载到内存中
  • 重新加载后的第一次响应可能需要几秒钟时间

理解内存使用

为什么模型保持加载状态

OllaMan 将模型保持在内存中以提供:

  • 更快的响应时间:后续查询无需重新加载
  • 更好的用户体验:即时继续对话
  • 高效的资源使用:基于活动的自动管理

何时应该卸载模型

在以下情况下考虑卸载模型:

  • 内存使用率高:系统可用内存不足
  • 切换任务:使用完模型且近期不会再用
  • 运行大型模型:需要为更大的模型释放空间
  • 故障排除:解决内存相关问题

自动卸载功能

Ollama 会在一段时间后自动卸载不活跃的模型(默认:5分钟)。倒计时显示每个模型何时会被自动卸载。


内存使用统计

仪表盘实时显示内存指标:

显存使用

显示当前正在使用的显存(GPU)容量

运行中的模型数量

当前加载在内存中的模型总数

每个模型的内存

每个已加载模型的预估内存消耗


快捷操作

从运行中的模型区域,你还可以:

开始聊天

点击任何运行中模型旁边的 Chat 按钮,即可立即开始对话,无需重新加载。

查看模型详情

点击模型卡片查看有关模型配置和功能的更详细信息。


故障排除


最佳实践

内存管理建议

  • 定期监控:在大量使用期间定期检查仪表盘
  • 使用后卸载:使用完大型模型后释放内存
  • 关闭聊天:关闭聊天窗口不会卸载模型——请使用卸载按钮
  • 提前规划:在加载非常大的模型之前卸载较小的模型

下一步