测试 Token 吞吐速度
测量和分享模型性能指标
概述
OllaMan 包含内置的性能测量工具,可显示模型生成响应的速度。了解 token 吞吐量有助于评估模型效率并优化硬件设置。
查看 Token 速度
Token 速度在每次聊天交互期间自动测量。
开始聊天
导航到 Chat(聊天)页面并选择一个模型进行聊天。

发送消息
输入并发送任何消息给模型。响应越长越复杂,速度测量就越准确。
等待响应
当模型生成响应时,你会看到流式文本实时出现。
在状态栏查看速度
模型完成响应后,查看聊天界面的顶部状态栏。
你会看到 token 生成速度显示为:
- 每秒 Token 数(例如 "45.2 tokens/s")
- 生成的总 token 数
- 响应时间
理解指标
每秒 Token 数
含义:模型每秒生成多少个 token(单词/单词片段)
典型范围:
- 5-15 tokens/s:慢,可能感觉卡顿(CPU 上的大型模型)
- 15-30 tokens/s:中等,大多数用途可接受
- 30-60 tokens/s:快,流畅体验
- 60+ tokens/s:非常快,出色的性能
影响速度的因素
模型大小
较大的模型(70B)比较小的模型(7B)慢
量化
较高量化(Q8_0)比较低量化(Q4_0)慢
硬件
GPU 加速提供比 CPU 快 10-100 倍的速度
上下文长度
较长的对话会减慢响应生成
系统负载
其他应用程序争夺资源会降低速度
提示复杂度
复杂请求可能比简单请求处理得慢
分享性能卡片
OllaMan 允许你创建漂亮的、可分享的性能卡片来展示你的模型速度。
生成响应
完成聊天交互以测量 token 速度(如上所述)。
点击速度显示
在顶部状态栏中,直接点击 token 速度数字。

查看性能卡片
将出现一个精美设计的性能卡片,显示:
- 模型名称和版本
- Token 生成速度
- 生成的总 token 数
- 响应时间
- 系统信息(硬件)
- 可视化速度评级
截图
使用操作系统的截图工具捕获卡片:
- macOS:
⌘ + Shift + 4 - Windows:
Win + Shift + S - Linux:
PrtSc或截图工具
分享到社交媒体
将性能卡片分享到:
- Twitter/X
- Reddit(r/LocalLLaMA、r/ollama)
- Discord 社区
- GitHub 讨论
- 技术论坛
隐私说明
性能卡片仅显示:
- 模型名称和速度指标
- 不包含对话内容
- 不分享个人信息
- 你控制截图和分享的内容
基准测试你的设置
使用 token 速度测试来优化配置:
测试不同模型
选择测试提示
使用一致的提示进行公平比较:
"详细解释植物光合作用的工作原理。"测试每个模型
向不同模型发送相同的提示并记录速度。
比较结果
创建比较表:
| 模型 | 大小 | 速度 | 质量 |
|---|---|---|---|
| llama3.1:8b | 4.7GB | 42 t/s | 良好 |
| mistral:7b | 4.1GB | 48 t/s | 良好 |
| llama3.1:70b | 40GB | 8 t/s | 优秀 |
测试量化级别
比较同一模型的不同量化:
- 安装多个版本(例如
llama3:8b-q4_0、llama3:8b-q8_0) - 使用相同提示测试
- 评估速度与质量的权衡
- 选择最适合你需求的平衡
测试硬件配置
跟踪以下操作前后的速度:
- GPU 驱动更新
- RAM 升级
- 从 CPU 迁移到 GPU
- 系统优化
解读结果
什么是"好"的速度?
质量 vs. 速度
记住速度不是一切:
- 较慢的大型模型通常产生更好的结果
- Q4_0 比 Q8_0 快,但质量可能较低
- 选择模型时考虑你的用例
- 有时为了更好的输出,多等一秒是值得的
优化建议
提高 Token 速度
硬件升级:
- 在 Ollama 中启用 GPU 加速
- 升级到专用 GPU(推荐 NVIDIA)
- 为更大的上下文窗口添加更多 RAM
- 使用 NVMe SSD 以更快地加载模型
软件优化:
- 在推理期间关闭不必要的应用程序
- 在质量允许的情况下使用较小的量化模型
- 保持合理的上下文窗口(避免很长的聊天)
- 更新 Ollama 到最新版本
- 定期更新 GPU 驱动程序
模型选择:
- 对简单任务使用较小的模型(7B 而不是 70B)
- 选择适当的量化(速度选 Q4_0,质量选 Q8_0)
- 测试不同的模型家族(Mistral 通常比 Llama 快)
OllaMan 文档