测试 Token 吞吐速度

概述

OllaMan 包含内置的性能测量工具，可显示模型生成响应的速度。了解 token 吞吐量有助于评估模型效率并优化硬件设置。

查看 Token 速度

Token 速度在每次聊天交互期间自动测量。

开始聊天

导航到 Chat（聊天）页面并选择一个模型进行聊天。

聊天页面

发送消息

输入并发送任何消息给模型。响应越长越复杂，速度测量就越准确。

等待响应

当模型生成响应时，你会看到流式文本实时出现。

在状态栏查看速度

模型完成响应后，查看聊天界面的顶部状态栏。

你会看到 token 生成速度显示为：

每秒 Token 数（例如 "45.2 tokens/s"）
生成的总 token 数
响应时间

理解指标

每秒 Token 数

含义：模型每秒生成多少个 token（单词/单词片段）

典型范围：

5-15 tokens/s：慢，可能感觉卡顿（CPU 上的大型模型）
15-30 tokens/s：中等，大多数用途可接受
30-60 tokens/s：快，流畅体验
60+ tokens/s：非常快，出色的性能

影响速度的因素

模型大小

较大的模型（70B）比较小的模型（7B）慢

量化

较高量化（Q8_0）比较低量化（Q4_0）慢

硬件

GPU 加速提供比 CPU 快 10-100 倍的速度

上下文长度

较长的对话会减慢响应生成

系统负载

其他应用程序争夺资源会降低速度

提示复杂度

复杂请求可能比简单请求处理得慢

分享性能卡片

OllaMan 允许你创建漂亮的、可分享的性能卡片来展示你的模型速度。

生成响应

完成聊天交互以测量 token 速度（如上所述）。

点击速度显示

在顶部状态栏中，直接点击 token 速度数字。

查看性能卡片

将出现一个精美设计的性能卡片，显示：

模型名称和版本
Token 生成速度
生成的总 token 数
响应时间
系统信息（硬件）
可视化速度评级

截图

使用操作系统的截图工具捕获卡片：

macOS：⌘ + Shift + 4
Windows：Win + Shift + S
Linux：PrtSc 或截图工具

分享到社交媒体

将性能卡片分享到：

Twitter/X
Reddit（r/LocalLLaMA、r/ollama）
Discord 社区
GitHub 讨论
技术论坛

隐私说明

性能卡片仅显示：

模型名称和速度指标
不包含对话内容
不分享个人信息
你控制截图和分享的内容

基准测试你的设置

使用 token 速度测试来优化配置：

测试不同模型

选择测试提示

使用一致的提示进行公平比较：

"详细解释植物光合作用的工作原理。"

测试每个模型

向不同模型发送相同的提示并记录速度。

比较结果

创建比较表：

模型	大小	速度	质量
llama3.1:8b	4.7GB	42 t/s	良好
mistral:7b	4.1GB	48 t/s	良好
llama3.1:70b	40GB	8 t/s	优秀

测试量化级别

比较同一模型的不同量化：

安装多个版本（例如 llama3:8b-q4_0、llama3:8b-q8_0）
使用相同提示测试
评估速度与质量的权衡
选择最适合你需求的平衡

测试硬件配置

跟踪以下操作前后的速度：

GPU 驱动更新
RAM 升级
从 CPU 迁移到 GPU
系统优化

解读结果

什么是"好"的速度？

质量 vs. 速度

记住速度不是一切：

较慢的大型模型通常产生更好的结果
Q4_0 比 Q8_0 快，但质量可能较低
选择模型时考虑你的用例
有时为了更好的输出，多等一秒是值得的

优化建议

提高 Token 速度

硬件升级：

在 Ollama 中启用 GPU 加速
升级到专用 GPU（推荐 NVIDIA）
为更大的上下文窗口添加更多 RAM
使用 NVMe SSD 以更快地加载模型

软件优化：

在推理期间关闭不必要的应用程序
在质量允许的情况下使用较小的量化模型
保持合理的上下文窗口（避免很长的聊天）
更新 Ollama 到最新版本
定期更新 GPU 驱动程序

模型选择：

对简单任务使用较小的模型（7B 而不是 70B）
选择适当的量化（速度选 Q4_0，质量选 Q8_0）
测试不同的模型家族（Mistral 通常比 Llama 快）

故障排除

下一步

内存管理

了解如何监控和管理运行中的模型

聊天功能

探索更多聊天界面功能

性能问题

获取慢速模型和优化的帮助

模型大小

量化

硬件

上下文长度

系统负载

提示复杂度

阅读/理解

代码生成

创意写作

生产 API

速度未显示

极慢的速度 (<5 t/s)

性能卡片未出现

速度不一致

内存管理

聊天功能

性能问题

目录