LogoOllaMan 文档

测试 Token 吞吐速度

测量和分享模型性能指标

概述

OllaMan 包含内置的性能测量工具,可显示模型生成响应的速度。了解 token 吞吐量有助于评估模型效率并优化硬件设置。


查看 Token 速度

Token 速度在每次聊天交互期间自动测量。

开始聊天

导航到 Chat(聊天)页面并选择一个模型进行聊天。

聊天页面

发送消息

输入并发送任何消息给模型。响应越长越复杂,速度测量就越准确。

等待响应

当模型生成响应时,你会看到流式文本实时出现。

在状态栏查看速度

模型完成响应后,查看聊天界面的顶部状态栏

你会看到 token 生成速度显示为:

  • 每秒 Token 数(例如 "45.2 tokens/s")
  • 生成的总 token 数
  • 响应时间

理解指标

每秒 Token 数

含义:模型每秒生成多少个 token(单词/单词片段)

典型范围

  • 5-15 tokens/s:慢,可能感觉卡顿(CPU 上的大型模型)
  • 15-30 tokens/s:中等,大多数用途可接受
  • 30-60 tokens/s:快,流畅体验
  • 60+ tokens/s:非常快,出色的性能

影响速度的因素

模型大小

较大的模型(70B)比较小的模型(7B)慢

量化

较高量化(Q8_0)比较低量化(Q4_0)慢

硬件

GPU 加速提供比 CPU 快 10-100 倍的速度

上下文长度

较长的对话会减慢响应生成

系统负载

其他应用程序争夺资源会降低速度

提示复杂度

复杂请求可能比简单请求处理得慢


分享性能卡片

OllaMan 允许你创建漂亮的、可分享的性能卡片来展示你的模型速度。

生成响应

完成聊天交互以测量 token 速度(如上所述)。

点击速度显示

在顶部状态栏中,直接点击 token 速度数字

点击速度

查看性能卡片

将出现一个精美设计的性能卡片,显示:

  • 模型名称和版本
  • Token 生成速度
  • 生成的总 token 数
  • 响应时间
  • 系统信息(硬件)
  • 可视化速度评级

截图

使用操作系统的截图工具捕获卡片:

  • macOS⌘ + Shift + 4
  • WindowsWin + Shift + S
  • LinuxPrtSc 或截图工具

分享到社交媒体

将性能卡片分享到:

  • Twitter/X
  • Reddit(r/LocalLLaMA、r/ollama)
  • Discord 社区
  • GitHub 讨论
  • 技术论坛

隐私说明

性能卡片仅显示:

  • 模型名称和速度指标
  • 不包含对话内容
  • 不分享个人信息
  • 你控制截图和分享的内容

基准测试你的设置

使用 token 速度测试来优化配置:

测试不同模型

选择测试提示

使用一致的提示进行公平比较:

"详细解释植物光合作用的工作原理。"

测试每个模型

向不同模型发送相同的提示并记录速度。

比较结果

创建比较表:

模型大小速度质量
llama3.1:8b4.7GB42 t/s良好
mistral:7b4.1GB48 t/s良好
llama3.1:70b40GB8 t/s优秀

测试量化级别

比较同一模型的不同量化:

  1. 安装多个版本(例如 llama3:8b-q4_0llama3:8b-q8_0
  2. 使用相同提示测试
  3. 评估速度与质量的权衡
  4. 选择最适合你需求的平衡

测试硬件配置

跟踪以下操作前后的速度:

  • GPU 驱动更新
  • RAM 升级
  • 从 CPU 迁移到 GPU
  • 系统优化

解读结果

什么是"好"的速度?

质量 vs. 速度

记住速度不是一切:

  • 较慢的大型模型通常产生更好的结果
  • Q4_0 比 Q8_0 快,但质量可能较低
  • 选择模型时考虑你的用例
  • 有时为了更好的输出,多等一秒是值得的

优化建议

提高 Token 速度

硬件升级

  • 在 Ollama 中启用 GPU 加速
  • 升级到专用 GPU(推荐 NVIDIA)
  • 为更大的上下文窗口添加更多 RAM
  • 使用 NVMe SSD 以更快地加载模型

软件优化

  • 在推理期间关闭不必要的应用程序
  • 在质量允许的情况下使用较小的量化模型
  • 保持合理的上下文窗口(避免很长的聊天)
  • 更新 Ollama 到最新版本
  • 定期更新 GPU 驱动程序

模型选择

  • 对简单任务使用较小的模型(7B 而不是 70B)
  • 选择适当的量化(速度选 Q4_0,质量选 Q8_0)
  • 测试不同的模型家族(Mistral 通常比 Llama 快)

故障排除


下一步