LogoOllaMan 文档

安装在线模型

从在线模型库浏览和下载模型

概述

Discover(发现)页面提供了访问 Ollama 丰富在线模型库的途径,拥有 1000+ 预训练 AI 模型。你可以浏览、搜索并只需点击几下就能安装任何模型。


浏览模型库

打开发现页面

点击侧边栏中的 Discover(发现)访问在线模型库。

发现页面导航

浏览可用模型

你会看到模型卡片网格,显示:

  • 模型名称:官方模型标识符
  • 描述:模型的用途
  • 标签:模型类别和功能
  • 下载量:流行度指标
  • 最后更新:模型最近更新时间

搜索模型

使用顶部的搜索框过滤模型:

  • 输入模型名称(例如 "llama"、"mistral"、"codellama")
  • 按功能搜索(例如 "coding"、"chat"、"translation")
  • 按模型家族或创建者过滤

安装模型

选择模型

点击任意模型卡片打开其详情页面。

模型卡片

查看模型详情

在模型详情页面,你会找到:

  • 完整描述:关于模型功能的详细信息
  • 模型家族:相关模型和版本
  • 性能规格:上下文窗口大小、参数数量
  • 用例:推荐的应用场景

选择版本

滚动到 Versions(版本)部分。这里你会看到所有可用的参数规模:

常见版本大小:

  • 1B - 3B:小型、快速的模型,适合基础任务
  • 7B - 13B:中型模型,速度和质量平衡良好
  • 20B - 70B:大型模型,质量最高但需要更多资源

每个版本显示:

  • 参数规模:例如 1B、7B、70B
  • 上下文窗口:最大输入长度
  • 模型大小:所需磁盘空间
  • 量化:压缩方法(Q4_0、Q8_0 等)

点击 Pull 按钮

找到你想要的版本,点击其右侧的 Pull 按钮。

监控下载进度

下载管理器出现在右下角,显示:

  • 下载进度:完成百分比
  • 下载速度:当前传输速率(MB/s)
  • 大小信息:已下载 / 总大小
  • 预计时间:剩余时间

理解模型版本

参数规模

小型 (1B-3B)

  • 最快的推理速度
  • 最低的内存/磁盘使用
  • 适合简单任务
  • 可在任何硬件上运行

中型 (7B-13B)

  • 性能平衡
  • 资源使用合理
  • 适合大多数任务
  • 推荐给普通用户

大型 (20B-70B+)

  • 最佳输出质量
  • 最高资源需求
  • 复杂推理任务
  • 需要强大硬件

量化级别

量化在保持质量的同时减少模型大小:

  • Q8_0:最高质量,文件较大
  • Q6_K:优秀质量,良好压缩
  • Q5_K:大小和质量的绝佳平衡
  • Q4_0:较小尺寸,质量略低
  • Q3_K:压缩最多,准确度降低

选择哪种量化?

对于大多数用户,Q4_0Q5_K 提供了最佳平衡。如果你有充足的磁盘空间并想要最高质量,试试 Q8_0。


下载管理

多个下载

你可以同时下载多个模型:

  • 每个下载都显示在下载管理器中
  • 下载并行运行
  • 悬停在管理器上查看所有活跃下载

下载状态


安装后

下载完成后:

  1. 找到你的模型:前往 Installed(已安装)(本地模型)查看新模型
  2. 开始聊天:点击 Chat 按钮开始使用
  3. 查看仪表盘:在统计数据中查看模型

推荐模型

通用聊天

  • llama3.1:8b - Meta 最新版本,对话能力出色
  • mistral:7b - 快速且强大的通用模型
  • gemma2:9b - Google 的高效聊天模型

编程

  • codellama:13b - 专门用于代码生成
  • deepseek-coder:6.7b - 卓越的代码理解能力
  • starcoder2:7b - 多语言代码专家

创意写作

  • llama3.1:70b - 顶级创意输出(需要强大硬件)
  • mistral-nemo:12b - 出色的故事讲述能力
  • nous-hermes2:34b - 富有创意且连贯的叙述

故障排除


最佳实践

下载建议

  • 从小开始:在下载 70B 模型前先试试 7B 或 13B 版本
  • 检查磁盘空间:确保有模型大小 2 倍的可用空间
  • 使用 WiFi:大型下载可能消耗大量移动数据
  • 通夜下载:大型模型在较慢连接上可能需要数小时
  • 先测试后决定:先尝试较小版本以评估模型

下一步