无需复杂配置,一条命令唤醒百亿级大模型! 作为AI领域的热门工具,Ollama让本地运行大模型变得像使用Docker一样简单。本文带你全面掌握Ollama核心命令,附实战示例!
基础命令:模型生命周期的掌控者
ollama run - 启动模型服务
ollama run <model_name>
启动指定模型并进入交互式命令行,适用于调试模型、快速测试模型能力。例如:
# 启动llama3模型聊天
ollama run llama3
>>> 你好!介绍一下你自己
如果本地无此模型,会自动从仓库下载后再启动。
ollama stop - 优雅停止模型
ollama stop
停止当前运行的所有模型服务,也可在交互界面按 Ctrl+D
直接退出,适用于释放GPU/内存资源。
ollama list - 查看模型仓库
ollama list
输出示例:
NAME ID SIZE MODIFIED
llama3:latest e5a7b3a1c7a2 4.7GB 2 days ago
qwen:32b c3d9f1a8b0e6 23GB 1 week ago
mistral:7b a8b2c4d6f0e1 13GB 3 hours ago
模型管理:像Docker一样操作AI模型
ollama pull - 下载模型
ollama pull <model_name>
从远程仓库下载模型到本地,适用于预下载模型避免实时等待。例如:
# 下载中文增强版千问32B模型
ollama pull qwen:32b
# 下载进度实时显示
pulling manifest...
pulling 00e1317cbf74... 100% ▕██████████████████▏ 4.1GB
ollama push - 分享自定义模型
ollama push <username/model_name>
推送本地模型到Ollama Hub(需注册账号),类比类似 docker push
推送镜像,适用于团队共享定制模型。流程:
- 在Ollama官网创建账号
- 本地登录:
ollama login
- 推送模型:
ollama push yourname/family-doctor
ollama create - 定制专属模型
ollama create <model_name> -f Modelfile
核心文件为Modelfile
(模型配置文件),示例Modelfile:
FROM qwen:32b # 基础模型
# 系统提示词 - 定义角色
SYSTEM """
你是一位资深英语老师,用温暖亲切的语气回答问题。
回答需包含专业学习建议,每次回复不超过100字。
"""
创建命令:
ollama create family-doctor -f ./Modelfile
运维监控:模型运行状态了如指掌
ollama ps - 查看运行中的模型
ollama ps
输出示例:
ID NAME SIZE CREATED STATUS
a1b2c3d4e5 llama3 4.7GB 5 minutes ago running
f6g7h8i9j0 qwen:32b 23GB 2 hours ago stopped
关键字段:
STATUS
:running(运行中)/stopped(已停止)SIZE
:显存占用(实际小于磁盘存储大小)
ollama show - 透视模型详情
ollama show <model_name>
显示模型元数据信息,示例:
ollama show qwen:32b
# 输出信息
Model: qwen:32b
Size: 23.4 GB
Digest: sha256:c3d9f1a8b0e6...
License: Apache 2.0
Parameters: 32 billion
Family: Qwen
特别关注Parameters
(参数量)判断模型能力边界。
高阶技巧:效率提升秘籍
模型复制 - 快速创建分支
ollama cp <source_model> <new_model_name>
适用于基于现有模型创建实验版本,示例:
# 复制llama3创建调试版本
ollama cp llama3:latest llama3-debug
# 修改调试版模型配置
vim Modelfile-debug
ollama create llama3-debug -f Modelfile-debug
组合命令 - 一键更新重启
# 停止->删除->拉取新版本->启动
ollama stop && \
ollama rm llama3 && \
ollama pull llama3:latest && \
ollama run llama3
适用于模型版本升级。
命令速查表(建议收藏!)
命令 | 作用 | 常用参数示例 |
---|---|---|
ollama run | 启动模型交互 | run llama3 |
ollama stop | 停止模型服务 | 无参数 |
ollama list | 列出本地模型 | 无参数 |
ollama pull | 下载模型 | pull mistral:7b |
ollama push | 推送模型到Hub | push yourname/model |
ollama create | 创建自定义模型 | create -f Modelfile |
ollama show | 显示模型详情 | show qwen:32b |
ollama ps | 查看运行中模型 | 无参数 |
ollama cp | 复制模型 | cp llama3 my-llama |
实战经验分享
内存优化技巧
运行超大模型时添加--num-gpu 50
参数:
ollama run qwen:32b --num-gpu 50
表示将50%的显存分配给模型,避免OOM(内存溢出)。
模型版本管理
类似Docker的tag机制,指定精确版本:
# 运行特定版本
ollama run llama3:8b-instruct-q4_1
# 拉取历史版本
ollama pull llama3:8b-instruct-q4_0
后台服务模式
结合nohup
实现后台运行:
nohup ollama run llama3 > chat.log 2>&1 &
日志将保存到chat.log
中。
遇到命令问题随时使用 ollama --help
查看帮助文档。掌握这些命令后,已能像运维Docker集群一样高效管理大模型工厂。