llama.cpp的简单使用示例

星光银河

于 2025-06-05 17:22:48 发布

阅读量162

点赞数 4

CC 4.0 BY-SA版权

分类专栏：手搓人工智能文章标签： llama 人工智能算法深度学习

本文链接：https://blog.csdn.net/qq_43664407/article/details/148454972

手搓人工智能专栏收录该内容

5 篇文章

订阅专栏

先下载llama.cpp

git clone https://github.com/siminzheng/RAG-LangChain.git

然后安装以来：

pip install -r requirements.txt

将一个精度为fp16的huggingface格式模型转化为gguf格式模型：

python convert_hf_to_gguf.py /root/autodl-tmp/llama3/LLM-Research/Meta-Llama-3-8B-Instruct-merged --outtype q8_0 --verbose --outfile /root/autodl-tmp/llama3/LLM-Research/Meta-Llama-3-8B-Instruct-merged-gguf8.gguf

附录：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

星光银河

关注关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

[深入解读并实践：Llama.cpp 的安装与使用指南]

dqw41111d的博客

01-10

2406

Llama.cpp 是一个基于 C++ 的开源项目，旨在在设备本地运行 LLM 模型（如 LLaMA 2）。通过，我们可以在 Python 环境中调用 Llama.cpp 的功能。这种方法不仅避免了对 API 调用的依赖，还使得在隐私、安全性要求较高的场景中脱颖而出。支持多种硬件（CPU、GPU、Metal GPU 等）。高效支持多种量化格式的模型（如 GGML 和 GGUF）。易于集成到 LangChain 等 Python 工具链中。以下示例展示了如何通过grammar。

Llama.cpp运行流程

weixin_60146555的博客

11-07

1328

在极端情况下，温度为 0 将始终选择最可能的下一个 token，从而导致每次运行中产生相同的输出。top-k 的值越高（例如 100），考虑的词元越多，文本就越多样化，而值越低（例如 10），则侧重于最可能的词元，并生成更保守的文本。top-k 的值越高（例如 100），考虑的词元越多，文本就越多样化，而值越低（例如 10），则侧重于最可能的词元，并生成更保守的文本。在极端情况下，温度为 0 将始终选择最可能的下一个 token，从而导致每次运行中产生相同的输出。该选项有助于防止模型生成重复或单调的文本。

参与评论您还未登录，请先登录后发表或查看评论

Llama.cpp工具main使用手册

新缸中之脑

09-15

3027

Llama.cpp提供的 main工具允许你以简单有效的方式使用各种 LLaMA 语言模型。它专门设计用于与 llama.cpp 项目配合使用。推荐：用快速搭建可编程3D场景Llama.cpp的工具 main提供简单的 C/C++ 实现，具有可选的 4 位量化支持，可实现更快、更低的内存推理，并针对桌面 CPU 进行了优化。该程序可用于使用 LLaMA 模型执行各种推理任务，包括根据用户提供的提示生成文本以及使用反向提示进行类似聊天的交互。

大模型部署工具 llama.cpp 介绍与安装使用

youmaob的博客

04-07

1万+

另外一个是量化，量化是通过牺牲模型参数的精度，来换取模型的推理速度。llama.cpp 提供了大模型量化的工具，可以将模型参数从 32 位浮点数转换为 16 位浮点数，甚至是 8、4 位整数。训练的过程，实际上就是在寻找模型参数，使得模型的损失函数最小化，推理结果最优化的过程。训练完成之后，模型的参数就固定了，这时候就可以使用模型进行推理，对外提供服务。大模型时代，企业对人才的需求变了，AIGC相关岗位人才难求，薪资持续走高，AI运营薪资平均值约。llama.cpp 提供了模型量化的工具。

使用llama.cpp量化部署LLM

哦豁灬

05-05

5773

以llama.cpp工具为例，介绍模型量化并在本地部署的详细步骤。这里使用 Meta最新开源的 Llama3-8B 模型。

解锁 Llama.cpp 的潜力：使用 llama-cpp-python 进行本地化推理

adfyvatbia的博客

11-10

619

通过和LangChain的结合，开发者可以在本地高效实现LLM推理。这减少了对云端API的依赖，并提高了对模型执行的控制。

RAG 示例：使用 langchain、Redis、llama.cpp 构建一个 kubernetes 知识库问答

凌虚Blog

11-19

1097

RAG系统通过引入知识库，扩展了LLM对专业领域和实时信息的支持能力，使其在回答专业问题时更加准确高效。

使用llama.cpp 在推理MiniCPM-1.2B模型

CHNIM的博客

09-18

1208

llama.cpp是一个开源项目，它允许用户在C++中实现与LLaMA（Large Language Model Meta AI）模型的交互。LLaMA模型是由Meta Platforms开发的一种大型语言模型，虽然llama.cpp本身并不包含LLaMA模型的训练代码或模型权重，但它提供了一种方式来加载预先训练好的模型，并使用它们进行文本生成等任务。

Docker下使用llama.cpp部署带Function calling和Json Mode功能的Mistral 7B模型

shizidushu的博客

08-27

2576

Docker下使用llama.cpp部署带Function calling和Json Mode功能的Mistral 7B模型

一文熟悉新版llama.cpp使用并本地部署LLAMA

热门推荐

lovely_yoshino的博客

11-08

3万+

>关于UCloud(优刻得)旗下的compshare算力共享平台 UCloud(优刻得)是中国知名的中立云计算服务商，科创板上市，中国云计算第一股。 Compshare GPU算力平台隶属于UCloud，专注于提供高性价4090算力资源，配备独立IP，支持按时、按天、按月灵活计费，支持github、huggingface访问加速。 [https://www.compshare.cn/?ytag=GPU_lovelyyoshino_Lcsdn_csdn_display]

【学习笔记】：Ubuntu 22 使用模型量化工具llama.cpp部署大模型 CPU+GPU

qq_44305583的博客

03-13

6369

Ububtu22下模型量化工具llama.cpp及llama-cpp-python部署应用。

llama.cpp 编译和运行指南并支持CUDA

m0_49966129的博客

07-18

1784

让llama.cpp最好的适配你的机器并支持CUDA，你需要确保你的系统安装了CUDA，并在编译过程中启用CUDA支持。

大模型本地部署神器：llama.cpp使用介绍

2401_85390073的博客

03-29

2667

本节主要介绍什么是llama.cpp，以及llama.cpp、llama、ollama的区别。同时说明一下GGUF这种模型文件格式。llama.cpp是一个由Georgi Gerganov开发的高性能C++库，主要目标是在各种硬件上（本地和云端）以最少的设置和最先进的性能实现大型语言模型推理。主要特点：纯C/C++实现，没有任何依赖对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化。

Llama.cpp与Python的完美结合：快速入门指南

nseejrukjhad的博客

10-17

650

Llama.cpp为本地运行LLM提供了一种高效的方法，结合Python的灵活性，您可以轻松地在项目中实现复杂的文本生成任务。建议进一步阅读LLM概念指南以及如何优化模型性能的相关资源。

Llama.cpp大模型量化简明手册

新缸中之脑

06-04

5999

大型语言模型 (LLM)，尤其是像 Mixtral 8x7b（467 亿个参数）这样的大型模型，对内存的要求非常高。当你尝试降低推理成本、提高推理速度或在边缘设备上进行推理时，这种内存需求就会变得明显。解决此问题的一个潜在方法是量化。在本文中，我们将使用易于理解的类比来简化量化的概念，并提供在 LLM 中实现它的实用指南。LLM 虽然功能强大，但由于模型规模较大，因此会消耗大量资源。这对资源受限的设备上部署带来了挑战，并且会阻碍推理速度和效率。量化提供了一种解决方案，即在保持性能的同时降低模型参数的精度。

llama.cpp使用教程：大模型safetensors格式转gguf

Luo_Daimeng的博客

04-19

697

参考博客：https://blog.csdn.net/m0_73365120/article/details/141901884。

llama.cpp 源码解析

chumingqian的博客

11-07

1万+

0 前言1 代码结构&调用流程2 逐算子解析0 前言在上一篇文章，我们结合源码一起看了Meta开源的大语言模型llama 2的模型结构细节，并且还在B站录制了一个讲解视频方便大家理解，大家可以先回顾一下B站视频解析Llama2(B站 CodeLearner)而为了更好的了解llama 2在推理时的算子调用情况，以及大模型在实际推理时一些的瓶颈所在，所以本文继前文之后，选择了一个大模型推理框架llama.cpp 来进一步学习LLM的推理与部署。

大模型 Agent 是不是就是各种 Prompt 的堆叠？