安卓机上 4G 内存跑 Alpaca,欢迎试用轻量级 LLM 模型推理框架 InferLLM

MegEngine 团队推出了 InferLLM,一个比 llama.cpp 更易用的本地部署框架,使大模型能在低端设备上运行。InferLLM 支持简化版的模型结构,优化了内存管理,可以在4G内存的手机上流畅运行量化后的 alpaca 7b 模型,适合学习、讨论及生产环境中的轻量化部署。项目提供多线程、SIMD、量化等加速方式,并计划支持更多模型格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从 LLM 火爆以来,社区已经出现了非常多优秀的模型,当然他们最大的特点就是体积大。最近为了让大模型可以在更低端的设备上运行,社区做了非常多的工作, gptq 实现了将模型进行低比特量化,因此降低了运行大模型对 CPU 内存、GPU 显存的要求,llama.cpp 实现了在本地 CPU/GPU 上就可以运行大模型,并且步骤非常简单,replit-code-v1-3b 用更小的模型实现了更智能的 code 生成。可以看到模型的小型化和轻量部署也是一个大模型的发展方向。

鉴于此,MegEngine 团队开发了 InferLLM 工程,主要目的有两个:

  • 提供一个比 llama.cpp 更简单、更容易上手的本地部署框架,供大家学习和讨论

  • 让 LLM 模型在本地或者端上部署成为可能,未来可以用在一些实际的生产环境中

相比 llama.cpp 工程,InferLLM 结构更简单,对一些通用组件进行了重构,避免将所有逻辑代码和 Kernel 代码放在一个文件中,避免在 Kernel 中引入过多的宏影响代码阅读和开发,llama.cpp 对于学习和二次开发不是很友好,InferLLM 也是主要借鉴 llama.cpp,如:使用 llama.cpp 的模型格式,以及 copy 了一些计算的 code,同时 InferLLM 对其进行了重构,使得代码更简单直接,非常容易上手,框架代码和 Kernel 代码分开,其实在大模型推理中,真正需要优化的 Kernel 是远远小于 CNN 的 Kernel 的。

另外 InferLLM 也可以用在生产中,因为它可以将 LLM 量化的模型在一个性能一般的手机上流畅的运行,可以流畅的进行人机对话

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值