【YOLOv5模型部署】——TensorRT推理引擎安装与使用&基于Flask的项目部署

最新推荐文章于 2025-06-09 14:16:05 发布

柯宝最帅

最新推荐文章于 2025-06-09 14:16:05 发布

阅读量2.2k

点赞数 25

CC 4.0 BY-SA版权

文章标签： YOLO

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51658186/article/details/137753126

声明：笔记是做项目时根据B站博主视频学习时自己编写，请勿随意转载！

温馨提示：对于我的电脑没有Nvidia的独显，只有Intel的集显，最后导出时无法识别Nvidia显卡设备！！就没成功！！ 如果你的torch与我一样之前安装的CPU版本，那么很可能最后与我一样！

一、模型部署概述

算法要落地到实际应用，这就叫模型部署！

模型部署是将训练好的机器学习或深度学习模型集成到实际应用中，使其能够对外提供服务的过程。只有将模型部署到实际应用中，才能发挥其作用，为企业或个人带来实际效益。

主要包括在线部署和离线部署两种。

在线部署：是指将训练好的模型直接部署到实时应用场景中，以实时处理和预测数据。其主要优势在于实时性和高效性。其算法原理是将训练好的模型加载到内存中，然后通过输入数据流进行处理和预测。

具体步骤：①加载训练好的模型文件、②将输入数据流转换为模型所需的格式、③通过模型进行处理和预测，④输出预测结果。

离线部署：则是将训练好的模型部署到非实时应用场景中，以批量处理和预测数据。它的主要优势在于数据安全和计算资源利用率。离线部署的算法原理是将训练好的模型保存到磁盘中，然后通过批量输入数据进行处理和预测。

具体步骤包括：①训练好的模型保存到磁盘中、②将批量输入数据加载到内存中、③通过模型进行处理和预测，④将预测结果保存到磁盘中。

大模型和小模型的部署方式区别：

大模型通常参数较多、层数较深，因此具有更强的表达能力和更高的准确度。但是，这也意味着大模型需要更多的计算资源和时间来训练和推理。在部署大模型时，往往需要考虑到服务器的性能、内存和存储等要求。

常见的部署方式包括将模型部署为Web服务，或者将模型打包成Docker镜像后部署到云服务器上。这些方式可以充分利用云端的强大计算资源，满足大模型对性能的需求。

小模型通常参数较少、层数较浅，具有轻量级、高效率、易于部署等优点。这些模型适用于数据量较小、计算资源有限的场景，例如移动端应用、嵌入式设备等。

在部署小模型时，可以考虑将模型直接部署到这些设备上，或者使用一些轻量级的框架来实现。这样既可以节省计算资源，又可以实现快速响应和实时处理。

训练框架和推理引擎的不同角色：

训练框架主要用于模型的训练阶段，它提供了构建、训练和验证机器学习模型的工具和方法。训练框架通常包含了大量的优化算法和技巧，以及丰富的数据处理和模型调优功能，帮助研究人员和开发者更高效地训练出高质量的模型。
当模型训练完成后，需要将其部署到实际应用中进行推理时，就需要使用推理引擎了。

推理引擎是实施问题求解的核心执行机构，它主要负责在设备端高效地运行模型，进行前向推理。与训练框架相比，推理引擎更关注于模型的执行效率和性能优化，以满足实际应用中对于实时性、准确性和资源消耗等方面的要求。

二、TensorRT推理引擎

TensorRT是NVIDIA开发的一种高性能深度学习推理优化器和运行时加速库（引擎），主要用于加速深度学习应用在生产环境中的部署。

目标是为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可以支持TensorF

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

柯宝最帅 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。