andyguo-CSDN博客

专注移动互联，sns及各种socket游戏性能测试测试及调优，擅长tomcat、apache、jboss、mysql、sql server的部署及性能监控和分析 android自动化测试

原创大模型压缩三剑客：量化、剪枝与知识蒸馏全解析

量化是将模型参数从高精度浮点数（如 FP32）转换为低精度表示（如 FP16、INT8、INT4）的技术。📌 举例：原本每个参数用 4 字节（FP32），量化后仅需 0.5 字节（INT4），模型体积缩小 8 倍！剪枝通过识别并移除神经网络中“不重要”的连接或结构，使模型变得更稀疏、更轻量。🔍 研究表明：大模型中大量参数对最终输出影响微弱，可安全移除。让一个小型“学生模型”学习大型“教师模型”的输出行为，而不仅仅是学习原始标签。

2025-08-22 16:06:00 1070

原创三星 Galaxy 手机如何投屏到 Mac？最全教程来了！

Scrcpy 是一款开源、免费的 Android 投屏工具，可以将手机画面实时同步到电脑，支持鼠标操作、键盘输入、1080p 高质量投屏，延迟低，非常适合开发者和进阶用户。命令功能scrcpy默认投屏降分辨率和码率（提高流畅度）同时录制屏幕投屏时关闭手机屏幕投屏窗口置顶显示场景推荐方案开发调试✅ Scrcpy（USB 连接）无线远程协作✅ Scrcpy 无线模式零技术门槛用户教学演示✅ Scrcpy + 录屏通过本教程，你已经掌握了将三星 Galaxy 系列手机投屏到 Mac 的多种方法。

2025-07-26 09:47:37 1074

原创深入理解大语言模型生成参数：temperature、top\_k、top\_p 等全解析

理解并合理配置大语言模型的生成参数，是提升模型效果的第一步。无论你是做产品落地、研究开发，还是系统调优，掌握这些参数的含义与搭配技巧，都会让你的生成结果更可控、更高质。如果你想进一步探索 Prompt 工程、模型微调（如LoRA）、推理引擎优化（如vLLM、TGI），欢迎关注后续内容更新。如有实际模型或API使用问题，也欢迎留言交流，我们将持续补充常用模型（如ChatGLM、LLaMA、Baichuan、Claude 等）的参数使用实战案例。

2025-07-24 18:34:46 1071

原创语音识别的速度革命：从 Whisper 到 Whisper-CTranslate2，我经历了什么？

Whisper-CTranslate2革新语音识别技术，大幅降低硬件门槛并提升处理速度。该工具基于CTranslate2引擎优化OpenAI Whisper模型，使CPU处理1小时音频仅需5分钟，内存占用降低70%以上。性能测试显示，在普通CPU上其速度甚至超过原版GPU运行效果，而准确率损失仅0.2-0.3%。特别适合处理播客、会议录音等长音频场景，让语音识别从高端GPU需求变为普通电脑即可胜任的任务，为开发者和内容创作者提供了高效低成本的选择。

2025-07-13 06:38:58 427

原创大模型对比测试系统详解：基于FastChat的全面评估方案

FastChat是一个开源的LLM训练、服务和评估平台，由LMSYS组织开发维护。该系统不仅提供了完整的模型训练和部署功能，更重要的是构建了一套全面的模型评估体系。多模型支持：支持包括Vicuna、Llama、GPT、Claude等主流大语言模型分布式服务：提供Web UI和OpenAI兼容的RESTful API评估框架：集成了MT-Bench、Chatbot Arena等多种评估方法开源透明：所有代码和数据集都开源，确保评估过程的可重现性# 添加新模型支持示例# 注册模型配置。

2025-07-08 10:49:40 818

原创 RAG 与 KAG 深度解析：两种知识增强技术的架构、应用与对比

摘要： RAG（检索增强生成）和KAG（知识增强生成）是两种提升大语言模型性能的知识增强技术。RAG通过实时检索外部文本资源生成动态响应，适用于开放域问答和时效性任务；KAG则利用结构化知识图谱确保事实准确性，适合专业领域的实体问答。两者各有优势：RAG灵活性强但依赖检索质量，KAG准确性高但图谱构建成本大。实际应用中，二者可互补结合，形成混合系统。选择时需考虑任务需求、数据形式和可靠性要求。未来随着技术进步，两种方法可能进一步融合，为AI生成提供更强大的知识支持。

2025-07-05 21:42:41 995

原创大模型压测实战：如何评估你的LLM在高并发下的表现？

本文介绍了一套用于评估大语言模型(LLM)高并发性能的异步压测框架。该框架通过模拟不同并发请求，从吞吐量(QPS)、延迟(P99)、Token生成速度(TPS)和首Token响应时间(TTFT)等多个维度评估模型表现。文章详细解析了核心设计思路，包括Prompt加载器、异步请求处理、并发控制等模块的实现代码，并展示了实际压测结果数据。测试结果表明，随着并发量增加，模型响应延迟上升而TPS下降，但仍有余量可提升吞吐。未来计划扩展多模型对比、资源监控等功能，帮助团队更科学地优化LLM部署性能。

2025-07-04 09:33:44 883

原创 LLM微调评估先行：全面掌握 lm-eval 工具的实战与原理

LLM 微调流程常见如下：但真正高效的实践顺序应当是：原因是：选择容易评估的任务，如：选择评估成本可控、有现成数据或可收集的数据集，如：🔑 核心判断标准：任务是否可评估/易评估！评估流程包括：明确任务目标（分类 / 生成）选择合适指标：例如在 GSM8k 上：5. 有没有工具能帮我们评估？✅ 有！推荐使用：lm-evaluation-harness（简称 lm-eval）GitHub 地址：https://github.com/EleutherAI/lm-evaluation-harness特点：

2025-06-24 10:15:03 1209

原创用 SSE 构建轻量级实时推送系统：在大模型中的实战应用

摘要： Server-Sent Events（SSE）在单向实时通信场景中比WebSocket更简单高效，适用于通知推送、大模型流式输出等需求。SSE基于HTTP协议，实现轻量，支持自动重连。对比WebSocket，SSE在单向推送场景中优势明显，尤其在大模型的"边生成边返回"流式响应中表现突出。文章通过Node.js+OpenAI的实战案例，展示了SSE如何实现流式接口，并给出使用建议。SSE免去了WebSocket的复杂握手和状态维护，是快速实现AI聊天、实时日志等功能的性价比之选。

2025-06-24 09:52:05 785

原创大模型测评工具全面盘点：谁才是你的理想“打分员”？

大模型测评工具选型指南当前大模型评估面临公平性、准确性与效率的挑战，主流测评工具各有侧重：综合评估：商汤OpenCompass支持分布式多模型对比，适合企业级评测；性能优化：LMDeploy专注推理延迟/吞吐测试；代码能力：EvalPlus提供代码生成全流程验证；自动化评分：清华PrometheusEval利用LLM进行问答打分；工程部署：EvalScope擅长API并发测试。选型建议：研究机构推荐OpenCompass+lm-eval-harness组合，代码测试选EvalPlus，API场

2025-06-22 12:47:54 1000

原创 FastChat 对战评测

📌 项目地址：👉支持多模型部署；提供 Web UI 进行对话或对战评测（arena）；支持匿名 A/B 投票Elo 排名；可使用 OpenAI、LLaMA、ChatGLM、Mistral 等模型。然后配合投票界面批量比对。

2025-06-19 15:53:59 947

原创大规模模型及其推理框架的关系探讨

最近要针对大模型进行压力测试，才接触到了大模型推理框架 sglang、vllm，于是要抓紧给自己补补课。随着人工智能技术的不断进步，大规模模型（简称“大模型”）因其在自然语言处理、图像识别等领域的卓越表现而受到了广泛关注。这些模型通常拥有数以亿计甚至更多的参数，能够学习到更加复杂的数据特征和模式。然而，如何有效地部署并运行这些大模型成为了新的挑战。这时，大模型推理框架的作用就显得尤为重要了。

2025-06-17 09:53:30 339

原创 DeepSeek 大型 MoE 模型大规模部署压测学习

📌 摘要 LMSYS团队在96张H100 GPU上成功部署DeepSeek模型，采用预填充-解码拆分(PD Disaggregation)和专家并行(EP)技术，实现了52.3k输入token/s和22.3k输出token/s的高吞吐量，成本仅为官方API的1/5。关键技术包括：专家混合模型(MoE)的EP实现、多头潜在注意力(MLA)优化、DeepGEMM加速等。所有代码已开源，为大规模MoE模型部署提供了完整方案。测试建议采用SGLang框架结合DeepEP通信库，重点关注token吞吐量、专家调度效

2025-06-16 19:24:12 918

原创自动化盯盘神器：Python + ADB + OpenCV 实现股票信号识别与钉钉通知

需求：由于没时间盯盘，想写一个脚本能隔一段时间监控是否出了gs然后钉钉通知消息要实现这个功能，我们需要编写一个Python脚本，结合使用来控制手机、来进行图像识别，以及库来发送钉钉消息。这个任务比较复杂，需要一些前置准备工作。我会一步步详细地指导你完成。

2025-06-10 19:28:37 1205

原创使用Whisper本地部署实现香港版粤语+英语混合语音转文字方案

今天要一个非常好的朋友有个工作，就是要把医院医生诊断的说话记录转成文字，之前都是她本人一句一句的听，然后记录下来的，我想通过ai 来解决这个问题。据调研要实现这个功能，目前最强大且最方便的方案是使用 OpenAI 开发的模型。Whisper 在处理多种语言，甚至是同一句话中夹杂不同语言（例如英语和粤语混合）的场景下，表现非常出色。下面我将为你提供一个完整的、可运行的 Python 代码，并详细解释如何设置环境和使用它。

2025-06-10 09:20:22 1450 1

原创车路云一体化的优缺点及发展前景

车路云一体化是智能网联汽车发展的一个重要方向，它通过车辆、道路基础设施和云平台的深度融合，实现更安全、更高效的自动驾驶和交通管理。综上所述，车路云一体化在推动智能交通和自动驾驶发展方面具有巨大潜力，但同时也面临着技术、成本、法规和市场等多方面的挑战。

2024-08-27 09:11:23 788

原创智能驾驶学习笔记，第一天

简单地说，全局路径规划是基于相对固定的、先验的环境模型，规划出相对宏观的行驶路径，局部轨迹规划是基于动态的、实时的环境信息，规划出微观的、局部的行驶轨迹，有时也认为全局路径规划属于任务决策的一部分。感知，解决的是“当前处于什么环境”的问题，汽车通过各种传感器对外部环境进行数据采集，并对复杂的外部环境进行分析与理解，获取行驶环境的信息，包括静态的道路环境、交通设施，以及动态的车辆、行人等一切可以观察到的交通环境信息。：随着技术的进步和基础设施的完善，智能驾驶有望实现更广泛的应用和更高级的智能化水平。

2024-08-02 14:18:25 1288

原创 Mac 下 brew 切换为国内源

Homebrew 是一款自由及开放源代码的软件包管理系统，用以简化 macOS 和 linux 系统上的软件安装过程。它拥有安装、卸载、更新、查看、搜索等很多实用的功能，通过简单的一条指令，就可以实现包管理，十分方便快捷。提供 macOS 应用和大型二进制文件。Homebrew 预编译二进制软件包。Homebrew 核心软件仓库。代码语言：javascript。代码语言：javascript。代码语言：javascript。代码语言：javascript。Homebrew 源代码仓库。

2024-06-11 20:26:52 1282

原创 Linux定期清理nginx 日志

通过上述步骤，你可以在Linux系统上定期清理Nginx日志，确保日志文件不会占用过多磁盘空间。你可以选择手动编写脚本并使用cron定时任务，或者使用logrotate进行日志轮转和清理。

2024-05-28 14:36:55 1851

原创从新认识一下Linux的平均负载

一个简单的命令，一组简单的数据，有多少人知道他们的含义，他们的真正义呢，我相信你对前面的几列比较熟悉，它们分别是当前时间、系统运行时间以及正在登录用户数。而最后三个数字呢，依次则是过去 1 分钟、5 分钟、15 分钟的平均负载（Load Average）。？这个词对很多人来说，可能既熟悉又陌生，我们每天的工作中，也都会提到这个词，但你真正理解它背后的含义吗？简单来说，平均负载是指单位时间内，系统处于和的平均进程数，也就是，它和 CPU 使用率并没有直接关系。

2023-06-09 09:49:48 740

原创 ADAS HiL系统测试方案

ADAS利用安装在车上的各式各样传感器（毫米波雷达、激光雷达、单\双目摄像头以及卫星导航），在汽车行驶过程中随时来感应周围的环境，收集数据，进行静态、动态物体的辨识、侦测与追踪，并结合导航地图数据，进行系统的运算与分析，从而预先让驾驶者察觉到可能发生的危险，有效增加汽车驾驶的舒适性和安全性。（traffic jam assist，交通拥堵辅助），在车辆低速通过交通拥堵路段时，实时监测车辆前方及相邻车道行驶环境，并自动对车辆进行横向和纵向控制，其中部分功能的使用需经过驾驶员的确认。

2023-01-26 11:46:32 3041

转载 super-jacoco环境部署和使用--支持环境全量

superjacoco本身是滴滴开源出来的，但是不知道为什么，他们改造只支持了增量的覆盖率，反而把原有的全量覆盖率给搞没了~我咨询了一下开源组，貌似也没有给我这边答复，大概的意思就是，不支持全量覆盖~其实要改动的地方不多，就几行，如图~ 比较简单，也可以加一些其他判断，我就做了最简单的判断，传入的type为2的时候，做增量，其他都做全量~各位也可以按照需求改造。

2023-01-18 12:51:56 1704 2

转载 Jmeter + Grafana + InfluxDB 性能测试监控

阅读目录1. 安装InfluxDB2. 安装Grafana3. 配置Jmeter 序章前几天在群里看到大神们在讨论Jmeter + InfluxDB + Grafana监控。说起来Jmeter原生的监控确实太丑了。当年不断安慰自己说“丑一点没关系，只要能用，好用，就行了！”。但是内心并不是这样，做为一名测试人员，都有一颗精益求精的心。看到有东西可以替代那原生的监控数据，果断亲自动手...

2018-07-09 14:03:32 1024

原创图像识别在监控中的应用

在上一篇文章中我们分析了图像识别和传统ui自动化的区别，在今天这篇文章中我们一起学习一下图像识别在网站监控中的应用。在以往的监控中，我们对web项目中的监控有很多种，其中最常见的就是接口监控而且这种监控的收益最高，而且最容易发现问题。但是对于一个大型的网站系统来说，从服务端到前端展示有很多层：内网 VIP、CDN 等。但是接口的监控并不能准确地反应用户看到的前端页面状态，，比如：数据库层，数据异常...

2018-06-26 10:28:46 3981

原创图像识别在测试中的应用

提起ui自动化大家首先想到的就是基于控件的自动化，比如常见的xpath、id、css选择器等手段进行元素定位并进行结果判断。但是在实际应用中，无论是web端还是移动端，仍有很多时候需要根据页面内容、页面中的图像进行定位及判定，是这些手段所达不到的，这里我们来介绍一下关于图像识别在测试中的应用。在具体进行讲解之前先介绍一下图像识别在测试中能够想到的引用场景：l 测试过程中，通过对待测软件进行屏幕截...

2018-06-26 10:25:48 4139 1

原创 C代码覆盖率检查

最近在跟一个推荐系统引擎相关功能的测试，做过相关测试的同学应该知道引擎可是整套系统的核心，如果引擎系统挂了或者出现了严重bug对整个系统的影响可是无法估量的。所以为了保证引擎系统能够稳定的运行必须采用足够多的手段，所以测试中代码覆盖率可以作位一种测试是否全面的衡量标准。由于之前没有做过相关方面的工作，所以要从头开始研究，这里把最近学习的成果做一个简单的介绍。一、环境准备：我是直接在Ubuntu 下...

2018-02-22 16:42:41 2574

原创 Jmeter测试报告生成（jmete模板3）

1. 命令行模式将 jtl 文件转成测试图表注意：这种方式只适用于jmeter3.0以后的版本1.1 在测试的过程中将 jtl 转换成测试报告可以执行如下命令：jmeter -n -t test_request.jmx -l test_result.jtl -e -o /home/csmijo/resultReport参数说明：-n : 非GUI

2017-07-21 10:12:06 9511

原创击败Facebook Infer！360火线大起底

静态代码扫描领域风起云涌十余载，各个扫描工具拥趸众多，其中Facebook开源的Infer异军突起，独领风骚。然而360火线作为新的入场者凭什么能够击败Infer？是真有实力还是噱头吹捧？Facebook 开源静态分析工具InferInfer是 Facebook 旗下开源的静态分析工具，至今已在Github上获得6700+ Star。Infer可以扫描JAVA、Objective-C和 C/C++

2017-06-05 11:57:25 1753

转载 clumsy 能在 Windows 平台下人工造成不稳定的网络状况，方便你调试应用程序在极端网络状况下的表现。

简介利用封装 Winodws Filtering Platform 的WinDivert 库, clumsy 能实时的将系统接收和发出的网络数据包拦截下来，人工的造成延迟，掉包和篡改操作后再进行发送。无论你是要重现网络异常造成的程序错误，还是评估你的应用程序在不良网络状况下的表现，clumsy 都能让你在不需要额外添加代码的情况下，在系统层次帮你达到想要的效果：特色：下载即用，

2017-05-25 15:58:08 1697

转载会截图就会自动化测试——Sikuli，斯库真犀利

如果有一天，有人告诉你，仅仅靠截图就能实现自动化，你会相信么？没有什么不可能，威廉能结婚，美国干拉登，只要功夫深，铁杵磨成针。借助MIT的sukuli开源项目，我们能很容易的实现会截图就会自动化测试这个看似遥远而飘渺的传说技术。作为一个手工或者黑盒测试人员，有一项技能应该是必备的，那就是截图技能。好的bug截图会让开发人员一眼就能定位到bug所在，让他们很清晰直观的了解

2016-11-29 15:55:27 4792

原创基于图像识别测试手机浏览器打开网页首屏时间的方法

本文涉及性能测试技术，特别是涉及一种基于图像识别的测试手机网页首屏时间的方法，它可以应用在手机浏览器页面加载响应时间的的自动化测试或性能检测中。同时可以应用到其他android的apk的响应时间的测试中去随着智能手机等移动终端的发展，越来越多的用户开始通过手机等设备浏览网页，以获取用户所需的信息。用户使用手机访问网站是基于手机浏览器所获取的网页实现的。通常情况下，用户访问网站的页面

2016-05-26 17:39:34 10035

转载 Android性能优化案例研究(上)

这是Google的Android开发工程师Romain Guy刊登在个人Blog上的一篇文章。Romain Guy 作为Android图形渲染和系统优化的专家，是Android 4.1中的“黄油项目”开发者之一。这篇译文将分为上下两个部分，上部分将通过一个实际的例子来展示如何利用现有的工具来定位Android应用程序的性能瓶颈，下部分将提供一些有效的方法来解决性能问题。希望能给读者和开发者带来启发

2016-02-19 11:49:47 1943

原创 android 通过命令行启动Apk

Camera（照相机）的启动方法为：# am start -n com.android.camera/com.android.camera.Camera Browser（浏览器）的启动方法为：# am start -n com.android.browser/com.android.browser.BrowserActivity 启动浏览

2015-12-11 10:55:41 4313

原创 jenkins调用webdriver

jenkins调用python的webdriver，由于测试需要打开浏览器才行，但是用jenkins调用后，浏览器在后台看不到，所以需要解决问题：方案一：使用管理员权限执行 sc delete jenkins 删除 Windows service改用 java -jar jenkins.war,启动jenkins服务后，（有可能需要重新启动计算机后在command执行java

2015-10-23 16:30:57 3302 1

转载 android log 学习

一，Bug出现了，需要“干掉”它 bug一听挺吓人的，但是只要你懂了，android里的bug是很好解决的，因为android里提供了LOG机制，具体的底层代码，以后在来分析，只要你会看bug， android里应用开发也就很简单了。那我们先来看看android里的ANR，怎么出现ANR呢，很简单。 # adb shell # cd data/

2015-10-10 14:22:11 2166

转载 Monkey log异常分析说明

以下主要针对在Android-Phone项目中进行Monkey log进行分析和说明，可以对bug提交作为参考。要求熟悉，应用的包名。也就是说那个应用包出现问题，该属于那个模块，应用包名是判断依据。1、 Null指针异常空指针异常主要是有NullPointerException异常提示，在Monkey测试过程中，该信息一般记录在plog.log (locat中也有该信息)中

2015-10-10 10:22:18 2169 1

转载在命令行中使用Eclipse MAT工具

最近应用在测试中出现Out Of Memory的问题，通过jmap查看，发现JVM heap全用满了。有很多工具可以查看JVM堆的信息，收费的比如JProfiler， YourKit，免费的如Oracle JDK自带的visualvm, jhat和Eclipse MAT。这个应用安装在一台AWS上，没有图形界面，内存也比较小，想通过VNC远程桌面启动visualvm或者MAT

2015-10-09 16:24:19 4058

转载框架之minicap工具

minicap介绍从WEB 端批量移动设备管理控制工具 STF 的环境搭建和运行文章了解到STF这个工具，然后试用了一下。最近在做一个测试工具，发现Android原生的截图工具截图非常缓慢，然后想起了stf工具中截图非常快，甚至连执行monkey的动作都能在web端查看，这就很爽了，所以在github上提了一个Issue，询问这个是如何实现的，很快得到答复，stf自己写了一个工具叫mini

2015-09-14 11:36:09 6297

转载那些A/B测试教我们的App Store优化

苹果的App Store和Google的应用商店都分别有超过150万个app，海量的应用背后是海量移动用户的支持。根据com Score的“美国移动应用报告”，美国用户平均每个月最多下载3个新app。显而易见App Store中的竞争有多么激烈，独立开发者或许早已注意到，想要脱颖而出，仅仅创造卓越的产品是远远不够的。在App Store中的起起伏伏如

2015-09-07 09:56:51 2380

转载 WEB 端批量移动设备管理控制工具 STF 的环境搭建和运行

最近项目涉及到较多设备批量管理的需求，发现一工具，可以批量对大量设备进行WEB端管理，工具主页：https://openstf.github.io/工具名STF（Smartphone Test Farm）STF (or Smartphone Test Farm) is a web application for debugging smartphones, smartwatches

2015-07-30 10:37:32 19732