Python 调试实战：从 “运行报错“ 到 “根源修复“ 的完整历程

最新推荐文章于 2025-08-23 20:28:56 发布

原创最新推荐文章于 2025-08-23 20:28:56 发布 · 672 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#python #算法 #开发语言 #可用性测试 #功能测试

软件工程导论-张海藩专栏收录该内容

10 篇文章

订阅专栏

作为 Python 开发者，我们经常会遇到这样的情况：代码看起来没问题，但运行起来就是报错；或者更糟的是，代码能运行但结果不对。本文将以一个真实的学生成绩统计系统为例，带你全程体验 Python 项目的问题定位过程，从最初的错误现象到最终的系统化修复，每一步都有具体代码和操作方法，让你掌握可直接复用的调试技巧。

一、项目背景与问题现象

项目介绍

这是一个简单的学生成绩统计系统，主要功能包括：

从 CSV 文件读取学生成绩
计算各科目平均分、最高分、最低分
统计各分数段（90+、80-89、70-79 等）的人数
生成成绩分析报告并保存为文本文件

问题反馈

用户报告说，当导入包含 100 名以上学生的成绩文件时，程序会偶尔崩溃；而且计算的数学平均分明显偏低，与手动计算结果不符。

初始代码结构

python

# score_analyzer.py
import csv
from collections import defaultdict

class ScoreAnalyzer:
    def __init__(self, file_path):
        self.file_path = file_path
        self.students = []  # 存储学生数据
        self.subjects = ["语文", "数学", "英语"]  # 科目列表
        
    def load_data(self):
        """从CSV文件加载成绩数据"""
        with open(self.file_path, 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f)
            for row in reader:
                student = {
                    "id": row["学号"],
                    "name": row["姓名"],
                    "scores": {}
                }
                for subject in self.subjects:
                    student["scores"][subject] = int(row[subject])
                self.students.append(student)
                
    def calculate_average(self, subject):
        """计算指定科目的平均分"""
        total = 0
        count = 0
        for student in self.students:
            total += student["scores"][subject]
            count += 1
        return total / count
    
    def calculate_extremes(self, subject):
        """计算指定科目的最高分和最低分"""
        scores = [s["scores"][subject] for s in self.students]
        return max(scores), min(scores)
    
    def count_score_ranges(self, subject):
        """统计各分数段的人数"""
        ranges = defaultdict(int)
        for student in self.students:
            score = student["scores"][subject]
            if score >= 90:
                ranges["90-100"] += 1
            elif score >= 80:
                ranges["80-89"] += 1
            elif score >= 70:
                ranges["70-79"] += 1
            elif score >= 60:
                ranges["60-69"] += 1
            else:
                ranges["0-59"] += 1
        return ranges
    
    def generate_report(self, output_file):
        """生成成绩分析报告"""
        with open(output_file, 'w', encoding='utf-8') as f:
            f.write("学生成绩分析报告\n")
            f.write("="*30 + "\n")
            
            for subject in self.subjects:
                f.write(f"\n{subject}成绩分析:\n")
                avg = self.calculate_average(subject)
                max_score, min_score = self.calculate_extremes(subject)
                ranges = self.count_score_ranges(subject)
                
                f.write(f"平均分: {avg:.1f}\n")
                f.write(f"最高分: {max_score}, 最低分: {min_score}\n")
                f.write("分数段分布:\n")
                for range_name, count in ranges.items():
                    f.write(f"  {range_name}: {count}人\n")

# 使用示例
if __name__ == "__main__":
    analyzer = ScoreAnalyzer("students_scores.csv")
    analyzer.load_data()
    analyzer.generate_report("report.txt")
    print("成绩分析报告已生成!")

二、第一步：复现问题，收集错误信息

复现崩溃问题

准备一个包含 150 名学生的 CSV 文件students_scores.csv
运行程序，发现偶尔会出现以下错误：

plaintext

Traceback (most recent call last):
  File "score_analyzer.py", line 88, in <module>
    analyzer.load_data()
  File "score_analyzer.py", line 23, in load_data
    student["scores"][subject] = int(row[subject])
ValueError: invalid literal for int() with base 10: '缺考'

但奇怪的是，这个错误并不总是出现，有时候程序能正常运行

复现平均分错误

选取数学科目，手动计算 10 名学生的成绩：85,92,78,90,88,76,95,82,89,79
手动计算平均分：(85+92+78+90+88+76+95+82+89+79)/10 = 85.4
程序计算结果却显示为 76.8，明显偏低

三、第二步：分层排查，锁定可疑点

排查崩溃问题

假设 1：文件读取逻辑有问题

查看load_data方法，发现代码假设所有成绩都是整数：

python

student["scores"][subject] = int(row[subject])

但错误信息显示有值为 ' 缺考 ' 的情况，这显然不能转换为整数。但为什么错误不是每次都出现？

检查 CSV 文件，发现只有部分学生有 ' 缺考 ' 记录，且分布随机，这解释了为什么错误偶尔出现。

验证假设

添加打印语句查看有问题的数据：

python

for subject in self.subjects:
    value = row[subject]
    try:
        student["scores"][subject] = int(value)
    except ValueError:
        print(f"警告：学生{row['学号']}的{subject}成绩'{value}'无法转换为整数")

运行后确实发现了包含 ' 缺考 '、' 作弊 ' 等非数字的成绩记录。

排查平均分错误

假设 1：计算逻辑有误

查看calculate_average方法：

python

def calculate_average(self, subject):
    """计算指定科目的平均分"""
    total = 0
    count = 0
    for student in self.students:
        total += student["scores"][subject]
        count += 1
    return total / count

这段代码看起来没问题，但结合前面发现的 ' 缺考 ' 情况，可能有些成绩被错误地处理为 0 分？

假设 2：数据加载时有错误转换

回到load_data方法，发现当遇到非数字成绩时，程序虽然崩溃，但如果有人之前 "修复" 过这个问题，可能会将非数字成绩强制转换为 0：

python

# 可能的错误修复方式
try:
    student["scores"][subject] = int(row[subject])
except ValueError:
    student["scores"][subject] = 0  # 错误的处理方式

这会导致缺考学生的成绩被计为 0 分，拉低平均分，这就解释了为什么程序计算的平均分偏低。

验证假设

在计算平均分前，先检查数据中是否有 0 分：

python

def calculate_average(self, subject):
    """计算指定科目的平均分"""
    total = 0
    count = 0
    zeros = 0  # 统计0分数量
    for student in self.students:
        score = student["scores"][subject]
        total += score
        count += 1
        if score == 0:
            zeros += 1
    print(f"{subject}有{zeros}个0分")  # 调试信息
    return total / count

运行后发现数学科目有 12 个 0 分，而这些学生在原始 CSV 中实际是 ' 缺考 '，证实了我们的假设。

四、第三步：分析根本原因

通过上述排查，我们发现两个问题的根本原因：

崩溃问题：
- 根本原因：程序没有处理非数字的成绩记录（如 ' 缺考 '、' 作弊 '）
- 直接原因：尝试将非数字字符串转换为整数导致ValueError
平均分错误：
- 根本原因：对异常成绩的处理逻辑错误，将 ' 缺考 ' 等情况错误地转换为 0 分
- 直接原因：计算平均分时包含了这些错误的 0 分，导致结果偏低

更深层次的问题：

数据模型设计不合理，没有考虑异常成绩情况
错误处理机制缺失，遇到异常数据时没有合适的应对策略
缺少数据验证步骤，没有在加载数据时检查数据有效性

五、第四步：系统化修复（避免头痛医头）

如果只是简单地修复表面问题（比如把 ' 缺考 ' 转换为 0 分并捕获异常），虽然能避免崩溃，但会导致平均分计算错误。我们需要系统化的修复方案：

1. 完善数据模型，支持异常成绩

python

class ScoreAnalyzer:
    def __init__(self, file_path):
        self.file_path = file_path
        self.students = []  # 存储学生数据
        self.subjects = ["语文", "数学", "英语"]  # 科目列表
        # 新增：记录异常成绩
        self.invalid_scores = []  # 存储无效成绩信息
        
    def load_data(self):
        """从CSV文件加载成绩数据，支持异常处理"""
        self.students = []
        self.invalid_scores = []
        
        with open(self.file_path, 'r', encoding='utf-8') as f:
            reader = csv.DictReader(f)
            for row_num, row in enumerate(reader, start=2):  # 行号从2开始(标题行是1)
                student = {
                    "id": row["学号"],
                    "name": row["姓名"],
                    "scores": {},
                    "absent": set()  # 记录缺考科目
                }
                
                for subject in self.subjects:
                    value = row[subject].strip()
                    # 处理缺考情况
                    if value in ["缺考", "未考", ""]:
                        student["absent"].add(subject)
                        student["scores"][subject] = None  # 用None表示缺考
                        continue
                        
                    # 处理其他异常情况
                    try:
                        student["scores"][subject] = int(value)
                        # 验证分数是否在合理范围
                        if not (0 <= student["scores"][subject] <= 100):
                            raise ValueError("分数超出范围")
                    except ValueError as e:
                        self.invalid_scores.append({
                            "row": row_num,
                            "student_id": row["学号"],
                            "student_name": row["姓名"],
                            "subject": subject,
                            "value": value,
                            "error": str(e)
                        })
                        student["scores"][subject] = None  # 标记为无效成绩
                        
                self.students.append(student)
                
        # 打印数据加载报告
        if self.invalid_scores:
            print(f"警告：发现{len(self.invalid_scores)}条无效成绩记录")
        else:
            print("数据加载完成，未发现无效成绩")

2. 修复平均分计算逻辑，排除异常成绩

python

def calculate_average(self, subject, exclude_invalid=True):
    """计算指定科目的平均分，可选择是否排除无效成绩"""
    total = 0
    count = 0
    
    for student in self.students:
        score = student["scores"][subject]
        
        # 如果排除无效成绩，且当前成绩无效，则跳过
        if exclude_invalid and score is None:
            continue
            
        # 如果不排除无效成绩，将无效成绩视为0分
        if score is None:
            score = 0
            
        total += score
        count += 1
    
    # 处理除数为0的情况
    if count == 0:
        return 0.0
        
    return total / count

3. 完善其他相关方法

python

def calculate_extremes(self, subject, exclude_invalid=True):
    """计算指定科目的最高分和最低分，可选择是否排除无效成绩"""
    scores = []
    for student in self.students:
        score = student["scores"][subject]
        if exclude_invalid and score is None:
            continue
        if score is not None:  # 只包含有效成绩
            scores.append(score)
    
    if not scores:  # 处理没有有效成绩的情况
        return (None, None)
        
    return max(scores), min(scores)

def count_score_ranges(self, subject, exclude_invalid=True):
    """统计各分数段的人数，可选择是否排除无效成绩"""
    ranges = defaultdict(int)
    # 新增：统计无效成绩数量
    ranges["无效/缺考"] = 0
    
    for student in self.students:
        score = student["scores"][subject]
        
        if score is None:
            ranges["无效/缺考"] += 1
            if exclude_invalid:
                continue
            else:
                # 如果不排除无效成绩，将其视为0分
                score = 0
                
        if score >= 90:
            ranges["90-100"] += 1
        elif score >= 80:
            ranges["80-89"] += 1
        elif score >= 70:
            ranges["70-79"] += 1
        elif score >= 60:
            ranges["60-69"] += 1
        else:
            ranges["0-59"] += 1
            
    return ranges

4. 增强报告生成，包含异常信息

python

def generate_report(self, output_file):
    """生成成绩分析报告，包含异常信息"""
    with open(output_file, 'w', encoding='utf-8') as f:
        f.write("学生成绩分析报告\n")
        f.write("="*30 + "\n")
        
        # 添加数据质量报告
        f.write("\n数据质量 summary:\n")
        f.write(f"总学生数: {len(self.students)}\n")
        f.write(f"无效/缺考记录数: {len(self.invalid_scores)}\n")
        
        for subject in self.subjects:
            f.write(f"\n{subject}成绩分析:\n")
            # 计算平均分，排除无效成绩
            avg = self.calculate_average(subject, exclude_invalid=True)
            # 同时计算包含无效成绩的平均分，作为参考
            avg_with_invalid = self.calculate_average(subject, exclude_invalid=False)
            
            max_score, min_score = self.calculate_extremes(subject)
            ranges = self.count_score_ranges(subject)
            
            f.write(f"平均分(排除无效成绩): {avg:.1f}\n")
            f.write(f"平均分(包含无效成绩): {avg_with_invalid:.1f}\n")
            f.write(f"最高分: {max_score if max_score is not None else '无'}, ")
            f.write(f"最低分: {min_score if min_score is not None else '无'}\n")
            f.write("分数段分布:\n")
            for range_name, count in ranges.items():
                f.write(f"  {range_name}: {count}人\n")
        
        # 添加无效成绩详情
        if self.invalid_scores:
            f.write("\n无效成绩详情:\n")
            for item in self.invalid_scores:
                f.write(f"  行{item['row']}: {item['student_name']}({item['student_id']})的{item['subject']}成绩'{item['value']}'无效 - {item['error']}\n")

5. 添加单元测试，防止问题复发

python

# 测试代码
import unittest
from unittest.mock import patch
import tempfile
import os

class TestScoreAnalyzer(unittest.TestCase):
    def setUp(self):
        # 创建临时测试文件
        self.temp_file = tempfile.NamedTemporaryFile(mode='w', delete=False, encoding='utf-8')
        self.temp_file.write("学号,姓名,语文,数学,英语\n")
        self.temp_file.write("1001,张三,85,92,78\n")
        self.temp_file.write("1002,李四,90,缺考,88\n")  # 包含缺考
        self.temp_file.write("1003,王五,76,作弊,95\n")  # 包含无效值
        self.temp_file.write("1004,赵六,82,89,105\n")  # 分数超出范围
        self.temp_file.close()
        
        self.analyzer = ScoreAnalyzer(self.temp_file.name)
        self.analyzer.load_data()
    
    def tearDown(self):
        # 删除临时文件
        os.unlink(self.temp_file.name)
    
    def test_average_calculation(self):
        # 数学有效成绩：92(张三)、89(赵六) → 平均分应为(92+89)/2 = 90.5
        math_avg = self.analyzer.calculate_average("数学")
        self.assertAlmostEqual(math_avg, 90.5, places=1)
    
    def test_invalid_scores_count(self):
        # 应有3条无效成绩记录：李四(数学)、王五(数学)、赵六(英语)
        self.assertEqual(len(self.analyzer.invalid_scores), 3)
    
    def test_score_ranges(self):
        chinese_ranges = self.analyzer.count_score_ranges("语文")
        # 语文有效成绩：85、90、76、82 → 80-89分有3人，70-79有1人
        self.assertEqual(chinese_ranges["80-89"], 3)
        self.assertEqual(chinese_ranges["70-79"], 1)

if __name__ == "__main__":
    unittest.main()

六、为什么这样修复是系统化的？

不仅仅解决当前问题：
- 不仅处理了 ' 缺考 ' 的情况，还考虑了所有可能的异常值
- 不仅修复了崩溃问题，还解决了平均分计算错误
- 添加了数据验证机制，从源头防止无效数据进入系统
保持数据的准确性：
- 用None明确标记无效成绩，而不是错误地转换为 0
- 提供两种平均分计算方式（包含 / 排除无效成绩），满足不同分析需求
- 在报告中明确标注无效成绩，提高数据透明度
增强系统的健壮性：
- 添加了异常处理机制，避免程序崩溃
- 增加了数据质量报告，帮助用户了解数据完整性
- 添加单元测试，确保未来修改不会破坏现有功能