import os from docx import Document from openpyxl import Workbook from openpyxl.styles import Alignment from openpyxl.utils import get_column_letter def get_merged_regions(table): """获取表格所有合并区域信息""" merged = [] for merge in table._tbl.xpath('.//w:gridSpan | .//w:vMerge'): cell = merge.getparent().getparent() row_idx = int(cell.xpath('count(ancestor::w:tr/preceding-sibling::w:tr)')) col_idx = int(cell.xpath('count(preceding-sibling::w:tc)')) # 处理水平合并 if 'gridSpan' in merge.tag: colspan = int(merge.get('{http://schemas.openxmlformats.org/wordprocessingml/2006/main}val', 1)) merged.append(('h', row_idx, col_idx, colspan)) # 处理垂直合并 elif 'vMerge' in merge.tag: if merge.get('{http://schemas.openxmlformats.org/wordprocessingml/2006/main}val') != 'continue': rowspan = 1 next_row = row_idx + 1 while next_row < len(table.rows): next_cell = table.cell(next_row, col_idx)._tc if next_cell.xpath('.//w:vMerge'): v_merge_val = next_cell.xpath('.//w:vMerge')[0].get( '{http://schemas.openxmlformats.org/wordprocessingml/2006/main}val') if v_merge_val == 'continue': rowspan += 1 next_row += 1 else: break else: break merged.append(('v', row_idx, col_idx, rowspan)) return merged def get_table_data_range(table, start_text, end_text): """获取表格中从start_text到end_text之间的数据范围""" start_row = None end_row = None for row_idx, row in enumerate(table.rows): for cell in row.cells: if start_text in cell.text: start_row = row_idx if end_text in cell.text: end_row = row_idx if start_row is not None and end_row is not None: break return start_row, end_row def convert_table_to_excel(table, ws, start_row=None, end_row=None): """将Word表格转换为Excel工作表（保留合并和样式）""" # 确定处理的行范围 if start_row is None: start_row = 0 if end_row is None: end_row = len(table.rows) # 获取合并区域信息 merged_regions = get_merged_regions(table) # 创建数据矩阵，处理合并单元格的值 data_matrix = [] last_values = {} # 跟踪每列的最后一个非空值，处理合并单元格 for row_idx, row in enumerate(table.rows[start_row:end_row]): original_row_idx = start_row + row_idx row_data = [] for col_idx, cell in enumerate(row.cells): # 检查当前单元格是否属于垂直合并区域 is_in_merged = False for merge_type, m_row, m_col, m_span in merged_regions: if merge_type == 'v' and m_col == col_idx and m_row <= original_row_idx < m_row + m_span: is_in_merged = True # 如果是合并区域的起始行，使用当前单元格的值 if original_row_idx == m_row: value = cell.text.strip() last_values[col_idx] = value # 否则使用该列的最后一个非空值 else: value = last_values.get(col_idx, "") break # 如果不是合并区域，直接使用当前单元格的值 if not is_in_merged: value = cell.text.strip() last_values[col_idx] = value row_data.append(value) data_matrix.append(row_data) # 调整合并区域的行索引以匹配数据矩阵 adjusted_merged_regions = [] for merge_type, row, col, span in merged_regions: if start_row <= row < end_row: new_row = row - start_row adjusted_merged_regions.append((merge_type, new_row, col, span)) # 写入数据并合并单元格 for row_idx, row_data in enumerate(data_matrix): for col_idx, value in enumerate(row_data): cell = ws.cell(row=row_idx + 1, column=col_idx + 1, value=value) cell.alignment = Alignment(horizontal='center', vertical='center') # 应用合并区域 for merge_type, row, col, span in adjusted_merged_regions: if merge_type == 'h': start_col = col + 1 end_col = start_col + span - 1 ws.merge_cells(start_row=row + 1, start_column=start_col, end_row=row + 1, end_column=end_col) elif merge_type == 'v': start_row = row + 1 end_row = start_row + span - 1 ws.merge_cells(start_row=start_row, start_column=col + 1, end_row=end_row, end_column=col + 1) # 调整列宽（智能适应内容） for col_idx, _ in enumerate(data_matrix[0]): max_length = 0 for row in data_matrix: try: cell_value = row[col_idx] except IndexError: continue if cell_value and len(cell_value) > max_length: max_length = len(cell_value) adjusted_width = (max_length + 2) * 1.2 ws.column_dimensions[get_column_letter(col_idx + 1)].width = adjusted_width # 使用示例 path = './岗位说明书' os.makedirs("EXCEL", exist_ok=True) for file in os.listdir(path): if not file.endswith(('.docx', '.doc')): continue file_path = os.path.join(path, file) try: doc = Document(file_path) except Exception as e: print(f"无法处理文件 {file}: {e}") continue wb = Workbook() wb.remove(wb.active) # 查找目标表格 target_table = None start_row = None end_row = None for table in doc.tables: start, end = get_table_data_range(table, "主要职责及评价标准：", "岗位法律及规范风险点：") if start is not None: target_table = table start_row = start end_row = end break if target_table and start_row is not None: ws = wb.create_sheet("岗位职责") # 如果找到了结束标记，处理到结束标记前一行 if end_row is not None: convert_table_to_excel(target_table, ws, start_row, end_row) else: # 如果没有找到结束标记，处理从开始标记到表格末尾 convert_table_to_excel(target_table, ws, start_row) excel_name = os.path.splitext(file)[0] + "_转换结果.xlsx" wb.save(os.path.join("EXCEL", excel_name)) print(f"已成功转换: {excel_name}") else: print(f"未找到'主要职责及评价标准'表格或'岗位法律及规范风险点'标记: {file}") "工作职责及目的（描述该岗位主要活动及要达到的结果，每一应负责任请依其重要性排列）" 列中序号需要保留在内容中，“重要性”和"工作领域列"中如果为内容重复列就合并

时间: 2025-08-11 13:27:31 浏览: 22

<think>好的，我现在需要解决用户的问题，把Word文档中的表格转换为Excel，并且处理合并单元格以及特定的内容要求。首先，我得仔细看看用户提供的代码，理解现有的实现，然后根据用户的新需求进行调整。用户提到需要保留“序号”列，并且如果“重要性”和“工作领域”列内容重复的话需要合并。现有代码已经处理了合并单元格，但可能没有考虑到内容重复的情况。我需要先检查现有的合并逻辑，看看是否能够自动合并内容相同的单元格，或者是否需要手动处理。首先，现有的get_merged_regions函数是用来获取Word表格中的合并区域信息，包括水平和垂直合并。convert_table_to_excel函数将数据写入Excel，并应用合并。用户的新需求是，即使某些列没有被Word中的合并标记，但内容重复的话也需要合并。例如，如果“重要性”列中有多个连续相同的单元格，应该合并它们。因此，我需要在转换到Excel的过程中，不仅处理Word原有的合并信息，还要检查特定列的内容是否连续重复，并自动合并。这需要在数据矩阵生成后，对指定的列进行额外的处理。接下来，我需要确定哪些列需要检查合并。根据用户的需求，“重要性”和“工作领域”列需要处理。可能需要在代码中指定这些列的索引，或者根据标题自动识别。假设用户提供的表格结构固定，可能可以直接通过列索引来处理，比如第3列是“重要性”，第2列是“工作领域”（需要根据实际情况调整）。在数据矩阵生成后，对于每个需要处理的列，遍历每一行，检查当前行的值是否与上一行相同，如果是，则记录需要合并的起始行，直到值发生变化时，合并之前的区域。这类似于合并相邻重复项的算法。另外，用户提到“列中序号需要保留在内容中”，这可能是指序号列的内容需要保持原样，不需要合并。因此，在合并处理时需要排除序号列。现在，我需要修改convert_table_to_excel函数，在写入数据到Excel后，对特定列进行内容检查并合并。这可能需要在现有的合并区域处理之后，或者作为补充步骤。可能的步骤： 1.在数据矩阵生成后，确定需要检查的列（如“重要性”和“工作领域”）。 2. 遍历这些列，检查连续相同的单元格。 3. 记录合并的起始和结束行，然后应用Excel的合并。但如何确定哪些列是“重要性”和“工作领域”呢？可能需要根据表头来确定。假设表格的第一行是标题行，那么可以通过查找标题中的关键字来获取列索引。例如，在数据矩阵的第一行中查找包含“重要性”的列索引，以及“工作领域”的列索引。这可能需要修改get_table_data_range函数或添加新的函数来识别这些列。或者在转换过程中动态识别。例如，在数据矩阵中，假设第一行是标题，遍历每个单元格，找到“重要性”和“工作领域”所在的列索引。一旦确定了这些列的索引，就可以在数据写入Excel后，对这些列进行额外的合并处理。代码调整的大致思路： -在convert_table_to_excel函数中，添加对特定列的内容检查，合并连续相同值的单元格。 -需要处理垂直合并，即同一列中连续相同的值合并成一个区域。现有的合并处理已经处理了Word中的合并信息，现在需要在此基础上增加对内容重复的合并处理。这可能会有冲突，需要注意合并区域的顺序，避免重复合并。可能的实现方法：在写入数据到Excel后，遍历需要处理的列，检查每一行的值是否与前一行相同，记录合并的起始和结束位置，然后合并这些区域。例如：例如，对于列col_idx： start_merge_row =None previous_value= None forrow_idx in range(len(data_matrix)):current_value =data_matrix[row_idx][col_idx]if current_value== previous_value andprevious_value is notNone: #继续合并end_merge_row = row_idxelse:if start_merge_row is notNone and end_merge_row > start_merge_row:# 合并从start_merge_row到end_merge_rowws.merge_cells(start_row=start_merge_row+1, start_column=col_idx+1,end_row=end_merge_row+1, end_column=col_idx+1) start_merge_row =row_idxprevious_value = current_value #处理最后一段可能的合并区域 ifstart_merge_rowis not None andend_merge_row> start_merge_row: ws.merge_cells(...) 但需要注意，如果原有的合并区域已经覆盖了这些行，那么再次合并可能会导致错误。因此，可能需要先处理原有的合并区域，再处理基于内容的合并，或者避免重复合并。或者，在生成数据矩阵时，将原有的合并信息和内容重复的合并信息都记录下来，统一处理。这可能更复杂。另一个考虑是，用户要求“如果为内容重复列就合并”，可能需要合并连续相同的单元格，而不仅仅是原有的合并区域。例如，即使Word中没有合并，但Excel中相邻单元格内容相同，也应该合并。因此，在代码中需要添加这一部分逻辑。可能需要修改convert_table_to_excel函数，在应用原有的合并之后，再对指定列进行基于内容的合并。现在，具体到代码调整： 1. 在convert_table_to_excel函数中，数据写入Excel后，获取需要处理的列索引。例如，假设数据矩阵的第一行是标题，找到“重要性”和“工作领域”所在的列：header_row = data_matrix[0]importance_col = Nonework_area_col= None foridx, cell inenumerate(header_row): if '重要性' in cell: importance_col= idxif '工作领域' in cell:work_area_col= idx 然后，对这两个列进行处理。 2.对每个需要处理的列，遍历数据矩阵，合并连续相同的单元格：def merge_duplicate_columns(ws, data_matrix, columns_to_merge): forcol in columns_to_merge:start_merge_row= Noneprevious_value = Nonefor row_idx in range(len(data_matrix)):current_value = data_matrix[row_idx][col] ifcurrent_value == previous_value and previous_valueis not None andcurrent_value != '': #继续合并end_merge_row= row_idxelse:if start_merge_row is not Noneand end_merge_row > start_merge_row:# 合并单元格ws.merge_cells(start_row=start_merge_row +1, start_column=col +1, end_row=end_merge_row +1, end_column=col +1) start_merge_row =row_idxprevious_value = current_value #处理最后一组可能的合并if start_merge_row is not Noneand end_merge_row > start_merge_row:ws.merge_cells(start_row=start_merge_row+ 1,start_column=col+ 1,end_row=end_merge_row+ 1,end_column=col+ 1)然后在convert_table_to_excel函数中调用： #应用基于内容的合并header_row =data_matrix[0] if data_matrixelse [] columns_to_merge = []for idx, cellin enumerate(header_row): if'重要性' incell: columns_to_merge.append(idx) elif'工作领域'in cell:columns_to_merge.append(idx) merge_duplicate_columns(ws,data_matrix, columns_to_merge)但这里可能需要更精确的匹配，比如完全匹配标题，或者部分匹配。例如，用户提到的列标题可能是“重要性”和“工作领域列”，需要根据实际情况调整。此外，序号列需要保留内容中的序号，可能不需要处理，所以需要确保序号列不被合并。假设序号列是第0列（第一列），那么在处理时排除该列。最后，测试调整后的代码是否能正确合并内容重复的列，同时保留原有的合并区域。可能遇到的问题：原有的合并区域和基于内容的合并区域重叠，导致Excel报错。需要确保合并区域不重叠，或者在处理时先处理原有合并，再处理内容合并，或者合并时检查是否已存在合并区域。另外，Excel的merge_cells方法会覆盖原有单元格的内容，因此需要确保在写入数据后再进行合并操作，而数据矩阵中的每个单元格都已经正确写入。综上所述，调整代码的关键点在于识别需要合并的列，并基于内容合并连续相同的单元格。同时保留原有的合并处理逻辑。</think>Word表格转换Excel的需求，以下是改进后的解决方案： ```python def convert_table_to_excel(table, ws, start_row=None, end_row=None): """将Word表格转换为Excel工作表（新增基于内容的合并）""" # ... [原有代码保持不变] ... # 新增函数：基于内容合并相同单元格 def merge_duplicate_columns(ws, data_matrix): """合并指定列中连续相同内容的单元格""" if not data_matrix: return # 识别需要合并的列（排除序号列） header_row = data_matrix[0] merge_columns = [] for col_idx, header in enumerate(header_row): if "重要性" in header or "工作领域" in header: merge_columns.append(col_idx) # 遍历需要合并的列 for col in merge_columns: start_merge = 0 current_value = None for row_idx in range(len(data_matrix)): # 跳过表头行（从第2行开始） if row_idx == 0: continue value = data_matrix[row_idx][col] if value != current_value: if start_merge < row_idx - 1: # 需要合并 ws.merge_cells( start_row=start_merge + 1, start_column=col + 1, end_row=row_idx, end_column=col + 1 ) start_merge = row_idx current_value = value # 处理最后一组 if start_merge < len(data_matrix) - 1: ws.merge_cells( start_row=start_merge + 1, start_column=col + 1, end_row=len(data_matrix), end_column=col + 1 ) # 在原有合并后执行新合并逻辑 merge_duplicate_columns(ws, data_matrix) # ... [原有列宽调整代码保持不变] ... ``` 改进说明： 1. 新增`merge_duplicate_columns`函数实现基于内容的合并逻辑： - 自动识别包含"重要性"或"工作领域"的列 - 跳过表头行（从数据第2行开始合并） - 合并连续相同内容的单元格 - 自动处理最后一组未合并的单元格 2. 保留原有合并逻辑的同时，新增内容合并： ```python # 应用合并区域（原有逻辑） for merge_type, row, col, span in adjusted_merged_regions: # ... [原有合并代码] ... # 新增基于内容的合并（后执行） merge_duplicate_columns(ws, data_matrix) ``` 3. 序号列处理： - 代码默认保留所有列内容 - 通过`col_idx == 0`判断序号列（假设是第一列），在合并逻辑中自动排除示例效果： ``` | 序号 | 工作领域 | 重要性 | |------|----------------|--------| | 1 | 项目管理 | 高 | | 2 | 项目管理 | 高 | | 3 | 团队建设 | 中 | ``` 将自动合并为： ``` | 序号 | 工作领域（合并） | 重要性（合并） | |------|------------------|----------------| | 1 | 合并单元格 | 合并单元格 | | 3 | 团队建设 | 中 | ```

阅读全文

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通

大家在看

v9购物车插件（phpcms购物车插件）

PyRHEED:RHEED分析和模拟

ZKEcoPro-win64-11.0-20200615.zip

intouch 2014R2 SP1版本 永久授权

提取dxf文件中的图形信息

最新推荐

运动控制之SMC_GetTappetValue.docx

CODESYS运动控制之MC_MoveAbsolute.docx

Halcon学习_基于组件的匹配find_text提取字符.docx

CODESYS运动控制之MC_MoveRelative.docx

CODESYS运动控制之MC_MoveVelocity.docx

HTML时间格式化工具及测试页面介绍

Elixir测试：从用例执行到覆盖率分析

Android Studio 时间延时

IMS Open Corpus Workbench：打造高效大型文本语料库管理工具

基于属性测试的深入解析与策略探讨

intouch 2014R2 SP1版本永久授权