使用Python解决CSV文件中中文乱码的问题

最新推荐文章于 2024-01-25 20:27:03 发布

摩力克

最新推荐文章于 2024-01-25 20:27:03 发布

阅读量7.8k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.csdn.net/midion9/article/details/89025500

python 专栏收录该内容

72 篇文章

订阅专栏

本文介绍了解决CSV文件中文乱码的方法，包括转换文件编码格式为GBK或转换为Excel文件来确保中文及特殊字符的正确显示。

如果CSV文件中的中文是乱码，通常该CSV文件的编码格式是UTF8的.

为了中文显示正常，需要将CSV文件的编码格式转换为GBK格式.

代码：

import pandas as pd

#utf编码格式的csv文件中的中文一般会是乱码，这时需要把文件格式另存为gbk格式
def csv_utf_2_gbk(srcPath):
    try:
        data=pd.DataFrame(pd.read_csv(srcPath,encoding='utf8',low_memory=False))
        data.to_csv(srcPath, index=False, sep=',', encoding='gbk')
    except:
        print(srcPath,"文件处理出错")

def csv_gbk_2_utf(srcPath):
    try:
        data=pd.DataFrame(pd.read_csv(srcPath,encoding='gbk',low_memory=False))
        data.to_csv(srcPath, index=False, sep=',', encoding='utf8')
    except:
        print(srcPath, "文件处理出错")

if __name__ == '__main__':
    csv_utf_2_gbk('data.csv')

以上方法处理普通中文乱码问题是ok的，但如果源CSV文件中存在特殊字符，则会出现文件出错。

避免乱码的最保险的方式是将csv转换为excel文件，这时候无论是中文还是特殊字符都不会出现乱码。

def csv_2_xlsx(srcPath):
    try:
        data = pd.DataFrame(pd.read_csv(srcPath, encoding='utf8', low_memory=False))
    except:
        data = pd.DataFrame(pd.read_csv(srcPath, encoding='gbk', low_memory=False))
    data.to_excel(srcPath[:-3] + 'xlsx', sheet_name='Sheet1', index=False)