python之清洗数据

本文介绍了一种使用Python进行数据清洗的方法,重点展示了如何处理错误的标点符号、大小写字母不一致、断行和拼写错误等问题。通过具体案例演示了如何获取维基百科词条的内容并生成2-gram列表。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python之清洗数据

背景介绍:
清洗数据:
大概意思就是由于错误的标点符号、大小写字母不一致、断行和拼写错误等问题,零乱的数据(dirtydata),然后我们通过改变代码的编写方式,从源头控制数据零乱的问题甚至对已经进入数据库的数据也可以进行清洗。

案例:返回维基百科词条“Python programming language”的2-gram列表:

1:代码

# coding=utf-8
"""
@author: jiajiknag
程序功能: 返回维基百科词条“Python programming language”的2-gram列表:
"""
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import string
from collections import OrderedDict
# 定义一个函数(清洗任务)
def cleanInput(input):
    # re.sub功能是对于一个输入的字符串,利用正则表达式,来实现字符串替换处理的功能返回处理后的字符串
    input = re.sub('\n+', " ", input)
    input = re.sub('\[[0-9]*\]', "", input)
    input = re.sub(' +', " ", input)
    input = bytes(input, "UTF-8")
    input = input.decode("ascii", "ignore")
    # 定义一个清洗输入空列表
    cleanInput = []
    input = input.split(' ')
    for item in input:
        # string.punctuation:包含所有标点的字符串
        item = item.strip(string.punctuation)
        if len(item) > 1 or (item.lower() == 'a' or item.lower() == 'i'):
            cleanInput.append(item)
    return cleanInput

def getNgrams(input, n):
    # 调用函数celanInput()
    input = cleanInput(input)
    # dict()函数用于创建一个字典
    output = dict()
    for i in range(len(input)-n+1):
        # 以" "作为分隔符,将" "所有的元素合并成一个新的字符串
        newNGram = " ".join(input[i:i+n])
        if newNGram in output:
            output[newNGram] += 1
        else:
            output[newNGram] = 1
    return output

# 维基百科词条
html = urlopen("http://en.wikipedia.org/wiki/Python_(programming_language)")
bsObj = BeautifulSoup(html, "html.parser")
content = bsObj.find("div", {"id":"mw-content-text"}).get_text()
#ngrams = getNgrams(content, 2)
#print(ngrams)
#print("2-grams count is: "+str(len(ngrams)))

ngrams = getNgrams(content, 2)
# 将排序过的字典的值复制到其他类型中进行排序
ngrams = OrderedDict(sorted(ngrams.items(), key=lambda t: t[1], reverse=True))
print(ngrams)

2:结果

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jjkqjj

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值