python与excel结合能做什么-Python网络爬虫与文本数据分析

最新推荐文章于 2024-07-23 20:19:57 发布

最新推荐文章于 2024-07-23 20:19:57 发布 · 546 阅读

·

0

·

本课程旨在帮助解决使用网络数据研究的两大难点：数据获取和文本数据分析。课程涵盖Python配置、语法入门、数据采集、数据分析、文本分析及机器学习与文本分析等内容，部分可免费试听，提供电脑端和手机端学习方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原标题：Python网络爬虫与文本数据分析

课程介绍

在过去的两年间，Python一路高歌猛进，成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员，而是数据科学家，尤其是社会科学家，涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。

大数据时代到来，网络数据正成为潜在宝藏，大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究，面临两大难点：

数据的获取

文本（非结构化）数据的处理与分析

数据获取需要借助Python编程语言设计网络爬虫，而获得的数据中有相当比例数据是非结构化数据，这就需要文本数据分析技术。本次课程参照已发表的社科类的文章，希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点，降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解，方便各位开展后续研究。

课程试听

课程python语法入门和网络爬虫部分可免费试听，对python感兴趣的童鞋可以收藏观看~

试听二维码

目录

一、准备阶段

Win中的Python配置

Mac中的Python配置

二、Python语法入门

Python跟英语一样是一门语言

数据类型之字符串

数据类型之列表元组集合

数据类型之字典

数据类型之布尔值、None

逻辑语句(if&for&tryexcept)

列表推导式

理解函数

常用的内置函数

内置库文件路径pathlib库

内置库csv文件库

内置库正则表达式re库

初学python常出错误汇总

三、数据采集

网络爬虫原理

网络访问requests库

网页解析pyquery库

实战：大众点评

实战：豆瓣读书

实战：Boss直聘

如何解析json数据

实战: 豆瓣电影

实战: 京东商城

如何用爬虫下载文档及多媒体文件

上市公司定期报告pdf批量下载

爬虫知识点总结

补充-用pandas采集表格数据

四、数据分析

Pandas基础知识

数据去重与缺失值处理

合并数据

重塑数据

选取表中指定记录(行)

选取表中指定字段(列)

描述性统计

在表中创建新字段(列)

批操作apply与agg

透视表pivot_table

数据分组groupby

时间序列时间点创建

日期数据的dt属性

日期行索引操作(选取指定日期的数据)

时间序列date_range

时间序列重采样resample

时间序列时间窗口rolling

实战：Kaggle titanic数据集探索性分析

实战：Boss直聘Python岗位分析

五、初识文本分析

文本分析在经管领域中的应用概述(1)

读取不同格式文件中的数据

实战：实战之如何将多个整理到一个excel中

中文分词及数据清洗

实战：词频统计

实战：中文情感分析(词典法)

实战：对excel中的文本进行情感分析

实战：共现法扩展情感词典(领域词典)

六、机器学习与文本分析

了解机器学习

使用机器学习做文本分析的流程

scikit-learn机器学习库简介

文本特征抽取(特征工程)

实战：在线评论文本分类

文本相似性计算

实战：使用文本相似性识别变化(政策连续性)

实战：Kmeans聚类算法

实战：LDA话题模型

简化版的LDA

文本分析在经管领域中的应用概述(2)

领券购买

扫码领券购买

学习方式

电脑端学习，浏览器百度搜【腾讯课堂】，微信扫码登录账号，即可观看学习

手机端学习，安装【腾讯课堂app】，微信扫码登录账号，即可观看学习返回搜狐，查看更多

责任编辑：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。