一、引言
GitHub 是全球最大的开源代码托管平台,开发者可以通过 GitHub 分享代码、参与开源项目、进行版本管理。GitHub 提供了功能强大的 REST API,允许开发者通过编程方式访问 GitHub 上的仓库、用户、提交记录、PR(Pull Request)等信息。
在本文中,我们将使用 Python 编写一个完整的爬虫程序,调用 GitHub 的 REST API 来爬取 GitHub 仓库的信息。包括:
✅ 获取 GitHub 仓库的基本信息
✅ 获取仓库的提交记录
✅ 获取仓库的 issues 和 PR
✅ 获取仓库的 star、fork、watch 等数据
✅ 获取仓库的贡献者、标签、分支等
本文将使用 Python 的最新技术,包括:
requests
:用于与 GitHub API 交互pandas
:用于数据处理和存储matplotlib
和seaborn
:用于数据可视化dotenv
:用于管理环境变量(如 API 令牌)- 异步爬取(使用
aiohttp
和asyncio
)
二、GitHub REST API 介绍
GitHub R