python爬虫：用Jupyter Notebook (Anaconda)软件的xpath方法爬取网站https://www.shanghairanking.cn/rankings/bcur/2024的学校名称和排名

在Python中，特别是使用Jupyter Notebook（基于Anaconda的环境），你可以利用BeautifulSoup库配合XPath来抓取网站信息。首先确保安装了必要的库，如requests、beautifulsoup4和lxml。下面是一个基本步骤： 1. 安装缺失的库（如果你还没有安装）： ```bash !pip install requests beautifulsoup4 lxml ``` 2. 使用Jupyter Notebook编写代码： ```python import requests from bs4 import BeautifulSoup import pandas as pd # 发送GET请求获取网页内容 url = "https://www.shanghairanking.cn/rankings/bcur/2024" response = requests.get(url) # 检查请求是否成功 if response.status_code == 200: # 解析HTML内容 soup = BeautifulSoup(response.text, 'lxml') # 使用XPath选择学校名称和排名的数据 schools = soup.select('div.rank-item > h2 span:nth-child(1)') rankings = soup.select('div.rank-item > h2 span:nth-child(2)') # 存储数据 data = [] for school, ranking in zip(schools, rankings): name = school.text.strip() rank = ranking.text.strip().replace(',', '') data.append({'School Name': name, 'Rank': rank}) # 将数据转换为pandas DataFrame df = pd.DataFrame(data) # 可视化或保存数据 print(df) else: print(f"无法加载页面，状态码：{response.status_code}") ``` 注意，由于网站结构可能会变化，上述XPath表达式可能需要根据实际的HTML结构进行调整。运行这段代码后，你会看到学校名称及其对应的排名。

阅读全文

python爬虫：用Jupyter Notebook (Anaconda)软件的xpath方法爬取网站https://www.shanghairanking.cn/rankings/bcur/2024的学校名称和排名

大家在看

HCIE-Storage实验手册06---Oracle主备容灾方案实验手册.docx

通达信DLL插件编程示例（源码）

C#调用LibVLCSharp库播放视频 句柄播放 或回调播放

思科7960/7940 sip 8.6 固件

aspweb，免费IIS模拟器，支持ASP

最新推荐

基于Python和Django框架开发的智能在线学习平台项目_包含课程管理视频播放在线测试学习进度追踪用户认证讨论区实时通知数据分析和个性化推荐功能_旨在为教育机构.zip

西部网络安全大会PPT.zip

xapp589-VCXO_中英文对照版_2025年.pdf

xapp1170-zynq-hls_中英文对照版_2025年.pdf

基于vue2+vue-router+vuex构建的一个新闻类单页面应用——今日头条（移动端）.zip

bls-wasm：Node.js下WebAssembly实现的BLS签名技术

提升Linux终端使用效率的实用指南

2000年代初的粉丝创神奇宝贝网站回顾

Linux终端实用工具与技巧

C#调用LibVLCSharp库播放视频句柄播放或回调播放