python使用selenium爬虫知乎的方法示例

194 浏览量 2020-12-16 21:07:48 上传评论收藏 72KB PDF 举报

说起爬虫一般想到的情况是，使用 python 中都通过 requests 库获取网页内容，然后通过 beautifulSoup 进行筛选文档中的标签和内容。但是这样有个问题就是，容易被反扒机制所拦住。反扒机制有很多种，例如知乎：刚开始只加载几个问题，当你往下滚动时才会继续往下面加载，而且在往下滚动一段距离时就会出来一个登陆的弹框。这样的机制对于通过获取服务器返回内容的爬虫方式进行了限制，我们只能获得前几个回答，而没办法或许后面的回答。所以需要使用 selenium 模拟真实浏览器进行操作。最终实现效果如下：前提是需要自行搜索教程安装： chromeDriver selen Python中的Selenium库是一个强大的工具，它允许开发者模拟真实用户的行为来自动化浏览器操作，这对于爬取动态加载的内容或处理登录弹窗等复杂交互场景非常有用。在本示例中，我们将探讨如何使用Selenium来爬取知乎网站上的问答内容。我们需要安装Selenium库以及与之配合的Chrome驱动程序（chromedriver）。Selenium库提供了多种浏览器驱动，包括Firefox（GeckoDriver）、Chrome（ChromeDriver）等。这里以Chrome为例，你需要下载与你系统和Chrome版本匹配的ChromeDriver，并将其添加到环境变量中，以便Selenium能够找到并使用它。接下来，我们可以编写Python代码来启动Chrome浏览器并访问知乎问题页面。以下是一个简单的代码框架： ```python from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.action_chains import ActionChains import time options = webdriver.ChromeOptions() options.add_argument("headless") # 隐藏浏览器窗口 driver = webdriver.Chrome(options=options) driver.get('https://www.zhihu.com/question/22110581') # 修改为你想爬取的问题URL ``` 在访问知乎这类采用动态加载技术的网站时，通常需要滚动页面来触发更多的内容加载。这里，我们使用JavaScript脚本来监测页面是否已滚动到底部，并通过Selenium执行这个脚本： ```python def waitFun(): js = """ // ... 略去的JavaScript代码 """ driver.execute_script(js) ``` 为了处理可能存在的登录弹窗，我们可以使用`WebDriverWait`等待策略来等待登录弹窗出现并关闭它： ```python try: # 等待登录弹窗出现并点击关闭 WebDriverWait(driver, 40, 1).until( EC.presence_of_all_elements_located((By.CLASS_NAME, 'Modal-backdrop')), waitFun() ) ActionChains(driver).move_by_offset(200, 100).click().perform() ``` 当页面滚动到底部后，我们可以查找并提取出所有答案元素： ```python def getHeight(nice): js = """ return window.checkBottom; """ return driver.execute_script(js) while not getHeight(True): # 滚动到底部并等待加载 WebDriverWait(driver, 40, 3).until(getHeight, waitFun()) # 提取并处理答案元素 answer_element_arr = driver.find_elements_by_css_selector('.RichContent-inner') for answer_element in answer_element_arr: # 对每个答案元素进行处理，如提取文本并保存到文件 text = answer_element.text file.write(text) file.write('\n') ``` 别忘了关闭浏览器和文件： ```python driver.quit() file.close() ``` 这个示例展示了如何使用Selenium爬取动态加载的知乎问答页面，但实际应用中还需注意其他因素，比如处理登录、验证码、IP限制等。同时，要遵守网站的robots.txt规则，尊重网站的版权，避免对网站造成不必要的压力。此外，Selenium虽然强大，但因其模拟真实浏览器的特性，效率相对较低，对于大规模爬取可能不是最佳选择。在实际工作中，可以考虑结合requests和BeautifulSoup等库，针对不同情况选择合适的爬虫策略。

资源详情

资源评论

资源推荐