Python 在 Web 爬虫技术中的应用与反爬策略-CSDN博客

```htmlPython 解析 HTML 并提取所有外部 CSS 文件

Python 解析 HTML 并提取所有外部 CSS 文件

在现代 Web 开发中，HTML 和 CSS 是构建网页的两大基石。HTML 负责结构和内容，而 CSS 则负责样式和布局。有时我们需要从一个 HTML 文件中提取所有的外部 CSS 文件链接，这可能出于分析、迁移或备份的目的。本文将介绍如何使用 Python 来解析 HTML 并提取所有外部 CSS 文件。

准备工作

在开始之前，确保你的系统上已经安装了 Python 3，并且安装了必要的库。我们将使用 BeautifulSoup 库来解析 HTML。可以通过以下命令安装它：


pip install beautifulsoup4

此外，我们还需要使用 requests 库来下载 HTML 文件的内容：


pip install requests

代码实现

下面是一个完整的 Python 脚本，用于解析 HTML 并提取所有外部 CSS 文件的链接：


import re
import requests
from bs4 import BeautifulSoup

def extract_external_css(url):
    # 发送 HTTP 请求获取 HTML 内容
    response = requests.get(url)
    if response.status_code != 200:
        print(f"无法访问 {url}")
        return []

    # 使用 BeautifulSoup 解析 HTML
    soup = BeautifulSoup(response.text, 'html.parser')

    # 正则表达式匹配外部 CSS 链接
    css_links = []
    pattern = re.compile(r'', re.IGNORECASE)

    # 查找所有符合模式的链接
    for link in soup.find_all('link', href=True):
        match = pattern.match(str(link))
        if match:
            css_links.append(match.group(1))

    return css_links

if __name__ == "__main__":
    url = "https://example.com"  # 替换为目标 URL
    css_files = extract_external_css(url)

    print("提取到的外部 CSS 文件:")
    for css_file in css_files:
        print(css_file)

代码详解

上述代码的核心逻辑如下：

发送 HTTP 请求: 使用 requests 库发送 GET 请求，获取目标 URL 的 HTML 内容。
解析 HTML: 使用 BeautifulSoup 解析 HTML 文档，使其易于操作。
正则表达式匹配: 定义一个正则表达式，用于匹配 HTML 中的 <link> 标签及其 href 属性值，这些属性值通常指向外部 CSS 文件。
提取链接: 遍历 HTML 文档中的所有 <link> 标签，检查其 href 属性是否符合正则表达式，并将其添加到结果列表中。
输出结果: 最后打印出所有提取到的外部 CSS 文件链接。