Python爬虫实战：批量下载亚马逊商品图片

2025-07-22 111

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫实战：批量下载亚马逊商品图片

引言
在电商数据分析、竞品调研或价格监控等场景中，爬取亚马逊商品图片是一项常见需求。然而，亚马逊（Amazon）作为全球最大的电商平台之一，具有严格的反爬机制，直接爬取可能会遇到IP封锁、验证码等问题。
本文将介绍如何使用Python爬虫技术批量下载亚马逊商品图片，涵盖以下内容：
● 目标分析：确定爬取亚马逊商品图片的策略
● 技术选型：选择合适的爬虫库（Requests、BeautifulSoup、Selenium等）
● 反爬绕过：设置合理的请求头、代理IP、延迟策略
● 图片下载：解析HTML并批量存储图片
● 完整代码实现：提供可运行的Python代码
技术选型与准备工作
2.1 工具与库
● Python 3.x（推荐3.8+）
● Requests：发送HTTP请求获取网页内容
● BeautifulSoup（bs4）：解析HTML，提取图片URL
● Selenium（可选）：应对动态加载的页面
● Fake UserAgent：随机生成User-Agent，减少被封锁风险
● 代理IP（可选）：防止IP被封
2.2 安装依赖
爬取亚马逊商品页面的策略
亚马逊的反爬机制较为严格，直接使用requests可能会被拒绝访问。因此，我们需要：
模拟浏览器请求：设置合理的User-Agent和Referer
降低请求频率：避免短时间内高频访问
使用代理IP（可选）：防止单一IP被封锁
处理动态加载内容（可选）：部分图片可能由JavaScript加载，需用Selenium
实现步骤
4.1 获取亚马逊商品页面
首先，我们尝试用requests获取商品页面的HTML。
```import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent

设置随机User-Agent

ua = UserAgent()
headers = {
'User-Agent': ua.random,
'Accept-Language': 'en-US,en;q=0.9',
'Referer': 'https://www.amazon.com/'
}

目标商品URL（示例：亚马逊上的某款手机）

url = "https://www.amazon.com/dp/B09G9FPHY6" # 替换为目标商品URL

try:
response = requests.get(url, headers=headers, timeout=10)
response.raise_for_status() # 检查请求是否成功
print("成功获取页面！")
except requests.exceptions.RequestException as e:
print(f"请求失败: {e}")
exit()

解析HTML

soup = BeautifulSoup(response.text, 'html.parser')

4.2 解析图片URL
亚马逊的商品图片通常存储在<img>标签中，我们需要找到正确的src或data-src属性。
```# 查找所有图片标签
image_tags = soup.find_all('img', {'class': 'a-dynamic-image'})

# 提取图片URL
image_urls = []
for img in image_tags:
    src = img.get('src') or img.get('data-src')
    if src and 'http' in src:  # 确保是有效的URL
        image_urls.append(src)

print(f"找到 {len(image_urls)} 张图片")

4.3 下载图片并存储
使用requests下载图片并保存到本地文件夹。
```import os

创建存储目录

output_dir = "amazon_images"
os.makedirs(output_dir, exist_ok=True)

下载图片

for i, img_url in enumerate(image_urls[:10]): # 限制下载前10张
try:
img_data = requests.get(img_url, headers=headers, timeout=10).content
with open(f"{outputdir}/image{i+1}.jpg", 'wb') as f:
f.write(imgdata)
print(f"下载成功: image{i+1}.jpg")
except Exception as e:
print(f"下载失败 {img_url}: {e}")

4.4 完整代码
```import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import os

# 代理配置
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

# 代理格式：http://用户名:密码@代理地址:端口
proxyMeta = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
proxies = {
    "http": proxyMeta,
    "https": proxyMeta,
}

# 设置随机User-Agent
ua = UserAgent()
headers = {
    'User-Agent': ua.random,
    'Accept-Language': 'en-US,en;q=0.9',
    'Referer': 'https://www.amazon.com/'
}

# 目标商品URL
url = "https://www.amazon.com/dp/B09G9FPHY6"  # 替换为目标商品URL

# 获取页面（带代理）
try:
    response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
    response.raise_for_status()
    print("成功获取页面！")
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")
    exit()

# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 提取图片URL
image_tags = soup.find_all('img', {'class': 'a-dynamic-image'})
image_urls = []
for img in image_tags:
    src = img.get('src') or img.get('data-src')
    if src and 'http' in src:
        image_urls.append(src)

print(f"找到 {len(image_urls)} 张图片")

# 下载图片（带代理）
output_dir = "amazon_images"
os.makedirs(output_dir, exist_ok=True)

for i, img_url in enumerate(image_urls[:10]):  # 限制下载前10张
    try:
        img_data = requests.get(img_url, headers=headers, proxies=proxies, timeout=10).content
        with open(f"{output_dir}/image_{i+1}.jpg", 'wb') as f:
            f.write(img_data)
        print(f"下载成功: image_{i+1}.jpg")
    except Exception as e:
        print(f"下载失败 {img_url}: {e}")

进阶优化
使用Selenium处理动态加载内容
如果目标页面的图片是JavaScript动态加载的，可以使用Selenium模拟浏览器行为：
```from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time

设置无头浏览器

options = Options()
options.add_argument('--headless') # 无界面模式
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(options=options)

访问页面

driver.get(url)
time.sleep(3) # 等待JS加载

获取页面源码

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

后续解析和下载逻辑相同...

driver.quit()
```

法律与道德提醒
● 遵守亚马逊的Robots协议（https://www.amazon.com/robots.txt）
● 避免高频访问，防止IP被封
● 仅用于学习研究，不得用于商业爬取
结语
本文介绍了如何使用Python爬虫批量下载亚马逊商品图片，涵盖请求模拟、HTML解析、反爬策略和图片存储。通过合理设置请求头、代理IP和延迟策略，可以有效降低被封锁的风险。
适用场景：
● 电商数据分析
● 竞品图片采集
● 自动化商品监控
进一步优化方向：
● 结合OCR识别图片中的文字（如价格、规格）
● 构建分布式爬虫提高效率
● 使用Scrapy框架进行更复杂的爬取任务

Python爬虫实战：批量下载亚马逊商品图片

设置随机User-Agent

目标商品URL（示例：亚马逊上的某款手机）

解析HTML

创建存储目录

下载图片

设置无头浏览器

访问页面

获取页面源码

后续解析和下载逻辑相同...

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python爬虫实战：批量下载亚马逊商品图片

设置随机User-Agent

目标商品URL（示例：亚马逊上的某款手机）

解析HTML

创建存储目录

下载图片

设置无头浏览器

访问页面

获取页面源码

后续解析和下载逻辑相同...

热门文章

最新文章

相关课程

相关电子书

推荐镜像