今天分享的是使用python语言然后通过cookie来爬取淘宝天猫评论的方法。
1、首先我们打开一个产品页,地址:几素usb小风扇,按下F12,然后下拉到产品评论可以看到如下图
2、点击这个script的文件,然后点preview进去看可以看到
3、可以看到我们需要爬取的内容全在这个script文件中了,接下来我们来分析这个文件,首先是url
4、然后是请求头,因为淘宝的反爬策略需要你将cookie和referer加入请求头中才有数据返回
完整源码如下:
# -*- coding: utf8 -*-
import requests
import simplejson
import json
import time
import random
import pymysql
db = pymysql.connect(host='localhost', user='root', password='root', db='data', charset='utf8mb4')
cursor = db.cursor()
sql_insert = 'INSERT INTO tianmao(productid, tm_date,tm_name,tm_productcolor,tm_content,tm_addcontent) ' \
'VALUES (%s, %s, %s, %s, %s, %s)'
base_url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=586696084498&spuId=1149458431&sellerId=2453972737&order=1&append=0&content=1&tagId=&posi=&picture=&groupId='
header =