首页PortWarning: allowed_domains accepts only domains without ports. Ignoring entry 139.9.128.184:8088 in allowed_domains.

PortWarning: allowed_domains accepts only domains without ports. Ignoring entry 139.9.128.184:8088 in allowed_domains.

时间: 2023-06-14 22:08:25 浏览: 265

这个警告信息是由Scrapy框架产生的。它表明在allowed_domains属性中设置了一个带有端口号的IP地址，但是allowed_domains属性只接受域名而不接受IP地址和端口号。所以Scrapy会忽略这个设置，并给出警告信息。如果你想在Scrapy中爬取一个IP地址和端口号的网站，可以将其直接写入start_urls属性中，例如： ``` start_urls = ['http://139.9.128.184:8088/'] ``` 这样就可以绕过allowed_domains属性的限制。但需要注意的是，这样可能会导致Scrapy无法正确解析网页中的链接，从而影响爬虫的效果。

class CrawlSpiderSpider(scrapy.Spider): name = "crawl_spider" allowed_domains = ["ssr1.scrape.center"] start_urls = [f"https://ssr1.scrape.center/detail/{i}" for i in range(1,101)]

这是一个基于 Scrapy 的爬虫程序，名为 CrawlSpiderSpider。首先，通过 `allowed_domains` 属性指定了爬虫可以抓取的域名，这里只抓取了 "ssr1.scrape.center" 这个域名下的页面。接着，通过 `start_urls` 属性指定了爬虫的起始 URL，这里是一个包含 100 个页面的列表，分别为 "https://ssr1.scrape.center/detail/1" 到 "https://ssr1.scrape.center/detail/100"。 CrawlSpiderSpider 可以继承自 scrapy.spiders.CrawlSpider 来实现基于规则的爬虫，可以自动发现和跟进链接。在这个爬虫中，我们可以使用 rules 属性来定义爬取规则。

阅读全文