最近简单学习了一下爬虫,将使用简单的BeautifulSoup4库来抓取500彩票网站(http://kaijiang.500.com)中每一期的双色球结果。
首先打开一个双色球结果网页(http://kaijiang.500.com/shtml/ssq/18095.shtml),观察到源代码中通过列表将红蓝球的号码显示出来,如下所示:
<ul>
<li class="ball_red">10</li>
<li class="ball_red">11</li>
<li class="ball_red">12</li>
<li class="ball_red">21</li>
<li class="ball_red">26</li>
<li class="ball_red">33</li>
<li class="ball_blue">09</li>
</ul>
需要找到所有li标签,并且其class属性为"ball_red/ball_blue"。可通过使用find_all方法,将'li'和‘class_="ball_red"’作为参数传递,找到所有的红蓝球号码,将ball.string添加至数组中即可。
然后需要找到每一期双色球所对应的url,源代码中对于每一期双色球都有一个相应的链接与他对应,格式形如(<a href="http:/