#/usr/bin/python
from urllib importrequestfrom lxml importetreefrom selenium importwebdriverimporttime#京东手机商品页面
url="http://item.jd.com/1312640.html"
#下面的xslt是通过集搜客的谋数台图形界面自动生成的
xslt_root = etree.XML("""\
<商品>
商品>
<价格>
价格>
<名称>
名称>
""")#使用webdriver.PhantomJS
browser=webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe')
browser.get(url)
time.sleep(3)
transform=etree.XSLT(xslt_root)#执行js得到整个dom
html = browser.execute_script("return document.documentElement.outerHTML")
doc=etree.HTML(html)#用xslt从dom中提取需要的字段
result_tree =transform(doc)print(result_tree)