lxml 和 pyquery 示例 爬 卡牌
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了lxml 和 pyquery 示例 爬 卡牌,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含2114字,纯文字阅读大概需要4分钟。
内容图文
![lxml 和 pyquery 示例 爬 卡牌](/upload/InfoBanner/zyjiaocheng/1209/27f72635d42d4215a920ffdadf82ccab.jpg)
import
requests
from pyquery import PyQuery as pq
import json
import jsonpath
from lxml import etree
import os
html = ‘‘‘
<div>
<ul>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
‘‘‘
html = requests.get(‘http://news.4399.com/gonglue/lscs/kptj/‘).content.decode(‘gbk‘)
num = 0
def pq方法():
global num
doc = pq(html)
items = doc(‘#dq_list > li‘).items()
# print(doc)# print(type(doc))for item in items:
url=item.find(‘img‘).attr(‘lz_src‘)
num+=1
print(str(num),url)
url_content=requests.get(url).content
name = item.find(‘.kp-name‘).text()
with open(‘e:/py3/002/‘+‘{:0>4}‘.format(str(num))+name+‘.jpg‘,‘wb‘) as file:
file.write(url_content)
# print(url,name)def lxml方法():
print(html)
global num
r=etree.HTML(html)
# items=r.xpath("//div[@class=‘box10-content‘]//ul[@id=‘dq_list‘]/li/a/img/@lz_src")
items=r.xpath("//div[@class=‘box10-content‘]//ul[@id=‘dq_list‘]/li/a")
# print(items)for item in items:
kpname=item.xpath("./div/text()")[0]
lzsrc=item.xpath("./img/@lz_src")[0]
num+=1
print(kpname,lzsrc)
lzcontent=requests.get(lzsrc).content
with open(‘e:/py3/003/‘+‘{:0>4}‘.format(str(num))+‘_‘+kpname+‘.jpg‘,‘wb‘)as file:
file.write(lzcontent)
if__name__ == ‘__main__‘:
# pq方法() lxml方法()
# 创建目录‘‘‘
for dirnum in range(1,100):
dirnum2=‘{:0>3}‘.format(str(dirnum))
mkpath="e:\\py3\\{}\\".format(dirnum2)
print(mkpath)
print(‘已存在!‘) if os.path.exists(mkpath) else os.makedirs(mkpath)
‘‘‘‘‘‘
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)
print(soup.prettify()) # 结构化输出文档
print(soup.title) # 获取title标签
print(soup.title.name) # 获取title标签名称
print(soup.title.parent.name)
print(soup.p[‘class‘])
‘‘‘
原文:https://www.cnblogs.com/pscc/p/9866194.html
内容总结
以上是互联网集市为您收集整理的lxml 和 pyquery 示例 爬 卡牌全部内容,希望文章能够帮你解决lxml 和 pyquery 示例 爬 卡牌所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。
来源:【匿名】