python3爬虫:采集维基百科迪士尼人物列表

有一个任务,需要获得迪士尼所有角色的列表。网络上找了一下,发现维基百科有这个列表。然而要一个一个的复制出这些人物名称,看起来是一个不小的工程。于是决定用python3搞定,代码如下:

import requests,bs4

url='https://en.wikipedia.org/wiki/List_of_Disney_animated_universe_characters'

res=requests.get(url)

bs=bs4.BeautifulSoup(res.text,'html.parser')

names=bs.select('tr')


for name in names:
    try:
        f=name.find('td').getText()
        print(f)
    except:
        print('内容为空')
发表在 python3爬虫 | 标签为 , | 留下评论

python3:获取远程图片大小(长、宽和文件大小)

在做python3网络爬虫爬取图片的时候,可能会涉及到判断图片大小。比如我们只采集某种大小的图片。下面是判断网络图片大小的代码:

import requests
from io import BytesIO
from PIL import Image
 
 
url = 'https://sc01.alicdn.com/kf/HLB1yTzIRQvoK1RjSZFwq6AiCFXa9/Wholesale-high-quality-New-design-fashion-basketball.jpg_350x350.jpg'
response = requests.get(url)

print(type(response))


tmpIm = BytesIO(response.content)

fsize=len(tmpIm.getvalue())#获取图片的字节数

print('文件大小:',fsize/1024/1024,'M') 


im = Image.open(tmpIm)

 
# 长宽储存在im当中的size列表当中
w = im.size[0]
h = im.size[1]
 
print("宽度:%s" % (w))
print("高度:%s" % (h))
发表在 python3爬虫 | 标签为 , | 留下评论