标签归档:python3采集阿里巴巴

python3爬虫:采集阿里巴巴国际站商品列表(自动下拉加载)

用requests.get(url)采集阿里巴巴商品列表的时候,每页只能采集8条。通过分析发现,更多的产品URL需要拖动鼠标下拉才能加载。网上看了一些资料,说需要找到JS入口。搞了几次,我依然找不到。最后只能采用加载浏览器来实现了。加载浏览器采集,首先要下载浏览器驱动器,然后才能顺利运行。代码如下:阅读全文
发表在 python3爬虫 | 标签为 , | 留下评论

用python3采集阿里巴巴国际站商品:下

采集阿里巴巴商品模块主要由三部分组成,第一部分是逐条读取商品url,第二部分是提取商品页面的有用内容,第三部分是把保存起来。阅读全文
发表在 python3爬虫 | 标签为 , | 留下评论