博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
The fourth day of Crawler learning
阅读量:4542 次
发布时间:2019-06-08

本文共 1033 字,大约阅读时间需要 3 分钟。

爬取

from bs4 import BeautifulSoup import requests url = "https://qd.58.com/diannao/35200617992782x.shtml" web_data = requests.get(url) soup = BeautifulSoup(web_data.text, 'lxml') title = soup.title.text cost = soup.select("div#basicinfo span.infocard__container__item__main__text--price") time = soup.select(".detail-title__info__text:nth-child(1)") visitor = soup.select("span#totalcount") area = soup.select("div.infocard__container__item:nth-child(3)>div.infocard__container__item__main") who = soup.select("div.infocard__container__item:nth-child(4)>div.infocard__container__item__main") data = { "title": title, "cost": cost[0].get_text().strip(), "time": time[0].get_text().strip(), "area": list(area[0].stripped_strings), "who": who[0].get_text().strip(), "visitor": visitor[0].get_text().strip() } print(data)
{
'title': '现货400多台液晶电脑,低价出售,保修一年,可送货,李村附近,需要请联系! - 青岛58同城', 'cost': '350 元', 'time': '2018-08-23 发布', 'area': ['李沧', '-', '李村'], 'who': '李先生', 'visitor': '0'}

 

转载于:https://www.cnblogs.com/moumangtai/p/10821347.html

你可能感兴趣的文章
C# : 操作Word文件的API - (将C# source中的xml注释转换成word文档)
查看>>
C#中字符串转换成枚举类型的方法
查看>>
Airplace平台
查看>>
TinyOS实例介绍
查看>>
我是怎么定义微服务平台?
查看>>
python random
查看>>
input输入框只允许输入数字/ 数字+小数点/ 文字+字母/ 等解决方法
查看>>
【翻译】西川善司「实验做出的游戏图形」「GUILTY GEAR Xrd -SIGN-」中实现的「纯卡通动画的实时3D图形」的秘密,前篇(2)...
查看>>
mysql 5.6 参数详解
查看>>
求旋转数组的最小元素
查看>>
Gson解析Json数组
查看>>
Lintcode: Fast Power
查看>>
Pocket Gem OA: Log Parser
查看>>
枚举也能直接转换为对应的数值输出
查看>>
angularjs1-7,供应商
查看>>
让插件帮你优化代码
查看>>
Java之路——Java初接触
查看>>
2018.12.27学习JavaScript
查看>>
理工之 A+B Problem III
查看>>
软件工程第一次作业
查看>>