python爬虫re+requests+bs4爬取汽车之家全部过程,附代码。支持互联网免费至上,看了全部关于汽车之家的文章都是收费的,我很看不过去

爬虫项目讲解 我做的是爬取汽车之家全部车型以及配置表的爬虫代码 我们要爬取的就是这个网站 https:www.autohome 这边我已经爬取完毕,但是有一些错误,后续说第一步先找到汽车之家全部的车型通过刷新网络

爬虫项目讲解

 

我做的是爬取汽车之家全部车型以及配置表的爬虫代码

我们要爬取的就是这个网站 https://www.autohome

这边我已经爬取完毕,但是有一些错误,后续说

 第一步先找到汽车之家全部的车型

 

 通过刷新网络然后就可以找到了车型库的链接了

https://car.autohome/AsLeftMenu/As_LeftListNew.ashx?typeId=2%20&brandId=0%20&fctId=0%20&seriesId=0

 原本的车型库地址是上面这个,但是后来搞糊涂了,typeid的值让我换成了1,就将错就错的一直写下去了,不过思路都是一样的(其实是原本的地址车型太多了,更容易出错)

我写的车型库地址是下面这个

 https://car.autohome/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=134%20&fctId=0%20&seriesId=0

 找到了车型库的地址那我们就要把全部的车型都给爬出来先

第一步代码如下

#先引入几个爬虫常用的库,都是新手级别的,我也是刚学python几天,没事摸摸鱼练练手
import requests
import re
from bs4 import BeautifulSoup


#1.创建一个访问网页的函数
def askurl(url):
    headers = {
        "user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36 QIHU 360SE"
    }
    html = requests.get(url,headers=headers)
    return html.text



#2.先获取到车型库的车型
def getcars():
    html = askurl('https://car.autohome/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=134%20&fctId=0%20&seriesId=0')
    print(html)



#3.运行代码
def main():
    getcars()




#4.主程序
if __name__ == '__main__':
    main()

运行得到以下的数据,通过观察,可以看到每个厂家都有固定的brand值,那这个brand值的作用就是可以从刚刚的车型库链接获取到车厂所有的车型,例如本田的可以获取到雅阁这个车型的某些值

我们把第一个brand的值替换掉车型库链接的brandid的值,就可以展开车厂所拥有的车型链接了

发布者:admin,转转请注明出处:http://www.yc00.com/web/1740122391a4193266.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信