2024年4月13日发(作者:)
python爬取豆瓣读书短评代码
爬取豆瓣读书短评需要使用到Python的requests和
BeautifulSoup库。以下是一个简单的爬虫示例,用于获取指定图书
的短评列表。
注意:由于豆瓣网站的结构可能会改变,此代码可能需要相应
地进行调整。此外,频繁的爬取可能会导致你的IP地址被封禁,因
此请确保尊重网站的文件和使用条款。
import requests
from bs4 import BeautifulSoup
def get_book_reviews(book_id):
url = f"这里填上豆瓣网址
/subject/{book_id}/reviews/"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0;
Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/91.0.4472.124 Safari/537.36"
}
response = (url, headers=headers)
soup = BeautifulSoup(, "")
reviews = _all("div",
class_="review-item")[:100] # 获取前100条短评,可根据需要
调整
for review in reviews:
title = ("span", class_="title").text
rating = ("div",
class_="star").find("span", class_="rating_num").text
content
class_="content").text
print(f"标题: {title}n评分: {rating}n内容:
{content}n")
# 使用方法,将book_id替换为你要爬取的图书ID
get_book_reviews("123456")
这个代码将获取指定图书的前100条短评,并将每条短评的标
题、评分和内容打印出来。请注意,豆瓣的短评页面结构可能会改变,
因此你可能需要调整这段代码以适应新的页面结构。
= ("p",
发布者:admin,转转请注明出处:http://www.yc00.com/news/1713014055a2166778.html
评论列表(0条)