万能的站长，我想用python抓取这几个数据，请教该怎么写法

IT618发布 · 发表于 2023-10-12 15:19:07

需要登录状态才能多查看些关键词可以抓爱站的词

拾光 · 发表于 2023-10-12 15:19:22

不用登录，就抓取动态加载之后能看得到数据就可以了

Crystαl · 发表于 2023-10-12 15:19:57

不懂帮顶

浅生 · 发表于 2023-10-12 15:20:45

不是有API调用接口吗...

独家记忆 · 发表于 2023-10-12 15:21:28

不懂，楼下来说说

独家记忆 · 发表于 2023-10-12 15:21:43

API需要钱，我想免费抓取几个数据就可以了

拾光 · 发表于 2023-10-12 15:22:15

来看看高手是怎么弄的

浅生 · 发表于 2023-10-12 15:22:57

来看看大佬是的答案

TyCoding · 发表于 2023-10-12 15:23:11

路过，帮顶

浅生 · 发表于 2023-10-12 15:23:25

import requests
from lxml import etree

url = 'https://www.aizhan.com/cha/baidu.com/'
headers = {
"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.200',
}
res = requests.get(url, headers=headers)
html = etree.HTML(res.text)
pcWords = html.xpath('//*[@id="cc1"]/text()')
wapWords = html.xpath('//*[@id="cc2"]/text()')
shoulu3_1days = html.xpath('//*[@id="shoulu3_1days"]/text()')
shoulu3_7days = html.xpath('//*[@id="shoulu3_7days"]/text()')
shoulu3_30days = html.xpath('//*[@id="shoulu3_30days"]/text()')
print('PC词数:' + pcWords[0])
print('wap词数:' + wapWords[0])
print('24词数:' + shoulu3_1days[0])
print('7天词数:' + shoulu3_7days[0])
print('30天词数:' + shoulu3_30days[0])