大佬帮忙测试一下,手上没有python环境
以下是一个简单的Python程序,可以从指定的小说网站中采集小说内容,并将其导出为TXT格式文件。
import requests
from bs4 import BeautifulSoup
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 输入小说的URL地址
novel_url = input("请输入小说的URL地址:")
# 发送请求,获取小说的HTML页面
response = requests.get(novel_url, headers=headers)
html = response.text
# 使用BeautifulSoup解析HTML页面
soup = BeautifulSoup(html, 'html.parser')
# 获取小说的标题和作者
title = soup.find('h1').text.strip()
author = soup.find('div', class_='author').text.strip()
# 创建TXT文件,保存小说内容
with open(title + '.txt', 'w', encoding='utf-8') as f:
f.write(title + '\n\n')
f.write('作者:' + author + '\n\n')
# 获取小说的章节列表
chapter_list = soup.find('div', class_='list').find_all('a')
# 遍历章节列表,获取每个章节的内容
for chapter in chapter_list:
chapter_url = chapter['href']
chapter_title = chapter.text.strip()
# 发送请求,获取章节的HTML页面
response = requests.get(chapter_url, headers=headers)
html = response.text
# 使用BeautifulSoup解析HTML页面
soup = BeautifulSoup(html, 'html.parser')
# 获取章节的内容
content = soup.find('div', class_='content').text.strip()
# 将章节的标题和内容写入TXT文件
f.write(chapter_title + '\n\n')
f.write(content + '\n\n')
使用方法:
将以上代码复制到Python编辑器中,保存为novel_crawler.py文件。
运行novel_crawler.py文件。
在命令行中输入小说的URL地址,例如:https://www.xxxx.com/xxxxx.html。
程序会自动采集小说内容,并将其保存为TXT格式文件,文件名为小说的标题。
import requests
from bs4 import BeautifulSoup
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 输入小说的URL地址
novel_url = input("请输入小说的URL地址:")
# 发送请求,获取小说的HTML页面
response = requests.get(novel_url, headers=headers)
html = response.text
# 使用BeautifulSoup解析HTML页面
soup = BeautifulSoup(html, 'html.parser')
# 获取小说的标题和作者
title = soup.find('h1').text.strip()
author = soup.find('div', class_='author').text.strip()
# 创建TXT文件,保存小说内容
with open(title + '.txt', 'w', encoding='utf-8') as f:
f.write(title + '\n\n')
f.write('作者:' + author + '\n\n')
# 获取小说的章节列表
chapter_list = soup.find('div', class_='list').find_all('a')
# 遍历章节列表,获取每个章节的内容
for chapter in chapter_list:
chapter_url = chapter['href']
chapter_title = chapter.text.strip()
# 发送请求,获取章节的HTML页面
response = requests.get(chapter_url, headers=headers)
html = response.text
# 使用BeautifulSoup解析HTML页面
soup = BeautifulSoup(html, 'html.parser')
# 获取章节的内容
content = soup.find('div', class_='content').text.strip()
# 将章节的标题和内容写入TXT文件
f.write(chapter_title + '\n\n')
f.write(content + '\n\n')
使用方法:
将以上代码复制到Python编辑器中,保存为novel_crawler.py文件。
运行novel_crawler.py文件。
在命令行中输入小说的URL地址,例如:https://www.xxxx.com/xxxxx.html。
程序会自动采集小说内容,并将其保存为TXT格式文件,文件名为小说的标题。