AI生成文章二开版本来袭，需要的小伙伴进来看看-站长圈子-DZ插件网

AI生成文章二开版本来袭，需要的小伙伴进来看看

逝水年华

2022/09/14 19:39:55

之前发过一篇文章吐槽文案狗卖开源，然后很多人就找我说买二开好的。因为之前都是用paddle，不适合大家用的版本。折腾ai写作的过程中也对比了多个版本的AI写作项目。选定了一个效果不错且比较方便使用的版本作为二开版【毕竟不是研究自然语言的，深入搞核心有点耗费时间】。市面上分多个版本卖，我就卖一个版本，毕竟真的没有太多精力来玩各种套路。几百到几千的都有人卖，我就一口价1688【包括后续更新】。需要的老铁联系我q188224912

致敬大佬，先贴上原版开源地址：https://github.com/yangjianxin1/CPM
二开功能：
1、批量导入关键词
2、生成的文章自动存入txt文件【方便站群发布等其它处理】，如有需求可开发web发布接口，生成完成直接发布网站。
3、通过关键词自动获取百度相关搜索词【4种模式生成多标题】。
4、新增文章字数限制【文章字数如果设置为高，同样的生成程序的设置理论要高于文章字数限制，这个限制是为了筛选有些词确实无法生成对应内容。过滤垃圾质量文章】
5、新增4种标题生成模式【通过关键词采集百度相关搜索词进行组合，质量比下拉好】
6、标题去重
6、关键词去重
7、关键词断点续生成
8、任务中断监控
9、训练二开（读取内容方式二开，识别文件名为标题，或第一行为标题的方式）
使用方法python preprocess.py --data_path data/zuowen --save_path data/train.pkl --win_size 200 --step 200
在原来的python preprocess.py --mode 1
mode可为0，1，2。默认为0，从配置文件指定默认值。

10、自动配图（关键词生成图片，或随机获取百度图库任意图片进行原创）【开发完成，待上线】
11、分段自动适配【待开发】
例：
<h2>标题1</h2>
【内容】
【图片】
<h2>标题2</h2>
【内容】
【图片】
<h2>标题3</h2>
【内容】
【图片】

2022-9-06-23:06：
新增训练预处理内容识别。修复linux和windows兼容。
--------------------------功能复杂【待开发】------------------------

#代理ip功能
[Proxy-Api]
#修改urlim后的代理api，用于获取百度相关搜索词
#代理ip 使用 txt获取方式，每次获取一个，失效自动重新获取，建议使用短效IP
on-off = 1
#0为关闭代理ip，1为开启代理ip
api_url = http://api.xdaili.cn/xdaili-api//greatRecharge/getGreatIp?spiderId=00&orderno=YZ2019868334zapLCv&returnType=1&count=1
[keyword]
#关键词配置
resume = 0
#关键词断点续生成
#记录上次生成到的关键词，1为开启，0为关闭，记录后生成从该关键词开始，而不是重新生成一篇
dup_remo_keywords = 1
#关键词去重配置
#关键词去重，1为去重，0为不去重，开启去重后会自动中断重启自动从上次的记录运行，已生成的会跳过。
#选择重启程序是否清空历史关键词【待开发】
#1为重启程序清空，0为不清空
del = 0
[title]
#标题配置
mode = 1
#标题生成模式
#mode为0不使用双标题
#mode为1则设置标题为：[关键词]+相关搜索词
#mode为2则设置标题为：相关搜索词1 + 相关搜索词2
#mode为3则设置标题为：[关键词] + 相关搜索词1 + 相关搜索词2
#mode为4则设置标题为：相关搜索词1 + 相关搜索词2 + 相关搜索词2
dup_rem_title = 1
#标题去重配置
#标题去重，1为去重，0为不去重
#选择重启程序是否清空历史标题【待开发】
#1为清空，0为不清空
del = 1
[content]
#内容处理
#如果开启字数过滤，generate_new.py里生成的字数要大于过滤字数才行
str_num_filter = 100
#内容字数过滤，低于这个字数的过滤不保存。如果为0，则不开启过滤
[preprocess]
#文件训练时的文件预处理
#主要二开txt读取方式
mode = 0
#0为默认txt读取方式
#1为标题文件名，内容文件内容
#2为标题文件第一行，内容文件第一行到最后
[generate]
device = 0
#生成设备
temperature = 1
#生成温度
topk = 0
#最高几选一
topp = 0.85
#最高积累概率
repetition_penalty = 1.0
#重复惩罚参数
context_len = 200
#每一步生成时，参考的上文的长度
max_len = 300
#生成的最长长度
log_path = log/generate.log
#日志存放位置
no_cuda = store_true
#不使用GPU进行预测
model_path = model/zuowen_epoch40
#模型存放位置
keyword_file = keyword.txt
#关键词文件路径，比如放在keywords目录下就是keywords/*.txt。相对路径读取
[image]
#图片处理
save_img_path = txt/img
#图片存储路径
img_num = 3
#文章配图数量，图片字段插入段落。
img_pn = 0
#获取图片页数，，0为随机前三页获取其中3中，指定参数位获取指定页面的指定图片数量。
img_original = 1
#图片伪原创，1为过原创，0为不过原创
[article]
#文章处理
mode = 0
#文章处理模式，0为默认字数生成，1为段落生成
#段落生成采用获取相关搜索，相关搜索回来的词组成标题当做h2自动生成锻炼。每个段落自动配一张图。
section = 5
#最大生成段落数量

进入原文参与互动