去评论
dz插件网

AI生成文章二开版本来袭,需要的小伙伴进来看看

逝水年华
2022/09/14 19:39:55
之前发过一篇文章吐槽文案狗卖开源,然后很多人就找我说买二开好的。因为之前都是用paddle,不适合大家用的版本。折腾ai写作的过程中也对比了多个版本的AI写作项目。选定了一个效果不错且比较方便使用的版本作为二开版【毕竟不是研究自然语言的,深入搞核心有点耗费时间】。市面上分多个版本卖,我就卖一个版本,毕竟真的没有太多精力来玩各种套路。几百到几千的都有人卖,我就一口价1688【包括后续更新】。需要的老铁联系我q188224912

致敬大佬,先贴上原版开源地址:https://github.com/yangjianxin1/CPM
二开功能:
1、批量导入关键词
2、生成的文章自动存入txt文件【方便站群发布等其它处理】,如有需求可开发web发布接口,生成完成直接发布网站。
3、通过关键词自动获取百度相关搜索词【4种模式生成多标题】。
4、新增文章字数限制  【文章字数如果设置为高,同样的生成程序的设置理论要高于文章字数限制,这个限制是为了筛选有些词确实无法生成对应内容。过滤垃圾质量文章】
5、新增4种标题生成模式【通过关键词采集百度相关搜索词进行组合,质量比下拉好】
6、标题去重
6、关键词去重
7、关键词断点续生成
8、任务中断监控
9、训练二开(读取内容方式二开,识别文件名为标题,或第一行为标题的方式)
使用方法python preprocess.py --data_path data/zuowen --save_path data/train.pkl --win_size 200 --step 200
在原来的python preprocess.py --mode 1
mode可为0,1,2。默认为0,从配置文件指定默认值。


10、自动配图(关键词生成图片,或随机获取百度图库任意图片进行原创)【开发完成,待上线】
11、分段自动适配【待开发】
例:
<h2>标题1</h2>
【内容】
【图片】
<h2>标题2</h2>
【内容】
【图片】
<h2>标题3</h2>
【内容】
【图片】

2022-9-06-23:06:
新增训练预处理内容识别。修复linux和windows兼容。
--------------------------功能复杂【待开发】------------------------



#代理ip功能
[Proxy-Api]
#修改urlim后的代理api,用于获取百度相关搜索词
#代理ip 使用 txt获取方式,每次获取一个,失效自动重新获取,建议使用短效IP
on-off = 1
#0为关闭代理ip1为开启代理ip
api_url = http://api.xdaili.cn/xdaili-api//greatRecharge/getGreatIp?spiderId=00&orderno=YZ2019868334zapLCv&returnType=1&count=1
[keyword]
#关键词配置
resume  = 0
#关键词断点续生成
#记录上次生成到的关键词,1为开启,0为关闭,记录后生成从该关键词开始,而不是重新生成一篇
dup_remo_keywords = 1
#关键词去重配置
#关键词去重,1为去重,0为不去重,开启去重后会自动中断重启自动从上次的记录运行,已生成的会跳过。
#选择重启程序是否清空历史关键词【待开发】
#1为重启程序清空,0为不清空
del = 0
[title]
#标题配置
mode = 1
#标题生成模式
#mode0不使用双标题
#mode1则设置标题为:[关键词]+相关搜索词
#mode2则设置标题为:相关搜索词1 + 相关搜索词2
#mode3则设置标题为:[关键词] + 相关搜索词1 + 相关搜索词2
#mode4则设置标题为:相关搜索词1 + 相关搜索词2 + 相关搜索词2
dup_rem_title = 1
#标题去重配置
#标题去重,1为去重,0为不去重
#选择重启程序是否清空历史标题【待开发】
#1为清空,0为不清空
del = 1
[content]
#内容处理
#如果开启字数过滤,generate_new.py里生成的字数要大于过滤字数才行
str_num_filter = 100
#内容字数过滤,低于这个字数的过滤不保存。如果为0,则不开启过滤
[preprocess]
#文件训练时的文件预处理
#主要二开txt读取方式
mode = 0
#0为默认txt读取方式
#1为标题文件名,内容文件内容
#2为标题文件第一行,内容文件第一行到最后
[generate]
device = 0
#生成设备
temperature = 1
#生成温度
topk = 0
#最高几选一
topp = 0.85
#最高积累概率
repetition_penalty = 1.0
#重复惩罚参数
context_len = 200
#每一步生成时,参考的上文的长度
max_len = 300
#生成的最长长度
log_path = log/generate.log
#日志存放位置
no_cuda = store_true
#不使用GPU进行预测
model_path = model/zuowen_epoch40
#模型存放位置
keyword_file = keyword.txt
#关键词文件路径,比如放在keywords目录下就是keywords/*.txt。相对路径读取
[image]
#图片处理
save_img_path = txt/img
#图片存储路径
img_num = 3
#文章配图数量,图片字段插入段落。
img_pn = 0
#获取图片页数,,0为随机前三页获取其中3中,指定参数位获取指定页面的指定图片数量。
img_original = 1
#图片伪原创,1为过原创,0为不过原创
[article]
#文章处理
mode = 0
#文章处理模式,0为默认字数生成,1为段落生成
#段落生成采用获取相关搜索,相关搜索回来的词组成标题当做h2自动生成锻炼。每个段落自动配一张图。
section = 5
#最大生成段落数量