这才是增加收录的核心操作方向
https://www.4414.cn/thread-104733-1-1.html
接某人贴,基本回答了反向操作如何避坑收录。我想补充的是
从内容角度,无论什么操作,比如替换,打乱,重组句子,加干扰码等等都是为了想利用伪原创达到以假乱真的目的从而让百度识别是原创,这在17年AI大模型出来之前是非常有用的,然而百度AI模型的出现后基本能够识别以上操作,所以无效,这也是很多做采集站的人的策略失效反反复复,无论何种骚操作,一顿操作猛如虎,其实都是有实效性,最终是在帮百度完成训练提高他的模型识别度。不知道站长圈有没有人玩中国象棋,举个例子:目前最强的AI软件是旋风,小虫,棋友们每天试图找出软件的漏洞,以为可以利用此漏洞战胜对手的AI软件,殊不知,棋友们辛辛苦苦在帮软件完善AI训练,走到今天2022年,采集这条路很艰难了。
第二个问题原创的东西就一定收录?比如AI生成就一定能收录?从我的观察来看,大胆猜测目前百度增加了收录后的筛选模型,即收录之后会再次筛选主要依靠相关性模型来排除,也就是我们说的掉收录。什么样的是最好的,从最近的比较流行的收录类型就是百度偏好问答类的内容。鼓励站长做TOP1的站,以目前实际操作来看,基本可以做到90%收录不大掉收录的情况。
第三个问题是出词,收录不等于出词,收录1w篇出词100个和收录10篇出词100个是有本质的区别,这也是很多新手们的误区,1w不行,就一千万篇,总之大力出奇迹死劲怼。
以目前这个8月份这个时间点,百度是有相关性模型判断的,更喜欢相关性的东西,当然后面百度肯定会变,我曾在4月份做过测试
拿AI生成去做,主要是为了原创节省时间,排除非原创因素的干扰
结论是两种操作相同点都是逻辑性强,句子通顺,一种是非相关性,一种是相关性(相关性包含上下文段落的一致性,和整篇内容与标题的分词相关两方面),当然还有个特别现象,就是高度相关性,过度收敛(涉及到训练的样本数和加入了相关词造成两方面)
两种方案出词结果就是出现明显的区别和掉收录,也印证了百度常挂在嘴边的要产出高质量文章
这是第三个核心问题高质量
百度偏好问答类的内容就属于高质量
百度模型对这种很好识别,而且基本做到90%的识别率高质量,因为结构简单,排版清晰,我猜想百度是有高质量识别模型的
你们可以参考问答类的内容标准写法,记住是标准写法
基本这一类的站,我实操可以达到权6 权7的水平
当然除了从内容上判定高质量,还有很多识别参数,比如排版,图文结合,段落的有序排名,H1 H2的总结等等,还有其他加分项,TAG聚合,列表聚合,模型的新旧等等,有很多判断,这个要做到高,就是每个人的seo功力问题了。
另外一种比较复杂就是行业站,根据我的观察,不同行业,类型采用的策略是不一样。这个最复杂,我认为百度是专门针对不同行业采取不一样的识别模型的,很多人经常怀疑为什么一样的操作手法换行业就不一样了,下次再开个贴,这个也是最有趣的。
以上做法只是针对百度,谷歌和必应其实从操作来看,个人觉得比百度更简单,他们的策略会有所区别。尤其是必应,最近在搞必应,已经做到大词霸屏多个内页的程度。改天再讨论下。
接某人贴,基本回答了反向操作如何避坑收录。我想补充的是
从内容角度,无论什么操作,比如替换,打乱,重组句子,加干扰码等等都是为了想利用伪原创达到以假乱真的目的从而让百度识别是原创,这在17年AI大模型出来之前是非常有用的,然而百度AI模型的出现后基本能够识别以上操作,所以无效,这也是很多做采集站的人的策略失效反反复复,无论何种骚操作,一顿操作猛如虎,其实都是有实效性,最终是在帮百度完成训练提高他的模型识别度。不知道站长圈有没有人玩中国象棋,举个例子:目前最强的AI软件是旋风,小虫,棋友们每天试图找出软件的漏洞,以为可以利用此漏洞战胜对手的AI软件,殊不知,棋友们辛辛苦苦在帮软件完善AI训练,走到今天2022年,采集这条路很艰难了。
第二个问题原创的东西就一定收录?比如AI生成就一定能收录?从我的观察来看,大胆猜测目前百度增加了收录后的筛选模型,即收录之后会再次筛选主要依靠相关性模型来排除,也就是我们说的掉收录。什么样的是最好的,从最近的比较流行的收录类型就是百度偏好问答类的内容。鼓励站长做TOP1的站,以目前实际操作来看,基本可以做到90%收录不大掉收录的情况。
第三个问题是出词,收录不等于出词,收录1w篇出词100个和收录10篇出词100个是有本质的区别,这也是很多新手们的误区,1w不行,就一千万篇,总之大力出奇迹死劲怼。
以目前这个8月份这个时间点,百度是有相关性模型判断的,更喜欢相关性的东西,当然后面百度肯定会变,我曾在4月份做过测试
拿AI生成去做,主要是为了原创节省时间,排除非原创因素的干扰
结论是两种操作相同点都是逻辑性强,句子通顺,一种是非相关性,一种是相关性(相关性包含上下文段落的一致性,和整篇内容与标题的分词相关两方面),当然还有个特别现象,就是高度相关性,过度收敛(涉及到训练的样本数和加入了相关词造成两方面)
两种方案出词结果就是出现明显的区别和掉收录,也印证了百度常挂在嘴边的要产出高质量文章
这是第三个核心问题高质量
百度偏好问答类的内容就属于高质量
百度模型对这种很好识别,而且基本做到90%的识别率高质量,因为结构简单,排版清晰,我猜想百度是有高质量识别模型的
你们可以参考问答类的内容标准写法,记住是标准写法
基本这一类的站,我实操可以达到权6 权7的水平
当然除了从内容上判定高质量,还有很多识别参数,比如排版,图文结合,段落的有序排名,H1 H2的总结等等,还有其他加分项,TAG聚合,列表聚合,模型的新旧等等,有很多判断,这个要做到高,就是每个人的seo功力问题了。
另外一种比较复杂就是行业站,根据我的观察,不同行业,类型采用的策略是不一样。这个最复杂,我认为百度是专门针对不同行业采取不一样的识别模型的,很多人经常怀疑为什么一样的操作手法换行业就不一样了,下次再开个贴,这个也是最有趣的。
以上做法只是针对百度,谷歌和必应其实从操作来看,个人觉得比百度更简单,他们的策略会有所区别。尤其是必应,最近在搞必应,已经做到大词霸屏多个内页的程度。改天再讨论下。