为了避免侵权,今天删除了4百多W条数据
代替数据全部采用 API数据和已经声明无版权的内容,API调试了一个多星期,现在正规站没什么收入,到时要是来个侵权下来,直接嗝屁。。。。想了想,麻烦就麻烦点,还是替换下。
用爱发电,毕竟BA了,别因为爱翻车了。。。
补充一下,是怎么判断侵权内容的?
其实很简单,就是确定哪个数据来源是有侵权风险的,统一处理这个来源的的数据就可以了。
至于我采集的方法,我是被动采集的,思路很简单,蜘蛛进入这个页面时就触发采集生成内容,所以400W并不夸张,而且这400W数据只其中的一个数据源,蜘蛛一直访问,就会一直抓下去,理论上数据是没有上限的。
数据这么多,除了百度蜘蛛,所有搜索引擎的蜘蛛都是在帮我采集,必应的蜘蛛最勤快,最多时每天访问几十万个URL,也就是帮我采集了几十万页的数据。
至于对内容的理解:
对于搜索引擎来说,如果用户看到的结果都是 文不对题|毫无意义的垃圾文章
这是涉及搜搜索引擎生存的根本问题,如果结果一直是这些拉结内容,这个搜索引擎是会被用户抛弃的。
所以:内容的可读性、价值性 》 原创 》 伪原创 》 拼凑
如果处理后的内容没有可读性,我觉得是没有任何价值的,就算一时能欺骗搜索引擎,长期对网站来说,这个网站没有长期。
当然,对于灰色、短期一波的网站来说,没有长期这一说,所以例外。
用爱发电,毕竟BA了,别因为爱翻车了。。。
补充一下,是怎么判断侵权内容的?
其实很简单,就是确定哪个数据来源是有侵权风险的,统一处理这个来源的的数据就可以了。
至于我采集的方法,我是被动采集的,思路很简单,蜘蛛进入这个页面时就触发采集生成内容,所以400W并不夸张,而且这400W数据只其中的一个数据源,蜘蛛一直访问,就会一直抓下去,理论上数据是没有上限的。
数据这么多,除了百度蜘蛛,所有搜索引擎的蜘蛛都是在帮我采集,必应的蜘蛛最勤快,最多时每天访问几十万个URL,也就是帮我采集了几十万页的数据。
至于对内容的理解:
对于搜索引擎来说,如果用户看到的结果都是 文不对题|毫无意义的垃圾文章
这是涉及搜搜索引擎生存的根本问题,如果结果一直是这些拉结内容,这个搜索引擎是会被用户抛弃的。
所以:内容的可读性、价值性 》 原创 》 伪原创 》 拼凑
如果处理后的内容没有可读性,我觉得是没有任何价值的,就算一时能欺骗搜索引擎,长期对网站来说,这个网站没有长期。
当然,对于灰色、短期一波的网站来说,没有长期这一说,所以例外。