·设为首页收藏本站📧邮箱修改🎁免费下载专区💎积分✅卡密📒收藏夹👽聊天室
返回列表 发布新帖

谁能帮忙把这个帖子转载过来

267 4

马上注册,免费下载更多dz插件网资源。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
我百度论坛账号没有回帖权限看不成
http://bbs.zhanzhang.baidu.com/thread-2195298-1-1.html
我要说一句 收起回复
创宇盾启航版免费网站防御网站加速服务

评论4

独家记忆Lv.8 发表于 2022-8-4 16:27:52 | 查看全部
其实很多算法在搜索引擎、自媒体、短视频等平台都是通用的,理解算法不论是做搜索还是转行自媒体都是有帮助的。
很多算法高等数学,看不懂啊,用通俗的方式来讲解见谅!比如Jaccard相似度算法完全看不懂如下:

现在还有很多AI算法分析语义向量,情感分析,相关性、特征样本分析此类算法不是很懂不讲解!有些算法并不适合海量数据,可能部分站长使用过ai有关工具,单机单次数据处理,处理时间是秒级别时间,碰到海量数据肯定不适用!

---------正文----------
内容相似度算法
主要讲两个算法,其实相似度算法很多,但是支持海量数据去重的只有Simhash算法。

本帖隐藏的内容
Jaccard相似度:
首先要提取标题或者内容特征作为相似性判断,要通过标题分词或者TF-IDF进行提取特征。
原理A文章与B文章中交集的字数除以并集的字数。
以标题分词为例:
A文章:电脑 蓝屏 怎么 解决
B文章:电脑 蓝屏 原因 什么

结果0.66这个系数则是A文章与B文章的相似度,越接近1证明内容相似度越高。
此算法海量数据下,比对性能下降严重,我自己测试三千万数据单机每次比对0.05秒。
Simhash:
内容去重最常用的算法,基本大厂都是用,占用小速度快,支持海量数据,10亿内容占用内存才100MB。
首先整个内容,通过分词提取特征(特征提取一般是几句话或topK),将特征词进行运算为64字节二进制,每个特征词分配不同权重,再将全部特征词的64字节二进制合并降维,通过汉明距离进行两个64字节比对,小于等于3则是重复内容。

弊端也是很严重的,比如准确率80%,所以会出现漏网之鱼,但是性能高速度快,应对每日增量很好用。



内容推荐算法

本帖隐藏的内容
不知道算法名称,但是知道原理,这并不是某某公司原创的。
不论是图片、文字、视频机器并不知道有用户需求,因此就需要把内容推荐给一部分少量的用户群体,来检测用户是否点击、观看完整、跳出、收藏评论等等,进行判断内容是否有需求,有需求则认为内容是有质量的给予更多曝光,进入下一阶段推送流量池。
不论是搜索引擎或短视频自媒体平台都有这类算法。
以搜索引擎为例:
1、 当内容秒收录后,给予一段时间排名,过一段时间消失就是进行这类算法分析。
2、 资源平台的“流量与关键词”经常看到,有展现和点击,但是自己搜索不到,也是如此。

以百家号/自媒体/短视频为例:
1、 将内容或视频第一轮推送给200人进行分析,符合一定系数,进行第二轮推送推送给1000人,以此类推,推送第N轮不符合系数停止推送。
2、 如果视频内容每次推荐几十或几百,就要考虑自己的内容质量了,很多人高兴转型自媒体,每天小有播放量,其实这个播放量算法给的

协同过滤的推荐算法

本帖隐藏的内容
其实协同过滤用途很多,比如百家号自媒体推荐。记录用户的经常访问的内容,作为喜欢这类内容的特征,通过以下方式来推荐喜欢和可能喜欢的内容。

A用户:喜欢橘子、西瓜、芒果 不喜欢菠萝、榴莲。
B用户:喜欢西瓜、橘子、苹果 不喜欢荔枝、菠萝。

通过算法协同算法可以得出

A用户可能喜欢苹果,不喜欢荔枝。
B用户可能喜欢芒果,不喜欢榴莲。
通常文字内容通过标题内容提取特征,视频择通过标签标题来提取特征推荐。更复杂的系统使用年龄段,性别,学历等等推荐,这就是大家常说的大数据。

用户行为推荐算法
根据用户搜索行为与点击行为对用户进行分析,当用户点击某个搜索结果时候,这篇内容对用户有需求,解决了用户的问题,没有跳出点击其他搜索结果页其他站点,搜索则会认为内容是优质的有需求的
详细用户行为介绍帖子:
“用户需求”的判定方式 http://bbs.zhanzhang.baidu.com/thread-2192126-1-1.html
“用户需求”深度分析理解!http://bbs.zhanzhang.baidu.com/thread-2195293-1-1.html
超链接有关算法

本帖隐藏的内容
以前搜索引擎无法知道内容用户是否喜欢,因此通过超链接来分析,不过这类算法都被淘汰了,容易作弊,通过友链外链堆砌即可,某些产业来讲十分容易。
不论百度还是其他搜索引擎已经都没有与外链友链有关的工具。
2015年7月3日发布的《超链算法升级,外链拒绝功能下线》 提到“站点进行外链建设可满足被搜索引擎蜘蛛发现收录的需求,和超链权重计算的需求。但目前百度仅信任非常小范围内的优质重要外链,站点只要获得一些重要的、基本内容相关站点的超链即可满足需求。在这一点上,PC端与移动端是相互贯通的。百度站长平台在此呼吁各位站点,不要再为外链浪费时间与金钱了。”
其中“信任非常小范围内的优质重要外链”可能就是几个大平台站带,内容可控,作弊几率小
公告地址:https://ziyuan.baidu.com/wiki/407
PageRank算法:
多个URL链接指向自己页面,来表明此页面拥有大量用户分享是优质页面!
Hilltop算法:
Hilltop是PageRank的升级版,因为多个指向URL链接可能不相关,所以增加了一层分析页面是否相关,来判断页面是否是优质页面!
HITS算法:
是页面重要性分析算法,适用于内、外链接算法!
“其他页面指向此网页链接”和“此网页指向其他链接”,会给此网页分配“内容权重”和“链接权重”,通过页面与页面之间的相互连接,相互传递来分析内容权威度和质量,页面被其他页面引用越多,质量越高。


站点信任表现算法
本帖隐藏的内容
TrustRank算法:
主要观察内容类型,内容独特性,内容原创,内容更新频率,站点稳定,站点40X/50X错误数量,站点历史等等来提高网站权威性,会增加收录和排名。
我要说一句 收起回复
拾光Lv.8 发表于 2022-8-4 16:28:01 | 查看全部
如果百度自己遵守这些算法,何至于走到现在这个地步!!
我要说一句 收起回复
CrystαlLv.8 发表于 2022-8-4 16:28:14 | 查看全部
百度算法。。
我要说一句 收起回复
TyCodingLv.8 发表于 2022-8-4 16:28:22 | 查看全部
我的也回不了  搞不懂为啥之前都行
我要说一句 收起回复

回复

 懒得打字嘛,点击右侧快捷回复【查看最新发布】   【应用商城享更多资源】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

创宇盾启航版免费网站防御网站加速服务
投诉/建议联系

discuzaddons@vip.qq.com

未经授权禁止转载,复制和建立镜像,
如有违反,按照公告处理!!!
  • 联系QQ客服
  • 添加微信客服

联系DZ插件网微信客服|最近更新|Archiver|手机版|小黑屋|DZ插件网! ( 鄂ICP备20010621号-1 )|网站地图 知道创宇云防御

您的IP:3.145.69.185,GMT+8, 2024-12-22 22:11 , Processed in 0.251115 second(s), 106 queries , Gzip On, Redis On.

Powered by Discuz! X5.0 Licensed

© 2001-2024 Discuz! Team.

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表