·设为首页收藏本站📧邮箱修改🎁免费下载专区💎积分✅卡密📒收藏夹👽聊天室
12
返回列表 发布新帖

关键词库过滤重复 求方法

评论19

拾光Lv.8 发表于 2022-4-6 22:29:17 | 查看全部
那不科学。目前我用的可行  只是速度跟不上。。。除非硬件提升
我要说一句 收起回复
创宇盾启航版免费网站防御网站加速服务
CrystαlLv.8 发表于 2022-4-6 22:29:26 | 查看全部
这个玩意实现了。。。我收录至少上涨40%
我要说一句 收起回复
婷姐Lv.8 发表于 2022-4-6 22:29:50 | 查看全部
自己学规则写
我要说一句 收起回复
婷姐Lv.8 发表于 2022-4-6 22:30:06 | 查看全部
那你就用数据库 ,用Redis
我要说一句 收起回复
IT618发布Lv.8 发表于 2022-4-6 22:31:05 | 查看全部
都这么智能了吗
我要说一句 收起回复
TyCodingLv.8 发表于 2022-4-6 22:31:16 | 查看全部
时间是卡在处理分词上。。。。这和数据库有啥关系。。。
我要说一句 收起回复
IT618发布Lv.8 发表于 2022-4-6 22:31:30 | 查看全部
我觉得应该  根据关键词生成内容的代码贴出来 才更能突显你的真诚
我要说一句 收起回复
独家记忆Lv.8 发表于 2022-4-6 22:31:54 | 查看全部
这就过分了哈
我要说一句 收起回复
婷姐Lv.8 发表于 2022-4-6 22:32:49 | 查看全部
用gpu运算 就不吃内存了
我要说一句 收起回复
拾光Lv.8 发表于 2022-4-6 22:33:05 | 查看全部
本帖最后由 小千 于 2022-4-6 23:06 编辑

我在github上看到一个无分词,查相关的代码,甚至断词也能匹配,不过需要数据库,不适合用内存。
一句话比如“123456”分成“12 23 34 45 56”用余旋相似度去重

https://github.com/ferrero-zhang/recommend/blob/master/iRecommend4App/src/com/ifeng/iRecommend/zhanzh/Utils/AdjStringsIsSim.java


作用 :

*   自创的快速近似相似度算法,思路是取相邻词,算交集,求相似度

*   example: 哈尔滨红肠--> [哈尔,尔滨,滨红,红肠]

*            哈滨红肠-->[哈滨,滨红,红肠]

*   适用场景:标题近似排重,标题间的微小差异,比如主体结构相同,但相差几个字
我要说一句 收起回复

回复

 懒得打字嘛,点击右侧快捷回复【查看最新发布】   【应用商城享更多资源】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

创宇盾启航版免费网站防御网站加速服务
投诉/建议联系

discuzaddons@vip.qq.com

未经授权禁止转载,复制和建立镜像,
如有违反,按照公告处理!!!
  • 联系QQ客服
  • 添加微信客服

联系DZ插件网微信客服|最近更新|Archiver|手机版|小黑屋|DZ插件网! ( 鄂ICP备20010621号-1 )|网站地图 知道创宇云防御

您的IP:18.218.223.84,GMT+8, 2024-11-5 23:37 , Processed in 0.194446 second(s), 122 queries , Gzip On, Redis On.

Powered by Discuz! X5.0 Licensed

© 2001-2024 Discuz! Team.

关灯 在本版发帖
扫一扫添加微信客服
QQ客服返回顶部
快速回复 返回顶部 返回列表