本帖最后由 小千 于 2022-4-6 23:06 编辑
我在github上看到一个无分词,查相关的代码,甚至断词也能匹配,不过需要数据库,不适合用内存。
一句话比如“123456”分成“12 23 34 45 56”用余旋相似度去重
https://github.com/ferrero-zhang/recommend/blob/master/iRecommend4App/src/com/ifeng/iRecommend/zhanzh/Utils/AdjStringsIsSim.java
作用 : |
| * 自创的快速近似相似度算法,思路是取相邻词,算交集,求相似度 |
| * example: 哈尔滨红肠--> [哈尔,尔滨,滨红,红肠] |
| * 哈滨红肠-->[哈滨,滨红,红肠] |
| * 适用场景:标题近似排重,标题间的微小差异,比如主体结构相同,但相差几个字 |
|