当前位置:网站首页>Pattern matching: The gestalt approach一种序列的文本相似度方法
Pattern matching: The gestalt approach一种序列的文本相似度方法
2020-11-06 01:28:06 【IT界的小小小学生】
转载请注明原创:https://blog.csdn.net/HHTNAN
Pattern matching: The gestalt approach
python 比较两个序列的相似度,不需要分词
案例1
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="股癣是什么样子的?怎么治疗股癣好?"
print (difflib.SequenceMatcher(None,a,b).ratio())
输出:
0.06666666666666667
案例2
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="做子宫肌瘤微创手术具体费用"
print (difflib.SequenceMatcher(None,a,b).ratio())
输出:
0.769230769
案例3
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="具体费用做子宫肌瘤微创手术"
print (difflib.SequenceMatcher(None,a,b).ratio())
输出:
0.6923076923076923
案例4
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="具体费用子宫肌瘤做微创手术"
print (difflib.SequenceMatcher(None,a,b).ratio())
0.6153846153846154
通过上面的案例可以看出本算法侧重的,是序列的相似性。会忽视主体的词义、语义。
该算法计算返回的分数为共同发现的序列字符数的两倍除以两个字符串中的字符总数; 得分以整数形式返回,反映百分比匹配。
目前猜测算法计算公式,
如果序列中位置没有完全匹配,如案例3,则其计算分数为9/13,9为最大公共字串,13为总字符序列数,案例4为8/13的结果,理解为4+4/13的结果。那么问题来了为什么案例2中最大9为最大公共字串的分数是那么高,应该是有一个位置完全一致得分+1.即其结果理解为9+1/13得到的结果。以上猜想均为根据测试进行猜想,并未进行有效验证,并不权威哦,后面我找到论文后拜读下,再做整理。(值得注意的是再进行过程中是以B字符为基准进行的。)
案例5
import difflib
a=“10个月宝宝贫血”
b=“10个月宝宝流鼻血”
print (difflib.SequenceMatcher(None,a,b).ratio())
输出
0.8235294117647058
(7+8)+1/len(a)+len(b)=7*2/8+9=0.8235294117647058
转载请注明原创:https://blog.csdn.net/HHTNAN
版权声明
本文为[IT界的小小小学生]所创,转载请带上原文链接,感谢
https://vip01.blog.csdn.net/article/details/87933434
边栏推荐
- C++ 数字、string和char*的转换
- C++学习——centos7上部署C++开发环境
- C++学习——一步步学会写Makefile
- C++学习——临时对象的产生与优化
- C++学习——对象的引用的用法
- C++编程经验(6):使用C++风格的类型转换
- Won the CKA + CKS certificate with the highest gold content in kubernetes in 31 days!
- C + + number, string and char * conversion
- C + + Learning -- capacity() and resize() in C + +
- C + + Learning -- about code performance optimization
猜你喜欢
-
C + + programming experience (6): using C + + style type conversion
-
Latest party and government work report ppt - Park ppt
-
在线身份证号码提取生日工具
-
Online ID number extraction birthday tool
-
️野指针?悬空指针?️ 一文带你搞懂!
-
Field pointer? Dangling pointer? This article will help you understand!
-
HCNA Routing&Switching之GVRP
-
GVRP of hcna Routing & Switching
-
Seq2Seq实现闲聊机器人
-
【闲聊机器人】seq2seq模型的原理
随机推荐
- LeetCode 91. 解码方法
- Seq2seq implements chat robot
- [chat robot] principle of seq2seq model
- Leetcode 91. Decoding method
- HCNA Routing&Switching之GVRP
- GVRP of hcna Routing & Switching
- HDU7016 Random Walk 2
- [Code+#1]Yazid 的新生舞会
- CF1548C The Three Little Pigs
- HDU7033 Typing Contest
- HDU7016 Random Walk 2
- [code + 1] Yazid's freshman ball
- CF1548C The Three Little Pigs
- HDU7033 Typing Contest
- Qt Creator 自动补齐变慢的解决
- HALCON 20.11:如何处理标定助手品质问题
- HALCON 20.11:标定助手使用注意事项
- Solution of QT creator's automatic replenishment slowing down
- Halcon 20.11: how to deal with the quality problem of calibration assistant
- Halcon 20.11: precautions for use of calibration assistant
- “十大科学技术问题”揭晓!|青年科学家50²论坛
- "Top ten scientific and technological issues" announced| Young scientists 50 ² forum
- 求反转链表
- Reverse linked list
- js的数据类型
- JS data type
- 记一次文件读写遇到的bug
- Remember the bug encountered in reading and writing a file
- 单例模式
- Singleton mode
- 在这个 N 多编程语言争霸的世界,C++ 究竟还有没有未来?
- In this world of N programming languages, is there a future for C + +?
- es6模板字符
- js Promise
- js 数组方法 回顾
- ES6 template characters
- js Promise
- JS array method review
- 【Golang】️走进 Go 语言️ 第一课 Hello World
- [golang] go into go language lesson 1 Hello World