simtext: 三行程式碼計算文字相似性

simtext

simtext可以計算兩文件間四大文字相似性指標，分別為：

Sim_Cosine cosine相似性

Sim_Jaccard Jaccard相似性

Sim_MinEdit 最小編輯距離

Sim_Simple 微軟Word中的track changes

具體演算法介紹可翻看Cohen， Lauren， Christopher Malloy&Quoc Nguyen（2018）第60頁

安裝

pip install simtext

使用

中文文字相似性

from simtext import similarity

text1 = ‘在宏觀經濟背景下，為繼續最佳化貸款結構，重點發展可以抵抗經濟週期不良的貸款’

text2 = ‘在宏觀經濟背景下，為繼續最佳化貸款結構，重點發展可三年專業化、集約化、綜合金融+物聯網金融四大金融特色的基礎上’

sim = similarity（）

res = sim。compute（text1， text2）

print（res）

Run

{‘Sim_Cosine’： 0。46475800154489，

‘Sim_Jaccard’： 0。3333333333333333，

‘Sim_MinEdit’： 29，

‘Sim_Simple’： 0。9889595182335229}

英文文字相似性

from simtext import similarity

A = ‘We expect demand to increase。’

B = ‘We expect worldwide demand to increase。’

C = ‘We expect weakness in sales’

sim = similarity（）

AB = sim。compute（A， B）

AC = sim。compute（A， C）

print（AB）

print（AC）

Run

{‘Sim_Cosine’： 0。9128709291752769，

‘Sim_Jaccard’： 0。8333333333333334，

‘Sim_MinEdit’： 2，

‘Sim_Simple’： 0。9545454545454546}

{‘Sim_Cosine’： 0。39999999999999997，

‘Sim_Jaccard’： 0。25，

‘Sim_MinEdit’： 4，

‘Sim_Simple’： 0。9315789473684211}

Python能做哪些？

在我的騰訊課堂中，有python入門、資料採集、資料清洗、機器學習四大模組，每個知識都有相關的講解和實戰程式碼，歡迎各位童鞋戳進來了解。

參考文獻

Cohen， Lauren， Christopher Malloy， and Quoc Nguyen。

Lazy prices

。 No。 w25084。 National Bureau of Economic Research， 2018。

B站:大鄧和他的python

公眾號：大鄧和他的python

知乎專欄：資料科學家

小蜜蜂問答

小蜜蜂問答

simtext: 三行程式碼計算文字相似性

推薦文章

小蜜蜂問答

小蜜蜂問答

simtext: 三行程式碼計算文字相似性

相關文章

卡貼機換卡後sim卡無效怎麼解決？

Simon翻譯成中文是什麼意思？

vivox9plus後臺清理不掉qq 微信鎖白名單i管家找沒有， 已懸停啥子鬼

淘汰 SIM 卡，使用帳號密碼啟用手機可以實現嗎？為什麼運營商不採用這種做法？

推薦文章

vivox9plus後臺清理不掉qq 微信鎖白名單i管家找沒有，已懸停啥子鬼