simtext

simtext可以計算兩文件間四大文字相似性指標,分別為:

Sim_Cosine cosine相似性

Sim_Jaccard Jaccard相似性

Sim_MinEdit 最小編輯距離

Sim_Simple 微軟Word中的track changes

具體演算法介紹可翻看Cohen, Lauren, Christopher Malloy&Quoc Nguyen(2018) 第60頁

simtext: 三行程式碼計算文字相似性

安裝

pip install simtext

使用

中文文字相似性

from simtext import similarity

text1 = ‘在宏觀經濟背景下,為繼續最佳化貸款結構,重點發展可以抵抗經濟週期不良的貸款’

text2 = ‘在宏觀經濟背景下,為繼續最佳化貸款結構,重點發展可三年專業化、集約化、綜合金融+物聯網金融四大金融特色的基礎上’

sim = similarity()

res = sim。compute(text1, text2)

print(res)

Run

{‘Sim_Cosine’: 0。46475800154489,

‘Sim_Jaccard’: 0。3333333333333333,

‘Sim_MinEdit’: 29,

‘Sim_Simple’: 0。9889595182335229}

英文文字相似性

from simtext import similarity

A = ‘We expect demand to increase。’

B = ‘We expect worldwide demand to increase。’

C = ‘We expect weakness in sales’

sim = similarity()

AB = sim。compute(A, B)

AC = sim。compute(A, C)

print(AB)

print(AC)

Run

{‘Sim_Cosine’: 0。9128709291752769,

‘Sim_Jaccard’: 0。8333333333333334,

‘Sim_MinEdit’: 2,

‘Sim_Simple’: 0。9545454545454546}

{‘Sim_Cosine’: 0。39999999999999997,

‘Sim_Jaccard’: 0。25,

‘Sim_MinEdit’: 4,

‘Sim_Simple’: 0。9315789473684211}

Python能做哪些?

在我的騰訊課堂中,有python入門、資料採集、資料清洗、機器學習四大模組,每個知識都有相關的講解和實戰程式碼,歡迎各位童鞋戳進來了解。

參考文獻

Cohen, Lauren, Christopher Malloy, and Quoc Nguyen。

Lazy prices

。 No。 w25084。 National Bureau of Economic Research, 2018。

更多

B站:大鄧和他的python

公眾號:大鄧和他的python

知乎專欄:資料科學家