600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > 向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)

向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)

时间:2024-03-30 04:20:19

相关推荐

向量空间模型(VSM)的余弦定理公式(用余弦定理来表示向量之间的相似度)

参考:/s/blog_5caa94a0010122dz.html

在文本挖掘中计算2篇文章相似度常用向量空间模型中的余弦定理公式判断。

1、 向量空间模式介绍

2、 余弦定理

在空间模型中,两条线的夹角越小,它们的余弦值就越大,而它们越相似(重叠或者平行)。

从上面看出空间模型中两条连线夹角的余弦值为:

举一个具体的例子,假如文档X和文档Y对应向量分别是x1,x2,...,x64000 和y1,y2,...,y64000,

那么它们夹角的余弦等于

3、 文本挖掘中把文档转换为向量空间

在文本挖掘中,对文档A分词,得到A1,A2,….An,计算得到分词的Tf-Idf: k1,k2,…kn;同样对文档C分词,得到C1,C2…Cn, 计算得到分词的Tf-Idf:d1,d2,…dn。以tf-idf作为分词的权重,则得到文档A的向量P={k1A1 ,k2A2…knAn},转换为P={x1,x2,…Xn}文档C的向量Z={d1C1,d2C2…dnCn},转换为Z={y1,y2….yn},计算文档A和C的相似度就是在向量空间模型中计算它们余弦值.

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。