600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > 文本相似度计算基础算法(一)

文本相似度计算基础算法(一)

时间:2019-08-30 00:03:23

相关推荐

文本相似度计算基础算法(一)

目前很多应用都少不了搜索这个功能,搜索关键字最基础的是文档排序(这里的文档,可以是一篇文章,一个商品等)。文档排序的依据就是文档权重,也就是关键字与文档的相似度,即文本相似度。

文本相似度计算最基础算法是TF-IDF,BM25,今天就介绍TF-IDF这种算法原理。

TF-IDF全称是term frequency-inversedocument frequency,词频-逆向文档频率。TF-IDF是一种统计方法,评估一个关键词在系统的重要程度。从算法名字就可以看出,关键字的权重主要从2个方面体现,一个是关键字在文档中出现的频率越大,权重越大,一个是关键字在系统所有文档中出现的频率越大,权重越小。

举个例子,比如关键字『人工智能』,在某篇文档出现次数非常多,说明这篇文档大概率在讲人工智能,再比如关键字『计算机』,在这篇文档中也出现了很多次,但是我们并不会觉得这篇文档在讲计算机,那是因为『计算机』这个关键字很常见,在其他文档中出现的次数也非常多。

1、 TF词频计算

TF词频计算是关键字在文档出现的频率,考虑到文档有长短之分,TF通常会被归一化,防止偏向长的文件。

2、 IDF逆向文档频率计算

如果包含某个关键字的文档数越少,IDF越大,说明该关键字有更好的类别区分能力。

3、 TF-IDF计算

TF-IDF计算是将TF值和IDF值2个得分相乘,就得到一个关键词的TF-IDF的值。某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,所以通过计算关键字在各个文档的TF-IDF值,由大到小排序,排在前面的文档是最相关的。

此外,有一些经常出现的毫无意义的词,比如中文经常出现的助词,『我们』『的』『你』等,这些词称为停用词,计算TF-IDF的时候,会抛弃这些词。

TF-IDF算法简单快速,应用也比较广泛。但也有很多不足,其简单的结构并没有考虑词语的语义信息,无法处理一词多义与一义多词的情况(消歧和对齐问题)。同时,也无法体现词的上下文的重要性,如果要体现词的上下文结构,可以使用word2vec算法支持,后续再介绍。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。