推荐系统之TF-IDF算法实现
词频-逆文档频率(TF-IDF)是一种用于资讯检索与文本挖掘的常加权技术。该技术是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中一个文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
如下公式:TF是字词在文件中出现的频率,即词频;IDF是字词在语料库中出现的频率,即逆文档频率。
下面我们看一下词频TF的计算公式,分子表示i在j中出现的次数,分母表示文档j的总词数。
我们再看一下逆向文件频率的公式,其中N表示文档集中文档总数,Ni表示文档集中包含词i的文档数,加1的目的方式分子或者分母为0.
代码如下:
我们给出两句话:docA = 'The cat sat on my bed' docB = 'The dog sat on my knees'
,分别求这两句话的词频-逆文档频率TF-