【TF-IDF算法】实战操作上首页

2018.12.28 -

今天冠军老师来给大家详细了解下我们平常做优化中经常会用到的TF-IDF算法。

文章案例:

TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,比如从一篇文章中找到它的关键词。

词频 (term frequency, TF):

指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母 区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)

逆向文件频率 (inverse document frequency, IDF):

是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

百度会通过TF-IDF来计算页面是不是文题对应来判别我们的网站页面。从而自动筛选标题分词来判断网站主要内容是什么,再通过分词判断文章内容出现的频率来辨别我们网站做的某个关键词,当然如果我们关键词密度过高的话,会被百度判定为关键词堆砌,为了防止百度判定关键词堆砌,我们可以把关键词拆分开来,分布在网站的各个角落里。

我们文章到这里就结束了,有更多疑问的朋友可以加冠军老师详细了解。

阅 714
0

今天冠军老师来给大家详细了解下我们平常做优化中经常会用到的TF-IDF算法。 文章案例: TF-IDF(词频- […]