黑帽seo培训-「阳哥seo」

做最专业的黑帽seo技术服务团队

黑帽seo中的TF-IDF词频如何计算?

黑帽seo中的TF-IDF词频如何计算?TF-IDF算法是一种词频统计方法,用于评估关键词在文章中出现的频率。字词的重要性随着它在文章中出现的次数成正比增加,同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,比如从一篇文章中找到它的关键词。

一、TF-IDF算法的计算步骤

1.TF计算公式

TFw=在某一类中词条w出现的次数/该类中所有的词条数目

逆向文件频率IDF的主要思想是:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

2.IDF计算公式

IDF=log(语料库的文档总数/包含词条w的文档数+1),分母之所以要加1,是为了避免分母为0

某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

3.TF-IDF算法计算公式

TF−IDF=TF∗IDF

TF-IDF值越大,则这个词成为一个关键词的概率就越大。

二、TF-IDF算法实例

以亚洲的网络技术关键词为例,假定该文长度为1000个词,"亚洲"、"网络"、"技术"各出现20次,则这三个词的"词频"(TF)都为0.02。 然后,搜索百度发现,包含"的"字的网页共有250亿张(假定这就是中文网页总数),包含"亚洲"的网页共有62.3亿张,包含"网络"的网页为0.484亿张,包含"技术"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF的计算结果如下:

什么叫TF-IDF TF-IDF算法和公式的解读

从上表可见,"网络"的TF-IDF值最高,"技术"其次,"亚洲"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"网络"就是这篇文章的关键词。 除了自动提取关键词,TF-IDF算法还可以用于许多别的地方。比如,信息检索时,对于每个文档,都可以分别计算一组搜索词("亚洲"、"网络"、"技术")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。 TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)


以上就是黑帽seo为您带来的“黑帽seo中的TF-IDF词频如何计算?”全部内容,更多内容敬请关注缑阳建黑帽研究工作室!

【版权保护】本文由黑帽seo算法研究中心原创,转载请保留链接: http://www.40ke.com/heimaojishu/11.html

所属分类:黑帽技术

评论

姓名:
邮箱:
电话:
评论: