可可网络
专注效果,用心服务
电话
提高关键字排名,推测链接以TF-IDF关键字加权算法

来源: 2021-09-01

提高关键字排名,推测链接以TF-IDF关键字加权算法为目标!
今天我们来讨论TF-IDF关键字加权算法。 其实,这个算法是早期的搜索引擎算法,和现在的关键字密度算法差不多。 当然,这个算法现在一定在改进。 大家看到的网络上的TF-IDF算法都是转载了以前的文章,非常复杂难懂,说不到根本上。 因此,本文为了使该算法更容易理解,加入了一些自己的研究,有一些改进的地方
很多朋友也会怀疑,这是早期的算法,现在还有用吗,对我们的SEO有什么实际作用吗? 在这里告诉你吧。 其实还是有用的。 在SEO方面也有帮助。 但是,大家都记得。 现在百度的排名是多维的。 这只是排名算法的细节。 别着急,我接下来详细说明。
TF-IDF是什么意思?
TF是关键字频率,现在的关键字是整篇文章)分词)占词典的比例!
IDF是主要用于删除关键字(如“、如何”)的辅助词的逆文档频率/顺文档频率。 关于顺序文件频率,现在包含关键字的文章数占总网站文章数的总占有率或频率。
TF-IDF  )即TF关键字频率乘以IDF逆向/正向文件频率的综合值。 详情后述!
如何求出TF词数?
这非常简单,表达式为: TF=W/D;
W=此文章分写后包含的当前关键字的数量
D=这篇文章分写后的所有词汇的数量!
TF=现在的关键字、在页面上出现的频率、词数!
例如,一篇文章分写后,有100组单词,其中出现10个SEO时,式10/100=0.1的现在的词数为0.1。
这里注意:关键字密度和字数有一点不同。 关键字密度=关键字出现次数x关键字字符数/文章总字符数(不含标题) x100%,意思有点相似,但请不要混淆两者的关系。
如何计算IDF逆向/正向文件的频率?
逆文档频率=包含总文章数/关键字的文章正向文件频率=包含关键字的文章/总文章数
例如,你的网站上总共有100篇文章。 其中包含SEO的文章有10篇。 我们会带公式进去。
反向文件频率=100/10=10;
正向文件频率=10/100=0.1;
TF-IDF值怎么求那个?
很简单。 TF-IDF是TF乘以IDF得到的。 直接应用上面的案例数据!
反向TF-IDF=0.1 * 10=1;
正向TF-IDF=0.1 * 0.1=0.01;
让我们来说明一下TF-IDF的实用化!
TF语的频率越高就越有相关性((排名也好) 
让我们思考一下,当前页面的关键字越多,是证明词数越多,还是词数越多,页面的关联度就越好。 当然相关顺序会变高。 该算法被“关键字密度”算法引用,通常在2%-8%之间即可。
TF词数可以提取页面的重要关键词
我们一般为了进行优化,文章中的tag聚合标签和页面关键字非常重要。 从搜索引擎通过关键字可以直接看出,在我们页面主题内容的同时,tag聚合标签如果能准确直接对我们的页面文章进行分类,文章类型的分类会更加准确,有利于用户体验。 一般来说,我们人为定义tag标签和页面关键字并不准确。 如果某个关键词是现在文章中词数最多的话,那当然是这个了!
如何用TF语的频率寻找核心词? 其实网上有工具。 我们直接用百度“TF-IDF分词工具”复制文章,点击分词,就按照频率从高到低的顺序排列在右侧。 提取前面词数高的关键字就可以了。

TF词数可以用于寻找更准确的相关文章
页面布局时,一般右侧会有推荐文章、相关文章,引导用户点击。 应该认为关联推荐越是正确的文章,用户的点击次数就越高吧。 用户点击量越多的网站,百度越受优待,权重得分越增加! 关于常见开源CMS网站的推荐使用了标题识别技术,但这并不准确。 例如,SEO内页面优化、SEO外链优化包括SEO,但内容不准确,页面点击次数会下降使用TF-IDF查找相关文章的方法原理简单,精度非常好。 这里有一个说明,TF-IDF自动提取所有文章的TF词数,将各文章的前20个最高词数相互比较,一致率达到10个以上时可以作为相关推荐文章。 这种方式可以使文章的关联性达到90%以上,可以说是非常正确的。
IDF反向文件的频率主要用于噪声语过滤
IDF的逆文档频率主要用于消除分词中的辅助字。 例如,用TF-IDF进行“seo优化的方法”分词时,分为“seo、优化、方法”辅助字的“的”就会消失。 TF-IDF的逆文档频率是消除了几个辅助字符,也称为消噪字符。