深圳搬家搬厂网站建设公司
当前位置:网站首页 > 新闻动态 > 什么是TF-IDF算法(TF-IDF原理公式) 返回列表

什么是TF-IDF算法(TF-IDF原理公式)

发布时间:2023-12-06来源:网站建设公司

SEO工具底层算法核心TF-IDF,主要策略是增加相关词的覆盖率,以及高效优化布局关键词密度,从而在百度谷歌等搜索引擎内容质量这一项上的排名加分,获取较高分值,下面予希来给大家讲讲TF-IDF算法。

什么是TF-IDF算法(TF-IDF原理公式)

什么是TF-IDF算法

“TF-IDF算法可以说是一种统计算法,用一个关键词评估在一篇文章或一份文件中的重要程度,关键词的重要性随着关键词出现频率的增加而增加,同时也会随着在语料库中出现的频率成反比下降,TF-IDF算法被各大搜索引擎平台所引用,也是作为评估关键词相关程度的的度量或评级依据。

什么是TF-IDF算法(TF-IDF原理公式)

大家是不是看了上面的似懂非懂呢?其实没有一定SEO基础知识的朋友是看不懂的,下面为了大家理解,举例给大家说明。

例如有网民在搜索引擎上搜索““水果”这个名词,搜索引擎给排名前五的网站有5个,以下5条内容你觉得哪条会排在第一名呢?

– 内容1: 水果有水果,水果,水果,水果,水果

– 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子

– 内容3: 蔬菜都很好吃,我最爱吃茄子了

– 内容4: 苹果,梨子都是很好吃的水果

– 内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃

其实大家一看就知道了答案,第2条和第5条是非常有希望排在第一名或者第二名的,如果按照TF-IDF算法基本也是这个结果,那么TF-IDF算法是如何计算的呢?我们接着往下看。

TF-IDF算法的计算步骤

1、计算逆文档频率

先来统计各个关键词语被包含的文章数,例如“水果”这个词就被1、2、4、5文章所引用,第4条为“水果”的逆文档频率。

通过分词后,各个关键词语的逆文档频率是:

水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2,桃子=1、猕猴桃=1、蔬菜=1,茄子=1

什么是TF-IDF算法(TF-IDF原理公式)

PS: IDF= log(语料库中的文件总数 / 包含词语的文件数目),为了便于理解,这里做了精简。

一篇优质的文章把逆文档频率最高的前面的关键词都包含了,说明这篇文章更有利于用户意图,搜索引擎也喜欢这样的文章,我们再看看以上的例子,”水果”和“苹果“是这个例子中最重要的2个词语,如果这篇文章中包含有“水果、苹果”,那么这篇内容质量度就会不错的。

所以我们把包含“水果、苹果”的内容拿出来,就是比较靠谱的内容了:

– 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子

– 内容4: 苹果,梨子都是很好吃的水果

– 内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃;

2、计算词频(TF)

把第1条和第3条内容删掉,余下2、4、5这几条内容,那么这几条内容要如何排序呢?一个关键词在内容中出现的频率越高,说明这个关键词对这篇文章就越重要,再次回到以上这个例子,“水果”是这篇文章的核心关键词,由于第5条内容中“水果”出现频率有两次,第2、4条内容中出现的次数只有1次,所以第5条内容就排在了第一名,排序结果如下:

– 内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃 (第一名)

– 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子(第二名)

– 内容4: 苹果,梨子都是很好吃的水果(第三名)

-内容1: 水果有水果,水果,水果,水果,水果(相关度不够,被剔除)

-内容3: 蔬菜都很好吃,我最爱吃茄子了( 相关度不够,被剔除 )

以上就是给大家精简后的TF-IDF算法,TF-IDF算法运行起来比这个要复杂的多,以上只是让大家明白TF-IDF算法其本运行原理。

TF-IDF对SEO非常重要!非常重要!非常重要!

重要的事情说三遍!

由此我们可以看出TF-IDF算法不但衡量着关键词对页面的重要性,更能衡量文章的广度相关性,对于各大搜索引擎来说,TF-IDF算法帮助搜索引擎屏幕了一大批依靠关键词密度作弊来获得排名的SEO小白,TF-IDF算法还提升了搜索质量,对于搜索引擎来说真是好处多多。

百度百科描述到:“除了TF-IDF以外,搜索引擎平台还会引用基于链接分析的评级方法,确定文件在搜索引擎排序结果中出现的先后顺序,通俗地讲就是你的网站关键词排名同由这个公式而决定的,文章得分=TF-IDF算法得分+链接得分,目前各大搜索引擎都在引用TF-IDF算法!

看到这里大家心中也许会有一个疑问,百度真的引用了TF-IDF算法吗?下面接着往下看。

首先,百度在用TFIDF算法

实证,大家可以在网上查看百度专利文档《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》,百度搜索算法更新升级非常快,但TF-IDF算法作为搜索引擎的核心算法之一始终是没有变的。

什么是TF-IDF算法(TF-IDF原理公式)

其次,GOOGLE也用TFIDF算法

全球搜索引擎google也在官方文档中承认引用了TF-IDF算法

什么是TF-IDF算法(TF-IDF原理公式)

最后,TFI-DF得分占极高比重

搜索引擎使用TF-IDF作为对网页内容评判质量的标准,那么这个占比有多大呢?如今搜索引擎是按照这个方法进行计算页面得分的:score(页面得分) = TF-IDF分 * x + 链接分 * y + 用户体验分 * z(其中x+y+z=100%;);

什么是TF-IDF算法(TF-IDF原理公式)

2G左右谷歌搜索资料中,相关技术大咖做了相关预测,预测TF-IDF分值百度占比约为40%左右,谷歌TF-IDF分值占比约50%左右,通过做黑帽SEO的朋友介绍,TF-IDF分值的权重值百度约占有20%,谷歌目前还不清楚。

用户体验得分可以通过刷快排提高,百度占40%左右,Google无相关公示文档。

所以说在国内做SEO:排名得分=40%内容质量(TFIDF)+40%用户体验分(快排)+20%的链接分(域名+外链),TFIDF重要程度就可想而知了。

摩天楼使用了TF-IDF Plus

大兵之前拿了几个站做了下试验,都使用了TF-IDF算法的基本公式,很多关键词都没有都上首页,后来经过大咖的指点,网站使用了TF-IDF算法的升级版本BM25算法,主要是调整了文档长度、关键词权重等参数。

TF-IDF算法的升级版本BM25算法公式中的k参数排序得分基本也与谷歌搜索排序一致,而国内的百度搜索引擎由于人工干扰因素太多而无法验证,不过通过相关实例验证,K参数的取值也八九不离十。

什么是TF-IDF算法(TF-IDF原理公式)

如何使用TF-IDF算法提高得分

1、写内容

确定好核心关键词,再确定几个长尾关键词,再把网站标题确定好,然后再按照网站标题写好描述内容,白帽SEO站长进行内容原创,黑帽SEO同学采集内容做拼凑…

什么是TF-IDF算法(TF-IDF原理公式)

2、通过摩天楼SEO内容助手评分

利用摩天楼SEO内容助手从5个维度对你网站标题做评测,跟踪不同相关的关键词,帮你测试在同行业中你的网站得分,这些都对提升你网站排名是非常有作用的。

什么是TF-IDF算法(TF-IDF原理公式)

3、重新优化内容

摩天楼SEO内容助手工具通过分析你网站后,会提示你要减少哪些关键词和要增加哪些关键词,然后你按照这些提示去做就行了,步骤过程虽然会有点枯燥无味,对已经成功了多个案例了。

什么是TF-IDF算法(TF-IDF原理公式)

4、再次通过摩天楼SEO内容助手评分

SEO优化就是一个反复验证的过程,如果你的网站将TOP50左右的相关关键词都覆盖了,那么你的网站内容基本上就可以算得上是全网TOP2了,然后再调整下词频,调整到TOP10,就可以称得上是全网第一了。

什么是TF-IDF算法(TF-IDF原理公式)

摩天楼真的对SEO有提升吗?

1、开发过程验证

在发表这篇文章的时候,TF-IDF算法测试已经超过一年了,然后再研究了百度、好搜、神马的相关搜索算法专利,特别是百度,也正是通过百度搜索算法专利那里得知了TF-IDF算法。

后来通过百万级数据的验证,准备了100个自然搜索词,验证相关性算法预测排名与实际排名重合度(反面交叉验证),数据基本符合预期。

2、成功案列验证

后来验证了摩天楼SEO内容助手工具确实对网站优化有效,而且相关案例也得到了验证,通过搜索引擎结果交叉验证也证明了摩天楼SEO工具不仅有效而且还很准。

3、国外TFIDF工具很流行

目前国内SEO相关培训的课程中都没有涉术TF-IDF算法的深度解析,国外的技术大牛们则已经通过了多次实验的验证,我们都知道国内的搜索引擎一直在跟国外搜索引擎着google在学,如果TF-IDF算法应用在了谷歌上,那么百度应该也使用了TF-IDF算法。

什么是TF-IDF算法(TF-IDF原理公式)

国外SEO大神强推TF*IDF

什么是TF-IDF算法(TF-IDF原理公式)

摩天楼SEO内容助手工具目前来说还并不是一款完美的工具,但相对目前来说算是一款还不错的SEO工具。

最后,予希建议同行们一定要沉下心来做内容,不要浮躁,踏实的走好每一步路,一步一个脚印,不要好高骛远,想着一步登天。

阅读过此文章的读者,还阅读过下面的文章

  • 深圳网站制作好后来年到期了该怎么办
    <p> 深圳网站制作好后来年到期了该怎么办,不管是个人还是公司,要想制作好一个网站真的不容易,不仅仅需要做网站前期的规划和策划工作,还需要对网站建设的栏目,内容进行填充和建设,面对这一堆的要求和东西,整体还是比较麻烦和费事的,所以,网站建设制作好之后,一定要注意来年的续费问题,好多公司不注意这个问题,造成了网站后期打不开了,不能正常方面了,出现了问题才想起来网站没有续费,接下来我们来看看深圳网络公司是如何建议的。 </p> <p> 1.域名到期的影响<br /> &nbsp;一般情况下,网站域名需要一年进行一次续费,也可以一次购买多年,如果域名到期没有及时续费,网站就会打不开,域名续费期一般是一个月,过了这个时间就会进入赎回期,这时候就不能续费了。<br /> &nbsp;2.服务器到期的影响<br /> &nbsp;服务器到期与域名一样,到期后网站同样不能打开,如果之前网站在做推广,会直接影响展现效果,长时间不续费的话,网站数据就会全部删除了,之前的努力就全白做了。<br /> &nbsp;3.网站维护服务到期<br /> &nbsp;有些网络公司服务商会有网站维护费用,一般都是一年为一个期限,如果到期后您没有及时维护,网站出现问题后就不会有人给您维护,就会造成影响。影响最大的就是网站展现的效果。<br /> </p>
  • 深圳做网站公司做网站时要明白这些
    <p> 深圳做网站公司做网站时要明白这些。其实做网站有的时候不仅仅是在做网站,更多的是在帮助其他公司在做网络宣传门户,站在这个角度上你就知道你所承担的责任了,作为现在公司网站建设不仅要符合时代潮流,更多的需要紧扣时代网页设计特色和要求,只有这样制作设计出来的网站才能更好的满足现在人们的使用要求和观念的,不管是在网站设计理念,网站布局规划,以及网站内容建设等等,这些方面都需要进口时代主题和要求的,接下来我们来看看深圳网站制作公司是如何做的,需要做好那些方面的要求和规范呢? </p> <p> 审美在变,网站设计要紧跟潮流<br /> 也许用户访问时,不会逐一阅读网站内容,但首先映入眼帘的一定是设计。也许网站在几年前设计制作的确实很漂亮,但是我们无法否认的事实是,用户对网站设计的审美一直在不断改变。这个比较容易对比,随便找一个行业,然后通过百度搜索到十家网站,分别对应年份和网站的网址,让一个不知情的人去逐一打开并评判感受。大体趋势是越是新近设计制作的网站,越容易赢得用户的接受承认。其实这就是用户的真实感受,每年快速改版重做对于很多公司来说有些压力,但是笔者认为一般而言网站2-3年是需要重新设计制作快速的。一个通过网站寻找供应商的用户,其浏览网站一般也就几十秒到几分钟时间,先进的网站设计效果是吸引其深入了解进而咨询的较好方法。<br /> 技术在变,网站制作要贴合需求<br /> 周围的一切都在发生着巨变,网站技术也是如此,此前被很多网站公司采用的ASP网站开发语言几乎已经没人使用,相对于传统的PC端网站,现在更多看重的是移动端,公司设计制作的网站现在多为自适应PC端、PAD端以及手持移动终端的响应式网站。谁也不知道网站技术会走向哪个方向,但是对于普通的企业而言,我们可以把握趋势,至少每隔两三年对网站重新快速设计制作。<br /> 企业在变,网站建设要适应发展<br /> 网站总是为企业服务的,换句话说就是网站的设计制作需要跟上企业的发展步伐。现在急剧变化的市场面前,如果想立于不败之地,企业的经营策略一定在不断调整优化。作为给企业发展提供服务的网站,其理应不断调整不断优化以适应公司需求。现在是互联网时代,用户了解公司更多的也是通过网络,网站不仅是营销的工具,更是企业品牌形象的展示窗口。由于人力成本的不断升高,而网站设计更多的需要技术人员手工完成,所以真正定制开发的网站都价格不菲。但是同样是网站建设公司网站改版也不一定就选择定制,如果有合适的模板网站,也是不做的选择。我们需要的是一个紧跟时代和用户需求的网站,而非一定采用哪种方式实现它。 </p>
  • 英文网站制作需要注意那些问题和事项
    英文网站制作需要注意那些问题和事项。英文网站制作还是跟中文网站制作有比较大的区别的,应为中文网站面对的客户群体是国内的用户,而国内的用户对网站的使用习惯,要求都是跟国外不一样的,从而在制作英文网站的时候,一定要注意,像这种英文网站制作还是需要从国外人使用网站的习惯,使用网站的一些喜好出发,只有这样制作出来的网站满足国外人的使用的,这是一个方面,另外一个方面就是国外网站面对的搜索引擎,也是不一样的,国外的搜索引擎跟国内有着比较大的区别的,搜索引擎也是制作英文网站必须要考虑的一个方面了,最后就是网站制作价格方面了,一般英文网站制作价格要比国内的网站制作价格高一些,这是一定的,毕竟国外网站制作的细节要求,以及针对搜索引擎优化方面还是有比较高的要求的,所以,这些都是工作量,也都是需要处理好这些方面的细节工作的。
  • 网站设计公司的发展趋势详解
    <p> 网站设计公司的发展趋势详解,目前网页设计公司慢慢的转型升级成为一种综合性的设计公司了,不仅仅是在网站设计了,如果单纯的依赖于网站设计,对于这样的公司来说现在还是很被动的,并且目前的网站制作价格已经白热化了,竞争也是很大的情况下,好多公司已经赚不到什么钱了,面对这样的市场形式,作为网站设计公司要不断的扩大和尝试新的方式和方法,实现公司业务的升级和转型,这也是摆在深圳<a href="http://www.szbc888.com" target="_blank"><strong>网站制作公司</strong></a>面对不可逾越的一个问题了,毕竟现在网站制作公司的活量不大,如果养一个专业的网页设计技术团队专门作网站,根本养活不了这样的公司的发展了,更多的还需要通过其他的渠道,其他的平台上获得更为有质量的客户,这也是当下网站制作公司不得不面对的一个话题了。 </p> <p> <img src="static/picture/20231030113846_47114.jpg" alt="" /> </p> <p> <a href="http://www.szbc888.com" target="_blank"><strong>网页设计公司</strong></a>业务范围扩大,于是着这个网站制作行业市场需求量在逐渐的缩小,并且凡是使用到网站的多半集中在一些公司,单位方面的需求了,对于一些个人对网站的需求还是很少的,除非一些专业化路线的个人才会这样做的,网站设计公司的转型升级,不仅提升的服务质量,更多的将服务方位不断的扩大,从而得到更好的市场群体,能够为更多的市场客户服务。 </p>
  • 网站制作低价格策略已经成为网站制作行业的杀手锏
    <p> 网站制作低价格策略已经成为网站制作行业的杀手锏,整个大环境不好的情况下,好多公司在制作网站的时候,已经在想尽办法降低网站制作的成本了,从当初的网站制作就直接去搜索引擎上搜索网站制作公司了,而如今制作网站已经发生变化了,从搜索引擎走向了淘宝,拼多多这些低价平台了,并且这些平台都是担保交易了,好多的需要<a href="http://www.szbc888.com" target="_blank"><strong>制作公司网站</strong></a>的商家慢慢转向这个方面来了,所以制作出来的网站不是模板的就是仿制的网站,价格的确很低,并且效率也是很高的,这也是聪明的用户慢慢的转型和变化了,如果这些模板网站放在搜索引擎来的客户的话,这些网站制作下来的费用基本上在好几千了,面对这样的市场转型和升级,这也让好多网站制作公司寻找不同的出路了。 </p> <p> <img src="static/picture/20231030113212_16069.jpg" alt="" /> </p> <p> <a href="http://www.szbc888.com" target="_blank"><strong>深圳网站制作</strong></a>的价格的确没有那么低,但是作为一些低价平台上的用户,他们为了争取到客户,低价引流,从而实现了低价格制作网站的形式,作为网站制作公司,你这样低价格去做的目的就只有一个,那就是辛苦转不到钱的,都是转一些辛苦钱而已,面对这样的市场形式和要求,作为网站制作公司一定要不断的提升网站制作的附加值,提升<a href="http://www.szbc888.com" target="_blank"><strong>网站制作</strong></a>的质量,让用户以质量取胜,不能专门走低价格战略,不然你的公司是发展不起来的,也作不大的,作为用户而已,你公司小还可以这样去做,如果公司发展到一定程度的去制作网站,这对于你的公司来说是灭顶之灾了,所以选择网站制作公司还是要从专业的角度出发去帮助客户解决实际的问题,从而实现网站制作公司的价值和效益。 </p>
  • 深圳网站定制开发全流程详解
    <p> 深圳网站定制开发全流程详解,作为网站定制开发公司接下来给大家普及一下网站定制究竟要经过那些过程呢,前期的网站沟通肯定是少不了的,除此之外,网站备案这块也是需要的,只要是正规的公司,正常的流程,网站备案也是需要做的,剩下的就是网站制作过程中的一些沟通了,接下来我们来看看<a href="http://www.szbc888.com" target="_blank"><strong>深圳网站制作</strong></a>公司的一个标准的流程。 </p> <p> 需求分析: 通过对客户业务的了解和与客户对流程的讨论对需求进行基本建模,最终形成需求规格说明书<br /> 总体设计: 通过分析需求信息,对系统的外部条件及内部业务需求进行抽象建模,最终形成概要设计说明文档<br /> 详细设计: 此部分在对需求和概要设计的基础上进行系统的详细设计(也包含部分代码说明)<br /> 开发编程: 对系统进行代码编写<br /> 测试分析与系统整合: 对所有功能模块进行模拟数据测试及其它相关性测试并整合所有模块功能<br /> 现场支持: 系统上线试运行进行现场问题记录、解答<br /> 系统运行支持: 系统正式推产后,对系统进行必要的维护和BUG修改<br /> </p>

Copyright © 2015 深圳市鑫惠广网络科技有限公司 粤ICP备2023111395号