搜索引擎原理之内容处理 -上海SEO优化-SEO技术-荣晶SEO博客

搜索引擎原理之内容处理

全屏阅读

2015-06-02 10:06:19 作者: 所属分类:SEO技术 阅读:5536 评论:0

标签:

大家都知道不论是黑帽SEO还是白帽SEO都需要了解搜索引擎的原理,利用搜索引擎的原理做网站排名,很多SEOer都是发文章做外链分析竞争对手怎么做的,其实一直在重复一个,了解他的原理很重要,下面就先说说搜索引擎原理之内容处理。

所谓内容处理即搜索引擎对spider抓取回来的页面进行处理。处理步骤简单介绍如下:

1.要判断该页面的类型。

首先要判断该页面的类型是普通网页,还是pdf、word、excel等特殊文件文档。如果是普通网页还要判断该网页的类型是普通文本内容、视频内容,还是图片内容。甚至还会对网页是普通文章页还是论坛帖子进行判断,然后有针对性的进行内容处理。

2.提取网页的文本信息。

当下搜索引擎虽然在努力读取JavaScript、flash、图片和视频,但是对于普通网页的索引还是以文本为主。此时还会提取页面的title、keywords、description等标签中的内容,虽然一直有信息说keywords标签已经被主流大型搜索引擎抛弃了,但是经过多人实际测试,至少百度多多少还是会参考keywords标签的。

3.去除页面噪声

如果该网页是普通王爷额,则搜索引擎会把与该网页内容无关的广告、导航、链接、图片、登入框、网站版权信息等内容全部剔除掉,只提取出该网页的主体内容。其实目前在这一步中,百度并不会把主题内容之外的东西全部抛弃,相关推荐的内容在一定程度上也会被算作本页的内容。或者是对本页主体内容的补充,也会在搜索排名中有直观的体现。甚至与页面不想干的链接文本也会被保留索引,比如。百度搜索“复制本页链接”向后翻几页,就会看到下图的结果。

搜索引擎原理之内容处理

其实这些链接只存在按钮上或者推广文字,但是也被索引了,所以搜索引擎的去除噪声,并不是很严格。因此SEO人员对于网页主题内容外的推荐内容、链接、链接锚文本等一切元素也要善于利用,而不是随便堆一些不想干的内容。很多人都说SEO需要注意细节,但是这些细节又有多少站长和SEO人员真正地重视、研究和利用了呢?

4.去除内容中的停止词。

接下来应该是对剩余文本内容的分词处理,这块请关注晶晶的明天的文章,然后搜索引擎会剔除掉诸如“得”“的”“啊”“地”“呀”“却”之类的停止词。其实此步骤是存在疑问的,对于普通文章来说,去掉这些停止词会有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这些词也是有丰富的搜索结果的,如下图。

搜索引擎原理之内容处理

当搜索包含这些词的关键词时,也会有比较丰富的搜索结果,不过会弱化这些停止词对搜索结果的影响,如下图。

搜索引擎原理之内容处理

所以搜索引擎在对普通文章的处理中应该会有此步骤,但并不是机械严格去除的,也要看这些词在页面上的作用(搜索引擎在分析的时候也会进行词性识别,同一个词在不同位置词性可能不同)

经过这些处理后,spider抓取回来的网页内容就被“洗”干净了,再经过中文分词技术的分词处理及网页去重原理的去重处理后,搜索引擎就会对已经被初步处理过且有索引价值的玩个内容进行正向索引和倒排索引处理了。具体介绍请继续关注博主博客。

» 郑重声明:本文由上海SEO发布,所有内容仅代表个人观点。版权归上海SEO优化-SEO技术-荣晶SEO博客上海SEO共有,欢迎转载, 但未经作者同意必须保留此段声明,并给出文章连接,否则保留追究法律责任的权利! 如果本文侵犯了您的权益,请留言。

目前有 0 条留言 其中:访客:0 条, 博主:0 条

给我留言