搜索引擎原理之中文分词技术 -上海SEO优化-SEO技术-荣晶SEO博客

搜索引擎原理之中文分词技术

全屏阅读

2015-08-13 17:08:07 作者: 所属分类:SEO技术 阅读:5573 评论:0

标签:

分词是中文搜索引擎中特有的技术。在英文中以单词为单位,单词之间会有空格,并且每个单词都有特定的意思,计算机很容易理解英文语句的意思。但是中文以字为单位,只有将一句话中所有的字串联起来才能表达一个完整的意思,计算机不能直接把中文分成单个字来理解,所以就需要引入中文分词技术,把一句话切分成一个个有意义的词语来进行理解。比如把“我是一个学生”切分成“我/是/一个/学生”。

搜索引擎面对中文网页时就是这样,靠中文分词来理解网页锁描述的内容。其实分词技术的基础就是拥有海量的有意义的词库(词典),搜索引擎会使用自己强大的词库来对网页内容进行拆分,或者是对内容进行机械切割,统计出出现次数最多的词。通过分词就可以使得搜索引擎明白该网页内容是与什么相关的,这回直接决定该网页出现在哪些词的搜索结果中,所以中文分词在SEO工作中也是需要潜心研究的。现在很多SEO人员只是知道有这么个技术,但是这项技术具体是怎么进行分析的,以及中文分词是怎么运用到SEO工作中的还一无所知。

搜索引擎对于中文内容的理解和分词一直都没有太大的进步,所以搜索引擎程序在判断网页内容和那次的相关性方面的技术,与几年前相比也并没有太大进步。现在常见的中文分词技术有两种:基于词典匹配和基于统计,也有研究基于语义分析的分词方法,但是汉语博大精深,计算机程序暂时还不能很好地支持。

1.基于词典匹配。

这种分词技术是使用搜索引擎自己的词典对网页内容进行拆分。按照匹配方向的不同可以分为正向匹配和你想匹配;按照不同长度优先匹配的不同可以分为最长匹配和最小匹配。常见的三种匹配方法是正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最少切分。

2.基于统计。

这种分词技术不依靠词典,而是对大量文字样本进行分析,然后把相邻出现次数比较多的几个字当成一个词来处理。基于统计的分词方法在一定程度上解决了搜索引擎词典更新的问题。并且有利于消除歧义。

搜索引擎会把网页拆分出来的词按照词频进行排序,使用TF-IDF之类的算法以确定该网页主要和哪些词相关,并进行相关度计算。搜索引擎会综合各方面因素来确定当前页面主要描述的内容。分词技术指导SEO人员在进行网站内容建设和关键词布局时,可以把一个关键词分成更小的单位进行拆分布局,这样不仅可以加强网页和这个关键词的相关度,也会使得网页匹配出更多的关键词。

» 郑重声明:本文由上海SEO发布,所有内容仅代表个人观点。版权归上海SEO优化-SEO技术-荣晶SEO博客上海SEO共有,欢迎转载, 但未经作者同意必须保留此段声明,并给出文章连接,否则保留追究法律责任的权利! 如果本文侵犯了您的权益,请留言。

目前有 0 条留言 其中:访客:0 条, 博主:0 条

给我留言