快捷搜索:    as  交警  美女  大公  美食  88888  名称

专业SEO技术教程(14)

深入分析中文分词-14314.html">专业SEO技术教程(14)

2018-01-09 11:28 来源:广州新川教育 技术 /百度

原标题: 深入分析中文分词-专业SEO技术教程(14)

深入分析中文分词-专业SEO技术教程(14)

当搜索引擎蜘蛛将网站内容索引后就会通过中文分词技术进行文库。这就是一个庞大的工程,百度搜索引擎对中文分词技术掌握非常熟练,这也是在中文搜索领域百度搜索引擎一直独大的原因。下面来和大家一起分享百度中文分词的基本原理。

字符串匹配的分词方法

首先来看正向最大匹配法,就是把一个词从左至右来分词。举个列子:“不知道你在说什么”,这句话采用正向最大匹配法是如何分的呢?分出来是:“不知道,你,在,说什么。”

其次是反向最大匹配法。来看上面我举的列子“不知道你在说什么”用反向最大匹配法如何分。答案是:“不,知道,你在,说,什么。”这个就分得比较多了,反向最大匹配法就是从右至左来分词。

最后是最短路径分词法。这个怎么理解呢?就是对一段话切出最少的词数。还是用上面的那句话“不知道你在说什么”举例,用最短路径分词法来分,就是把这句话分成最少的词。“不知道,你在,说什么”,这就是最短路径分词法,分出来后只有3个词。当然,上面三种可以相互结合组成一些分词法,比如,正向最大匹配法和反向匹配法组合起来就可以叫作双向最大匹配法。

词义分词法

这其实就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象进行分词。这种分词方法,现在还不成熟,处在测试阶段。

统计的分词方法

这个很简单,就是根据词组的统计,如果发现两个相邻的字出现的频率最多,那这个词就很重要,就可以作为用户提供字符串中的分隔符。比如,“我的,你的,许多的,这里,这一,那里”,等,这些词出现得比较多,就从这些词里面分开来。

这些分出来的词,把他们都作为你站点的主题页,导入链接权重上来了,竞争力就大了,因为这些页面把它内链起来。用锚链接,指向主页的目标关键词。这就是分词的好处,它能够提升目标关键词的排名的竞争力,同时给站点带来一定流量。一旦导入链接权重上来了,竞争力就大了,因为这些页面把它内链起来。

中文分词问题是绝大多数中文信息处理的基本问题,在搜索引擎、推荐系统(尤其是相关主题推荐和基于内容的过滤推荐)、大量文本自动分类等方面是一个关键词部件。

以上就是对深入分析中文分词的介绍,感谢收看,明天继续更新!(新川教育专业网络营销、网站建设、SEO优化培训、有需要学习的朋友可以加v :yx-peixun咨询)返回搜狐,查看更多

您可能还会对下面的文章感兴趣: