|
|
Google分词算法值得我们好好研究一下。Google的搜索结果(guǒ)页(yè)(SERP)与搜索关(guān)键字的相关(guān)性,明显(xiǎn)大于百度,这是因为Google把搜索关键(jiàn)字都(dōu)拆分成最基本的词(cí)组和单字后,在根据相关性去匹配数据(jù)库的(de)中(zhōng)内容,而且Google拆分后的最基本词组,完全是根据词典里的词组匹配的,也是说它(tā)符合国家语(yǔ)言文字(zì)工(gōng)作委员会的规范和标准的,这只限于普通词(cí)组(公众人名、著(zhe)名品牌名)。
实例1:测试Google是否有专业(yè)名词(cí)库(kù)
在Google搜索“搜(sōu)索引擎关键字”,Google会把这个关(guān)键字(zì)短语拆分为“搜索(suǒ)—引擎—关键—字”,这是(shì)因为“搜索引擎”和“关键(jiàn)字”都是网络专(zhuān)业词(cí)组(zǔ),可(kě)能Google没有专业(yè)词组(zǔ)库,所以就被拆分成了“搜索—引擎(qíng)—关键—字”。
实例(lì)2:测试Google拆分长关键字
在Google搜索“他(tā)舅WAP流量统计分析(xī)”,Google把这个关键字短语(yǔ)拆分为“他—舅—wap—流量(liàng)—统计—分析(xī)”六部分,“WAP”是一个英文词组,包括Google和其他搜索引擎一般是不拆(chāi)分英文(wén)词组的(就算它不是英文单词),“流(liú)量”、“统计(jì)”、“分析”都是符合国家语言规范(fàn)的标(biāo)准词(cí)组,“他舅”只(zhī)是中(zhōng)国老(lǎo)百姓一个口头称谓用(yòng)语,不(bú)符(fú)合国家(jiā)语言(yán)规范,在词典中(zhōng)根本就查不到这(zhè),所以Google就把“他舅”拆分成了两个(gè)单字(zì)。
实例(lì)3:测试(shì)品牌名(míng)是否(fǒu)被Google收录为词组
在Google搜索“海尔冰箱”、“惠普电脑(nǎo)”、“华为通讯”、“美的电器”,“五(wǔ)粮液酒”,“夏(xià)利(lì)汽车”、“北京同仁(rén)堂”这(zhè)七(qī)个都(dōu)是(shì)著名(míng)的品(pǐn)牌,结果是(shì)“海尔”、“惠普”、“华(huá)为”、“五粮液”、“同仁(rén)堂(táng)”都是单独的(de)词(cí)组,没有被拆分为单字,“夏利(lì)”、“美的”这两个品牌却被拆(chāi)分成了单字(zì)。不是所有(yǒu)品牌都(dōu)能被Google作为一(yī)个词组收录进(jìn)品牌(pái)词库,Google有(yǒu)自(zì)己的收录(lù)标准的。
实例4:测试Google是否会拆分成语(yǔ)
下面我们搜索一下韩乔生的经典名句“迅雷不及掩耳之势”和“山(shān)清水秀丽”,结果(guǒ)“迅(xùn)雷(léi)不及(jí)掩耳之势”这个短句被拆分成了“迅雷(léi)—不及—掩耳盗铃—之(zhī)—势”,“迅雷”是一个符合汉语言规范的标准词(cí)组,不是指下载工(gōng)具那个“迅雷”,“不及”也是一个词组,“掩耳盗铃”也(yě)是符(fú)合国家(jiā)语(yǔ)言规范的成语,“之(zhī)势”不是标准词组,所以就被拆分为(wéi)两个单字(zì)。“山清水秀丽”被拆分为了“山清水秀—丽”,“山清水秀(xiù)”是一个成语没有拆(chāi)分(fèn)。Google把成语作为几(jǐ)个基本词组(zǔ),不会(huì)进一步拆分。
实例5:测(cè)试(shì)普通之间(jiān)是(shì)否(fǒu)有(yǒu)权重高低之(zhī)分
搜索“山河水灾”这个关键字短(duǎn)语,结(jié)果Google拆分(fèn)为“山河”和“水灾”两个词组;然后搜素(sù)“山河水灾情”这个关键字短语(yǔ),结果Google拆分为“山河”、“水”、“灾情”三(sān)部分,“水”字没有和“灾(zāi)”组成词组,反而“灾”和“情(qíng)”组成了词组,这说“灾情(qíng)”这个词的权重高(gāo)于“水灾”的权(quán)重。这说(shuō)明词组之间也是有权重(chóng)之分(fèn)的。
根据实例测(cè)试推(tuī)断:Google会把搜(sōu)索的关键字(短语)拆(chāi)分为最基(jī)本的词组,这些普通词(cí)组都是(shì)符合汉(hàn)语言规范的标准词(cí)组,不像(xiàng)百度那样收录“人造名词”。Google的词组大致可分为普通名(míng)词、地名、人名等几类,关键字(短语(yǔ))都是从左向右(yòu),按权重(chóng)高低拆分。这些词组权重从低到高依次(cì)如下:人名<普通词组<地名<成语<领导人(rén)名字。进一步测试品牌名和人名(míng)的权重(chóng)是一(yī)样,都是最低的(de),这只是一个大致顺序(xù),因为同(tóng)一(yī)类词(cí)组还会根据日常使用(yòng)的频率进一步的分级,每一级(jí)的分配(pèi)不同的权重,所以同一类词组(zǔ)之间(jiān)也有权重高低(dī)之分。
|
|