切词
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5、聚2015新品夏季必买爆品巴西havaianas人字 拖鞋TOP黑男女哈瓦 6、包邮Crocs卡骆驰男女中性 彩威夷热带风情人 字拖鞋|200701 7、小贝克汉姆情侣男女款人字拖鞋夏季韩版潮流 男士沙滩潮男拖凉拖鞋 8、AE美国鹰夏季厚底情侣人字拖韩版平底男女鞋 沙滩橡胶防滑凉拖鞋潮
从以上8个标题,我们可以看出点 什么了。 也就是说,“男女人字拖”这个 词,在淘宝的搜索系统看来,他 不是一个完整的词。他会对其进 行切分。 按照上面红色的词,我们大概可 以看出。 “男女人字拖鞋”,被切成了 “男女”,“人字拖”两个词。
当我们搜“男 女 人字拖”时,是“男”,“女”, “人字拖”,三个词。 而当我们搜“男女 人字拖”时,是“男女”,“人字 拖”,两个词。 在我们搜“男 女 人字拖时”,空格起到了分词作用, 因为“男”,“女”,已经是不能再分了。 那为什么“男女人字拖”,会自动分成“男女 人字拖”, 而不是“男 女 人字拖”呢? 这就是词库的作用了。 很明显“男女”这个词,比“男” “女”,是更稀有的 词。所以,分词的时候,直接选了“男女”。 也就是说,淘宝的分词过程可能是这样的: “男女人字拖”,首先会被切成“男”,“女”, “人”,“字”,“拖“男女” ,“人字拖”。
中文切词(又称中文分词 ChineseWordSegmentation)指的是将一个汉字 序列切分成一个一个单独的词。中文分词是文 本挖掘的基础,对于输入的一段中文,成功的 进行中文分词,可以达到电脑自动识别语句含 案例:在淘宝上输入“男女人字拖” 义的效果。这种方法又叫做机械分词方法,它 是按照一定的策略将待分析的汉字串与一个 “充分大的”机器词典中的词条进行匹配,若 在词典中找到某个字符串,则匹配成功(识别 出一个词)。
所以,对于消费者来说,在进行淘宝搜 索宝贝时要合理利用空格,准确搜索到 自己想要的宝贝 对于商家来说,由于计算机的分 词技术,商家更要做出合理的标题让消 费者找到宝贝而不失自己的商机
商务1302班 单伟珍 130140088
为了验证我们的想法是不是正 确,我们搜索“男女 人字 拖”,看看结果是不是和搜索 “男女人字拖”一样。
结果显示,“男女 人字拖”跟前者“男 女人字拖”一样,显示的搜索宝贝共 1.16万件。暂时地,我们没有去查看宝 贝的排名是否两次都一样。 假如“男女人字拖”,被切成了“男女”,“人 字拖”两个词。 那么“人字拖男女”,是不是也会被切成“男 女”,“人字拖”两个词呢? 为了证实我们的猜测,我们搜索“人字拖男女”。
这次搜索出来的结果是1.47万件。 在搜索结果中,我们发现了这样的标题 回力人字拖男士拖鞋夏季新款情侣沙滩鞋男休闲居 家女凉拖韩版防滑
而在之前的搜索中,我们并没有发现这个结果。 所以,我们可以断定: “男女 人字拖” 不等于 “男 女 人字拖”。 也就是说,“男女 人字拖”中的“男女”,并没 有被切分为“男 女”。 也就是说,“/”,在匹配中,是被忽略的。 但是这个时候,我们还是有疑问: 为什么“男女人字拖”会被看做是“男女 人字拖 鞋”,而“男女”,不被看做是“男 女”呢? 这涉及到分词问题。淘宝的搜索,本身应该有一个 词库。
找到宝贝是1.16万件。(数据可能因为 有新宝贝上架或者宝贝下架而发生变化) 按一般人的理解,“男女人字拖鞋”, 他是一个完整的词,所以搜索出来的结 果,应该是标题带有这个词宝贝,但是 从搜索结果中我们发现,即使没有完全 匹配这个词的宝贝,也出现在了搜索结 果。比如下面的标题:(红色为匹配词)
1、聚2015新品havaianas男女款宽带TOP TRED黑/黄人字 拖鞋哈瓦那 2、情侣人字拖男沙滩拖鞋潮流拼色拖鞋防滑夹脚凉拖鞋 男女居家拖鞋子 3、2015夏季新款时尚潮流情侣人字拖男女韩版夹脚平底 防滑沙滩凉拖鞋 4、登山羊夏季人字夹脚凉拖鞋男女休闲情侣洗澡浴室防 滑拖鞋沙滩拖鞋
这次搜索出来的结果,还是1.16万件。 接着,我们再试试“人字拖 男女”。
这次搜索出来的结果,还是1.16万件。 这个时候,我们基本可以断定,在淘宝的搜 索系统眼里 “男女人字拖”=“男女 人字拖”=“人字 拖 男女”=“人字拖男女”
而从搜索出来的结果我们可以发现下面这个标题 香港代购 BIRKENSTOCK勃肯鞋 男/女鞋 人字拖鞋 BN043381M 按我们一般的想法,“男/女”是不等于“男女” 的,那为什么会出现在搜索结果呢? 第一种可能,就是,“/”,在淘宝搜索系统里, 是不作为匹配词的。 也就是“男/女”这个词,在匹配的时候,等于 “男女”。 第二种可能,就是“男女人字拖”,被切成了“男 女 人字拖”。 为了验证我们的这个猜想,需要搜索一下“男 女 人字拖”。