同义词挖掘详细设计文档

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于百度搜索结果同义词挖掘详细设计文档
1.背景
利用百度5000W的query日志，抓取其搜索结果。

分析百度飘红得到可疑同义词对，然后交给第三方审核。

2 主要流程
Step1 用pa.py 抓取百度5000W搜索结果
Step2 用filterfromqueryresult.py得到可疑同义词对set1
注：由于5000W的query里，存在query:AB,但是并没有单独的A,B。

这样如果挖掘出可疑同义词对AB->AB1,而实际上B并不依赖于A就可
以同义词成B->B1。

Step 3 利用qie_total.py得到token个数小于6的query
Step 4 利用get_all_query.py 得到全集set_quan
Setp 5 用pa.py 抓取百度set_quan搜索q结果
Step 6 用filterfromqueryresult.py得到最终可疑同义词对
2.主要函数说明
Pa.py 主要类及函数说明
filterfromqueryresult.py 主要函数说明
此脚本负责从pa.py从抓取结果中得到可疑同义词对
Qie_total.py
利用filterfromqueryresult.py产生的可疑同义词对，选取token个数小于6的全部。

这里存在一个假设：大多数的词的token个数不大于5
Get_all_query.py
生成qie_total.py所产生的query的全集，如：query:ABC,则抓取A,B,C,AB,BC,ABC
问题by HanYang
1、handle_every_file_content
为什么在读取到<!DOCTYPE html>之后，需要将之前读到的page_content进行一次处理？什么情况下，在一个页面中会遇到多个此类标签？
2、getQuery()
267 if((title_begin_index!=-1)or(title_end_index!=-1))
这里应该是and吧？
3、querylist_wa_em_title(query_list,em_title_wa_dict)
query的每个token在每个飘红中的起始index和结束位置。

飘红中可能会包含一个token多次么？
em_title_wa_dict key：一条搜索结果中飘红的部分
value：如果该飘红包含了query中的token，那么value为该token在飘红中的开始和结束位置。

如果不包含token，那么是一个空数组。

qie_total.py
run函数第30行，为什么取第6个字节之后的？。