网络信息采集大师使用手册
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络信息采集大师使用手册
网络信息采集大师使用手册 (1)
一、软件界面介绍 (2)
二、分类 (2)
三、URL导航类型任务 (3)
四、脚本类型任务 (8)
五、地址列表类型任务 (9)
六、数据采集的更多高级设置技巧(任务-数据提取规则-‘更多设置’按钮) (11)
七、任务调度 (19)
八、数据导出(发布) (22)
九、数据库 (24)
十、系统设置 (28)
十一、其他 (29)
十二、注意事项 (29)
一、软件界面介绍
菜单和工具栏:在软件的最上面。工具栏提供了最常用的功能。
分类数据区:软件的左边部分。分类的目的是数据清晰,便于管理。
任务区:软件的中间部分。任务属于某个分类,任务也是本软件的核心。
采集数据区:右下部分。采集任务执行后,会动态的显示该任务的数据区。该区数据可以导出为文本,Excel和数据库。
二、分类
分类是为方便数据和任务管理而设计的。
默认有三个分类:自定义类别,正在运行,回收站。用户自己建的类别只能属于自定义类别。正在运行类别里只包含正在运行的任务,任务停止后自动退出该类。回收站是给用户以重新利用的机会。
分类没有层次限制,理论上可以建立无限个,无限层类别。
类别数据有三个最新备份,放在目录\files下,为数据安全提供了可靠保障。
备份分类数据库/恢复分类数据库:在菜单[文件] 下面。用此功能可手动备份或手动恢复分类数据。
新建类别:在[自定义类别]点右键\新建,或者选菜单任务\新建。在打开的窗口里输入类别名称,注释后保存。
注意:在新建一个类别之前,要先选择[自定义类别]或其子类,新建的类属于选择的类的子类。
类别移动:在[自定义类别]点右键\移动到,或者选菜单任务\移动到。在打开的窗口里选择一个其他的类,保存后该类移动。
注意:在移动一个类之前,要先选择[自定义类别]的子类或者回收站里的类。把一个类移动到回收站就是删除该类。
类别修改:在[自定义类别]点右键\属性,或者选菜单任务\属性。在打开的窗口修改后保存。
类别删除:删除分两种:临时删除和彻底删除。把[自定义类别]的类删除属于临时删除,把回收站里的类删除属于彻底删除。
三、URL导航类型任务
URL导航类型任务是使用最为广泛的任务类型,特点是低耗高效,功能极其强大。任务的建立有很多技巧,可在实践中去体会。
可在官方网站找到经常会更新的帮助信息:在线帮助| 常见问题解答
下面介绍关于任务设置的基本概念,核心内容和设置技巧:
综述:URL导航任务最为常用。在浏览器里浏览不同的网页数据,地址都会随之做相应的变化,这种情况最适合URL型。URL型的特点是低耗高效,可在系统工具栏‘选项’里面通过设置不同的运行线程数,自由控制速度。需要登录才能看到的信息,要先在'登录设置'里进行登录.
1.1 任务概述
点工具栏里的‘新建’或者菜单‘任务\新建’。打开新建任务窗口。如图:
任务名称:必填项。给该任务起一个具有标示性的名字。可以是汉字,字母,数字或其组合。
任务注释:可选项。给该任务作一个备注。
所属类别:必填项。可选择"自定义类别"或其子类的任一分类。
任务类型:用URL导航类型。
登录设置:有些网站需要登录后才能看到需要的数据,可在此处登录,登录后关闭登录窗口,即可保存登录设置。
点[下一步] 后,进入采集规则的设置。
1.2 采集规则
此页数据的填写较为关键,直接关系到数据能否采集。
起始地址:必填项。要采集页面的开始地址。也可以是一个本地文件,如c:\list.txt, 该文本文件里是采集页面的地址集合。
导航关键字:可连接到下一页的关键字符串。一般来说采集的信息是多页的,如http://....page=1 , http://...page=2等等,页码数字前面的字符串page就是导航关键字。若不添该项,则只采集起始地址的数据。
采集页数范围:采集哪一页到哪一页之间的数据,可以是1到1000,也可以是1001到1500等。若不添该项,则只采集起始地址的数据。
增量:默认为1。一般来说页码变化是连续的。
采集网址标识:需要抓取数据的页面的URL地址关键字。若采集本级页面数据,为空即可。
过滤网址标识:不打算采集的页面地址里的关键字,一般情况下不用。
关联网址标识:一次采集多个页面的信息组合成一条数据。在此填写关联网址的关键字。注意该标识符在整个网页源码中具有唯一性,可以组合url前后的字符串来标识。
采集数据页包含分页:一般用来采集新闻,文章等一篇文章用多个页面来显示的情况,关键字就是分
页地址里的关键字符串。
采集关键字替换:一般不用,为了提高采集效率设置。目的是把某些url地址,直接替换成自己想要采集数据的url地址;而这个地址可能隐藏在比较深的页面之下,若直接采集的话,会在查找url地址上浪费大量时间。
点[下一步] 后,进入数据提取规则的设置。
1.3 数据提取规则
如图:
本页提取多行同类数据:比如只采集文章的标题列表等。
中文名称:自己随便命名. 比如‘姓名’‘联系地址’等。
前标识符:确定一个数据值的前符号。在源文件里查找。(先在软件的浏览器里打开要分析的网页,然后点‘源文件’按钮,可显示要分析的源文件数据。注意不要直接用ie浏览器得到网页源代码,一定要用软件的‘源文件’按钮)
后标识符:确定一个数据值的后符号。参考前标识符的解释。
信息类型:其中有几种最为常用,分别予以解释:
URL类型:当一个数据项被设置成URL类型时,假如采集到地址不完整,会自动格式化成一个完整的地址。比如采集到的是/1001.htm,而任务的'网站首页'设置为/news,那么地址会自动格式化为/news/1001.htm
附加类型:采集的信息里,有循环的,有不循环的,这时不参与循环的要设置为附加类型。附加类型的数据项可在信息的头部或底部,不可在中间穿插。
常量:有时采集的数据项里, 其中有一个或多个数据项不需要采集, 但要和采集结果在一起, 可把这些数据项设置为常量, 常量的值就是前标识符的值。
多媒体类型:用于自动下载二进制文件。比如采集到类似http://www..../1.jpg,会自动下载到本地。
文章类型:用于采集新闻等。
关联地址类型:该类型数据用于作为关联URL使用,可实现把分散在多个页面数据整合成一条。与"采集规则-关联网址标识"作用类似。
提取数据页的全部数据作为一个数据列:把采集的数据整个输出。一般适用于数据很难拆分的情况。若使用该项,下面的不用再设置。
保存对应的URL:有时候URL能标识一行具体的数据,这样数据导入数据库后,用户能很方便的分辨。
区分大小写:采集英文的数据,可选中此项,因为中文没有大小写之分。(采集新闻最好选中该项,有些图片地址对大小写敏感)
自动截取字串:使用默认即可。
保留html代码:默认情况下,采集到的html代码中,< >之间的部分会自动清除,选中该项后可保留代码;比如采集文章等,保留原代码相当于保留了原格式。该选项是针对每个数据项的,这样做的好处是有些数据项是不需要保留html代码的,有更大的灵活性。
附:填写前后标识符要领
1.一个数据项,一定要在前后标识符之间。
比如类似这样的源文件:
2.采集数据项的顺序一般要和网页上的数据项的顺序一致。这个很好理解,提取信息是按照从上而下的顺序。当然,如果去掉‘自动截取字符串’选项,则可以不按照从上而下的顺序,但要确保每个采集项的前后标识符具有唯一性,否则采集到的数据可能不是想要的数据。