八爪鱼采集正则表达式使用方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

八爪鱼采集正则表达式使用方法

正则表达式(Regular Expression)描述了一种字符串匹配模式,可以用来检查一个字符串是否含有某种子串、将匹配子串做替换或者将匹配的子串提取出来等。

正则表达式语法=普通字符+特殊字符

普通字符=打印字符+非打印字符(元字符)

特殊字符=限定符+定位符

非打印字符:换页符(\f)、换行符(\n)、回车符(\r)、制表符(\t)、垂直制表符(\v)、控制字符(\cM)、匹配任何空字符(\s)、匹配任何非空字符(\S)

特殊字符:

$:输入字符串结尾位置

( ):标记一个子表达式开始于结束位置

*:前面的子表达式0次或者多次

+:前面的子表达式1次或者多次

.:通配符,除\n外任务字符

[、]:标记中括号要开始的地方,里面放表达式,表示字符集,但只表达一个字符

?:匹配前面的子表达式0次或者1次,非贪婪

\:转义字符

^:匹配输入字符串的开始位置

{、}:限定表达式开始的地方

限定符:*、+、?、{n}、{n,}、{n,m}

*、+、?区别:贪婪非贪婪

{n}、{n,}区别:匹配确定的次数与匹配至少的次数

定位符号:\b、\B、^、$

\b:边界处

\B:非边界处

选择:

|:或者

反向引用:

(?:pattern):匹配但不获取结果

(?=pattern):正向预查,不需要获取供使用

(?!pattern):负向预查

(?<=a):

(?=b):开头,匹配但不需要提供使用

优先级:从左到右计算

相同优先级从左到右计算

不同优先级先高后低

字符簇:字符集

相关采集教程:

ajax网页数据抓取/tutorial/gnd/ajaxlabel 模拟登录并识别验证码抓取数据

/tutorial/gnd/dlyzm

提取网页文字数据/tutorial/gnd/tiqushuju

网页数据导出/tutorial/gnd/dataexport

私有云教程 /tutorial/gnd/siyouyun

其他采集功能点/tutorial/gnd/qitagnd

八爪鱼——90万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

相关文档
最新文档