八爪鱼采集正则表达式使用方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
八爪鱼采集正则表达式使用方法
正则表达式(Regular Expression)描述了一种字符串匹配模式,可以用来检查一个字符串是否含有某种子串、将匹配子串做替换或者将匹配的子串提取出来等。
正则表达式语法=普通字符+特殊字符
普通字符=打印字符+非打印字符(元字符)
特殊字符=限定符+定位符
非打印字符:换页符(\f)、换行符(\n)、回车符(\r)、制表符(\t)、垂直制表符(\v)、控制字符(\cM)、匹配任何空字符(\s)、匹配任何非空字符(\S)
特殊字符:
$:输入字符串结尾位置
( ):标记一个子表达式开始于结束位置
*:前面的子表达式0次或者多次
+:前面的子表达式1次或者多次
.:通配符,除\n外任务字符
[、]:标记中括号要开始的地方,里面放表达式,表示字符集,但只表达一个字符
?:匹配前面的子表达式0次或者1次,非贪婪
\:转义字符
^:匹配输入字符串的开始位置
{、}:限定表达式开始的地方
限定符:*、+、?、{n}、{n,}、{n,m}
*、+、?区别:贪婪非贪婪
{n}、{n,}区别:匹配确定的次数与匹配至少的次数
定位符号:\b、\B、^、$
\b:边界处
\B:非边界处
选择:
|:或者
反向引用:
(?:pattern):匹配但不获取结果
(?=pattern):正向预查,不需要获取供使用
(?!pattern):负向预查
(?<=a):
(?=b):开头,匹配但不需要提供使用
优先级:从左到右计算
相同优先级从左到右计算
不同优先级先高后低
字符簇:字符集
相关采集教程:
ajax网页数据抓取/tutorial/gnd/ajaxlabel 模拟登录并识别验证码抓取数据
/tutorial/gnd/dlyzm
提取网页文字数据/tutorial/gnd/tiqushuju
网页数据导出/tutorial/gnd/dataexport
私有云教程 /tutorial/gnd/siyouyun
其他采集功能点/tutorial/gnd/qitagnd
八爪鱼——90万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。