八爪鱼xpath入门教程以及定位元素实例

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

xpath入门教程以及定位元素实例

本文用来讲解xpath的入门基础,本教材是xpath入门2,建议大家从入门1教程开始学习

Xpath的教程适合对八爪鱼已经有一些基础的用户来学习。

示例地址

/tutorial?type=0&page=0&tag=%E8%BF%9B%E9%98%B6&version=other Xpath:是一种路径查询语言,简单的说就是利用一个路径表达式找到我们需要的数据位置。Html:超文本标记语言,是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档也被称为网页。

Xpath专用于xml中沿着路径查找数据用的,但是八爪鱼采集器内部有一套针对Html的

就能精准的查找定位网页里面的数据。

Xpath引擎,使得直接用Xpath

例如下图通过火狐的firebug 、firepath 查看网页源码。查看方法参考“xpath 入门1”教程

xpath 入门2-图2

完整的HTML 文件至少包括标签、标签、标签和<BODY>标签,并且这些标签都是成对出现的,开头标签为<></p><p>,结束标签为</>,在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景色、背景图像等。</p><p>Html 标签</p><p>作为开始和结束的标记由尖括号包围的关键词,比如<html>标签对中,第一个标签是开始标签,第二个标签是结束标签</p><p>元素</p><p>HTML的网页内容是由元素组成的,从开始标签到结束标签的所有代码。</p><p>元素的开始和结束都使用标签作为开始和结束的标记</p><p>节点</p><p>所有事物都是节点</p><p>整个文档是一个文档节点</p><p>每个HTML 元素是元素节点</p><p>HTML元素内的文本是文本节点</p><p>每个HTML 属性是属性节点</p><p>注释是注释节点</p><p>Html常见标签</p><p><a></a> 定义超链接,用于从一张页面链接到另一张页面</p><p><h1></h1> 文本标题标签,最大的标签。从1到6,有6层选择</p><p><p></p> 段落标记标签</p><p><div></div> 可定义文档中的区域或节、可以把文档分割为不同的部分,是一个块级元素</p><p><ul></ul> 创建一个列表</p><p><li></li> 创建列表内容项</p><p><input> 用于搜集用户信息可以是文本字段、复选框、按钮等等</p><p><img></img> 向网页中嵌入一幅图像,从网页中链接图像</p><p><table></table> 创建一个表格</p><p><tr></tr> 表格中的每一行</p><p><th></th> 设置表格头,通常是黑体居中文字</p><p><option></option> 设置每个表单项的内容,选项</p><p>可以通过这些常见的标签找到数据的位置。</p><p>例如//a就代表能匹配到这个网页中所有可以点击的链接</p><p>xpath入门2-图3</p><p>Html常见属性</p><p>属性是用来修饰标签的,放在开始标签里面</p><p>class</p><p>规定元素的类名,大多数时候用于指定样式表中的类</p><p>id</p><p>唯一标识一个元素的属性,在html里面必须是唯一的</p><p>href</p><p>指定超链接目标的url</p><p>src</p><p>图像文件的url</p><p>例如//span[@class='itemWithIcon calendar']通过class 这个属性就匹配到了当前页面所有的日期。</p><p>xpath 入门2-</p><p>图4</p><p>Xpath 常见写法</p><p>text()</p><p>文本定位位置</p><p>例如//a[text()='下一页 » ']</p><p>通过源码中文本“下一页 »”就匹配到了,这个text ()是需要精确匹配源码中的文本的</p><p>xpath 入门2-图5</p><p>contains()</p><p>用来判断字符串的一部分</p><p>contains(text(),'')</p><p>contains(@class ,'')</p><p>这个</p><p>contains 是用来模糊匹配的,可以看到源码中显示的是“下一页 »”,用contains 只需要“下一页”3个字就可以了</p><p>xpath入门2-图6</p><p>positon()</p><p>表示节点的序号</p><p>last()</p><p>//div[last()]</p><p>xpath入门2-图7</p><p>首先看到上图中xpath</p><p>html/body/div[1]/div[3]/div/div/div[2]/div[1]/div匹配到了网页中的所有教程,但是我们如果只需要里面几项的时候就可以使用position()</p><p>如下图:</p><p>通过html/body/div[1]/div[3]/div/div/div[2]/div[1]/div[position()=5],里面的[position()=5]就可以指定是某个具体的教程了。</p><p>xpath入门2-图8:[position()=5],指定某个具体教程following-sibling</p><p>当前元素的兄弟元素</p><p>这个可以参看数字翻页的例子哈</p><p>and\or\not</p><p>and 并且与关系</p><p>or 并且或关系</p><p>not 不是</p><p>例如下面的html/body/div[1]/div[3]/div/div/div[2]/div[1]/div[2]/div/a[@style and @href],其中的[@style and @href]就代表找到同时具有这两个style和href属性的a标签</p><p>xpath入门2-图9:[@style and @href],具有style和href属性的a标签</p><p>相关阅读:</p><p>美团商家信息采集</p><p>豆瓣电影短评采集</p><p>房天下信息采集</p><p>八爪鱼——70万用户选择的网页数据采集器。</p> </div> </div> </div> </div> </div> <div id="rightcol" class="viewcol"> <div class="coltitle">相关文档</div> <ul class="lista"> <li><a href="/doc/041050692.html" target="_blank">Python Selenium 常用功能(实战详解)</a></li> <li><a href="/doc/042705168.html" target="_blank">java_Dom4j解析XML详解</a></li> <li><a href="/doc/1514446927.html" target="_blank">今日头条各转化目标功能解析0919</a></li> <li><a href="/doc/1c14624927.html" target="_blank">【黑马程序员】使用DOM4J+XPATH解析带有schema约束的XML文件</a></li> <li><a href="/doc/1816805372.html" target="_blank">四种XML解析器比较</a></li> <li><a href="/doc/284620446.html" target="_blank">Selenium XPath定位详解</a></li> <li><a href="/doc/2015034673.html" target="_blank">XML选择简答题</a></li> <li><a href="/doc/341536690.html" target="_blank">XML的四种解析器(dom,sax,jdom,dom4j)原理及性能比较[收藏]</a></li> <li><a href="/doc/375364190.html" target="_blank">课题_C#Xpath解析HtmlDocument的使用方法与递归取得页面所有标签xpath值</a></li> <li><a href="/doc/3d5437172.html" target="_blank">XML创建与解析常用方法介绍</a></li> </ul> <div class="coltitle">最新文档</div> <ul class="lista"> <li><a href="/doc/0811713075.html" target="_blank">英语老师工作总结报告</a></li> <li><a href="/doc/0b11713078.html" target="_blank">小学二年级语文下册第一单元试卷</a></li> <li><a href="/doc/051171308.html" target="_blank">入厂煤的工业分析作业指导书</a></li> <li><a href="/doc/0011713080.html" target="_blank">2019新版北师大版数学五年级上册《成长的脚印》练习题</a></li> <li><a href="/doc/0011713081.html" target="_blank">大数据是经济社会发展的新引擎</a></li> <li><a href="/doc/0011713082.html" target="_blank">住宅楼租赁合同通用范本</a></li> <li><a href="/doc/0011713083.html" target="_blank">卵巢早衰的症状,这四点最显著【医学养生常识】</a></li> <li><a href="/doc/0111713084.html" target="_blank">2018届高三生物(浙江选考)一轮复习文档 必修1 第4章 第12讲 课后限时训练12 Word版含答案</a></li> <li><a href="/doc/0211713085.html" target="_blank">2016年小升初语文 古诗词练习题精选</a></li> <li><a href="/doc/0311713087.html" target="_blank">培养农村小学生语文学习习惯浅探</a></li> </ul> </div> </div> <script> var did = "42591910"; var ext = 'docx'; var docId = '17q5dlbe8f2lkw1al2sqln04xhp9ru15'; var totalPage = 12; const pageNum = '12'; </script> <div class="clearfloat"></div> <div id="footer"> <div class="ft_info"> <a href="https://beian.miit.gov.cn">闽ICP备16038512号-3</a> <a href="/tousu.html" target="_blank">侵权投诉</a>  ©2013-2023 360文档中心,www.360docs.net | <a target="_blank" href="/sitemap.html">站点地图</a><br> 本站资源均为网友上传分享,本站仅负责收集和整理,有任何问题请在对应网页下方投诉通道反馈 </div> <script>foot()</script> </div> </body> </html>