我们在写蓝天采集器规则的时候有时候回遇到网页中有不固定元素列表,我们该如何来写xpath规则呢,往下看。
不固定元素列表,是一种模糊定位方式,以解决部分网页列表元素不是固定数目,例如部分网页第一页存在同类元素7个、第二页存在同类元素15个
示例:
<a class='test' value='1'>
<a class='test' value='2'>
<a class='test' value='3'>
//a[@class='test'] 就可以直接把这三个a标签都包含进去
如下图所示(群友提供):
//p[@class="selectionshareable"] 是不是很简单呢
认识XPath的结构
先自己自动生成几个XPath,看一下XPath结构有什么规律。几个示例XPath:
.//*[@id='subject_list']/ul/li[1]
//*[@id='c02']/ul/li/a
html/body//li[@class='next']/a[1]
是的,XPath通过HTML标签和属性查找数据:
标签:html body ul li div p a ......
连接标签的符号:/ //
属性和属性值:[@id='subject_list'] [@class='next']
弄清楚HTML标签、属性及其组合规律,是学会写一条正确XPath的关键。
相关知识点: XPath的结构- 1蓝天采集器开启循环入库后,将以第一个循环字段的数量为准
- 2蓝天采集器请问一下,能采集JS渲染的内容吗?
- 3迅睿cms火车头采集器免登录发布模块使用说明
- 4pbootcms常见标签调用学习
- 5蓝天采集器发布问题
- 6蓝天采集器管理员账号密码限制有些短
- 7蓝天采集器反应三个问题
- 8蓝天采集器文章分页采集示例教程
- 9蓝天采集器新手采集咨询
- 10蓝天采集器只能手机访问的站点,怎么采集?
- 11{pboot@sql sql="语句"}[sql:字段]{/pboot@sql}万能循环标签使用介绍
- 12影视站建设教程-零基础搭建影视站
- 13阿里云windows服务器买了单独的云盘如何挂载数据盘在服务器上面教程
- 14wordpress升级主题出现Briefly unavailable for scheduled maintenance. Check back in a minute解决方法
- 15163K网站系统阿里短信状态全部是发送中的解决办法
- 16盘企建站CMS在线宝塔安装操作教程
- 17蓝天采集器新手求问 缩略图在列表页内容页没有缩略图怎么办
- 18蓝天采集器蓝天采集器安装时候出现的问题
- 19宝塔控制面板php.ini文件在那个文件目录里面
- 20蓝天采集器JSON采集时,列表页即是内容页,采集卡死重采会重复采集
-
蓝天采集器新手采集咨询
不知道能不能当爬虫采集? 我想采集某个磁力链站的数据。
-
什么是JSON采集?
json是一种轻量级的数据交换格式,由于一些优秀的特性比如比 XML 更小、更快,更易解析和阅读,并有效地提升网络传输效率,而得到广泛使用。Json采集的优点:1、无需加载图片视频等信息,采集速度更快2、部分网站防采集限制减少,采集更加顺畅···
-
蓝天采集器1.1版,无法MYSQL入···
1、先在采集器里测试下能否正常抓取,不能则表示ip被对方屏蔽 2、数据插入失败表示没有抓取到数据库中必填的字段数据,检查下你的规则是否正确 3、你说之前是1.0版本,之前的版本有点bug,最好重新下载覆盖下 win系统一般会采集完才显示信···
-
蓝天采集器wordpress发布到网···
wordpress发布到网站数据库需怎样设置入库规则? 采集器不和网站在一个服务器,试了很多次都无法正常发布,不知道正确的入库规则要怎样写。
-
迅睿CMS火车头采集免登录入库接口和···
1、先吧Collapi_fAGkdb.tar.gz压缩包上线网站/dayrui/App目录,然后解压。2、登录网站后台、选择应用---采集器发布接口-----安装---安装完毕记得点击刷新后台(更新缓存)。安装完成就可以点击进入直接使用了,···