有些文章内容太长会采用分页模式来显示,以文章“http://shili.skycaiji.com/article/news/pg/id/20.html”为例
首先我们在“采集器设置》获取内容》内容分页”中开启分页
文章一般都是正文有分页,我们将“正文”字段添加为“分页内容字段”
文章页面图片:
图中我们可以看到有4种分页形式:完整分页、上下分页、完整分页JS模式和上下分页JS模式
分页连接的格式为:article/news/pg/id/数字.html?page=数字
通过“测试》分析网页”功能获取到各个分页区域的xpath:
完整分页://*[@id="page_list"]/li[1]
上下分页://*[@id="page_list"]/li[3]
完整分页JS模式://*[@id="page_list"]/li[2]
上下分页JS模式://*[@id="page_list"]/li[4]
以上xpath值可以在“内容分页》获取分页区域”中设置以获取固定区域的分页链接,否则将获取整个页面的分页链接
分页链接规则:
完整分页和上下分页直接通过a标签获取链接即可:
JS模式分页通过查看源码发现链接格式为:
使用规则匹配出分页链接:
因为JS模式不能自动补全网址,所以要在“拼接成最终分页链接”中填写:
为了防止匹配到非分页链接,在“内容分页》分页网址过滤》必须包含”中填写“page=”,精准一些则用“article/news/pg/id/d+.html?page=d+”
我们测试下“完整分页JS模式”的链接抓取
“测试》抓取分页”效果
注意:很多网站由于程序问题会出现2种格式的文章首页链接,比如示例中的文章首页链接为:http://shili.skycaiji.com/article/news/pg/id/20.html和http://shili.skycaiji.com/article/news/pg/id/20.html?page=1(从第二页开始文章首页为该链接),这2个链接内容是一样的会导致文章首页重复抓取
解决方法:在“内容分页》分页网址过滤》不能包含”中填写“page=1$”即排除掉第一页链接
常见问题:
上下页模式每次只能抓取一个分页链接能采集完整吗?可以的,程序会根据下一页自动抓取到最后一页,可以用“测试》抓取字段”看看数据是否抓取完整
如果分页链接顺序打乱了,文章分页内容会乱吗?不会的,程序自动根据分页编号排序,会按照正常分页顺序采集内容
最大分页数是怎么回事?是为了防止出现死循环,当实际分页数不超过最大分页数时使用实际分页数,超过最大分页数时使用最大分页数
- 1医疗/医院网站建设方案
- 2网站SEO优化100条经验解答分享76-100
- 3蓝天采集器怎样判断获取的图片地址是否404?
- 4蓝天采集器规则请教
- 5盘企建站CMS在线宝塔安装操作教程
- 6蓝天采集器discuz插件显示乱码
- 7163K网站系统网站系统环境配置和建站教程
- 8蓝天采集器为什么我一采集入库就报表只可读保存失败
- 9蓝天采集器求教繁体和简体,中文和英文的转换问题
- 10{pboot@sql sql="语句"}[sql:字段]{/pboot@sql}万能循环标签使用介绍
- 11163K网站系统二维码跳转进入小程序--待完善
- 12化妆品/服装行业网站建设方案
- 13蓝天采集器安装出现问题了,安装不了
- 14蓝天采集器开启自动采集设置PHP-CLI(命令行)教程
- 15蓝天采集器请问时间转换为时间戳这个工具应该怎么使用?
- 16163K网站系统商城物流跟踪-快递鸟配置教程
- 17狂野小说cms白色优美-手机模版(wap)和蓝色简约版手机模板免费分享
- 18蓝天采集器BUG反馈:标题排重无法正常使用
- 19蓝天采集器蓝天采集器安装时候出现的问题
- 20蓝天采集器蓝天采集器V1.3版本更新文档,升级必看!
-
蓝天采集器数据库发布,数据库连接测试···
数据库发布,数据库连接测试成功,点数据表是空的,获取不到数据表 下个版本修复,临时解决http://bbs.skycaiji.com/forum.ph ... &extra=page%3D1 什么时候发布新版本?期待……
-
蓝天采集器数据处理环节有BUG
数据处理中的替换和过滤, 如果采集的是URL地址,并且地址中包含“?”或“&”,会替换和过滤不成功。 例: 完整的URL地址: http://127.0.0.1/service/service.df?pageid=8509&···
-
网站ICP备案需知
哪些网站必须备案?1、在中华人民共和国境内的所有IDC机房托管的网站或者虚拟主机,云主机等放置的网站,一律需要备案;2、在中国香港托管的网站和网站虚拟主机空间,不需要备案;3、在美国,韩国,日本等IDC机房所托管的网站不需要备案;客户怎样选···
-
163K网站系统公众号模板消息配置教···
要使用微信模板消息需要先配置好网站后台的公众号参数配置教程公众号模板消息配置教程1 登陆微信公众平台https://mp.weixin.qq.com/(用网站后台配置好的公众号账号,必须是同一账号)2 进入 功能 模板消息 模板库(如没有此···
-
PbootCMS详情页里的“没有了”···
问:做英文站,碰到详情下的中文不知道在哪里修改答:翻pbootcms在线手册,去内容详情选项里找{content:nexttitle notext='no more'} 设置“没有了”文本,设置参数时如果带空格,需要用单引号 ···