首页 / 正文
广告·AD

文档|蜜蜂百宝箱 – 如何设置采集规则?

插件·蜜蜂百宝箱 2020年7月7日 Bee 204

需注意,本教程的规则仅适用于百宝箱内的采集规则编写!

必备知识

需要了解 HTML 及正则表达式,尤其是 jQuery 选择器

规则说明

  • 规则名称,可随意,仅仅是为了作为标注
  • 目标地址,无需带上 http:// 或 https://,仅需域名即可
  • 文章标题规则 和 文章内容规则
    • 规则如 类型|选择器(或正则表达式,建议能用选择器就用选择器)
    • 类型有两种:1 代表正则表达式,2 代表 jQuery 选择器
    • 举例,2|h1,代表用 jQuery 选择器去匹配 <h1> 标签的内容,2|.post-content,代表用 jQuery 选择器去匹配类名(class属性)为 post-content 的内容,1|/msg_title = \'([^\’]+)\’/ 代表用正则表达式去匹配内容,比如内容包含 msg_title = ‘这是标题’,用这个正则表达式将返回匹配结果 “这是标题”
  • 文章图片规则
    • 规则类似文章标题规则,只是后面多了一个图片链接的属性
    • 此外,内文图片仅支持类型 2,即 jQuery 选择器
    • 举例,2|img|src,代表用 jQuery 选择器匹配 <img>标签,并且指定 <img> 的链接属性为 src(通常为 src,但也有例外,部分网站增加了懒加载模式,可能真实属性为 data-src 或其它属性)
  • 编码:目前仅支持 utf8

评论