火车头和蓝天采集必须设置的几个要点

林哲

发表文章数:1021

专业SEO优化

  • 正规SEO优化手法
  • 承诺流量+权重提升
  • 强大的团队解决问题
  • 全心全意的服务
  • 立即咨询
    首页 » 采集规则 » 火车头和蓝天采集必须设置的几个要点

    蓝天采集和火车头采集功能无差距,所以我就一起说

    这几个设置你一定要设置,对采集网站有帮助哦

    1.图片本地化

    采集源站图片有防盗链情况下,图片本地化是个很不错的选择。

    源站就算没有防盗链,那么我们开启也是好的 说不定出现源站不稳定,源站关闭等问题

    导致我们的图片无法正常显示,网站开启了对象储存,采集的图片会保存到服务器而不是对象储存空间

    这个时候我们只需要去安装一个图片本地化的插件就可以了,亲自测试图片本地化插件能自动上传图片到oss

    想给图片加水印怎么办?

    我这里说WordPress程序,保存图片插件:QQWorld自动保存图片  然后去网上搜索一个加水印插件

    把保存图片插件设置为手动保存,这样两个插件组合到一起就可以啦

    图片本地化设置建议截图:

    火车头和蓝天采集必须设置的几个要点

    2.实时发布数据

    火车头和蓝天采集必须设置的几个要点

    防止数据过多和过大,导致数据导入失败,很不错的功能

    3.渲染工具

    火车头和蓝天采集必须设置的几个要点

    我们可能会遇到一些特殊的数据获取的网页,可以通过渲染工具来获取到实时数据,顺利采集完成我们的数据内容。

    至于开启教程我之前在蓝天采集器怎么开启页面渲染功能一文中说过

    说完基础设置,我们来说说采集方面的一些小细节:

    火车头和蓝天采集必须设置的几个要点

    看下红色框内部的几个设置,第一个设置:自动补全网址 建议你们开启(但是我基本上没怎么开)

    有的网站查看源码代码内容是:/1999.html  而完整的链接是:https://layfjr.com/1999.html

    这个时候这个工具就会自动补全链接,很方便!

    第二个设置:网址不排重  如果你想采集的内容能收录或者有排名 有用途 就一定要开启哦

    下面两个我就不多说解释了,大家看着就能明白了。

    火车头和蓝天采集必须设置的几个要点

    请求头信息就是有些程序防止恶意爬虫而开启的,能达到欺骗防火墙和登陆状态采集

    具体可以看我前文蓝天采集器用cookei采集登陆后的内容

    还有小细节网址倒序功能:

    火车头和蓝天采集必须设置的几个要点

    采集字段的小细节:

    火车头和蓝天采集必须设置的几个要点 火车头和蓝天采集必须设置的几个要点

    本来想了很多,但是前面说了些废话都忘记了,说下重点两个

    去除前后空格,不介绍反正有用(采集都一些数据文章开通或结尾都有空格换行)

    过滤标签就很大用处,我必用的是a 和 div,a标签就不用说了,div是一些文章结尾包含了</div> 我不处理的话

    放到文章里面就会导致我网站布局错乱,还有一些其他到html标签 大家可以根据源站到情况去填写

    分享到:
    赞(0)

    评论 1

    6 + 6 =
    1. #1
      qq_avatar

      支持

      鹤别2周前 (06-28)回复
    Vieu4.5主题
    专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。
    切换注册

    登录

    忘记密码 ?

    切换登录

    注册