订阅/程序下载
5ucms仿站,用火车头采集百度知道的方法
作者: 来源: 日期:2014/11/18 11:27:37 浏览量:218(滞后) 人气:LOADING...(实时) 【

  上星期百度姐讲了自己提高百度文库通过率的几点方法(百度姐:如何提高百度文库通过率),当时也有说到要把百度知道火车头采集方法告诉大家,今天就讲讲百度知道的采集方法。

  第一步:下载百度知道的规则。

  百度知道的规则下载:http://url.cn/OGraeM

  火车头规则的卷写需要看到页面程序,现在就不讲怎么写采集规则了,百度姐直接把自己写的规则放出来,大家可以直接下载,导入到火车头里面就可以使用了。

  百度姐的这个规则是搜索“祛斑”关键词的一个规则。如果大家需要采集其他关键词的百度知道,可以相应修改一下就ok了。

  第二步:下载火车头。

  大家可以上网上下载也可以用百度姐已经下载好的,百度姐使用的是火车采集器8.0,截至到现在应该算最高版本了,百度姐用的是免费版本的,所以有限功能会有现在,但是免费版本的采集内容到本地服务器还是可以的。貌似没有发布功能。

  火车采集器8.0下载:http://url.cn/TQzMu3

  第三步:安装火车采集器8.0。

  下载了火车采集器8.0之后,直接解压就可以使用了。打开解压的文件夹,点击LocoyPlatform文件就可以了。 

  第四步:导入百度知道采集规则。

  先创建一个分组,随便命名,方便自己以后查找使用。百度姐创建了一个百度知道的分组。如图:  

  选择我们刚刚创建的百度知道分组,点击右键,选择导入任务至该组。点击确定。如图:

  第六步:本地数据。

  选择任务(就是刚刚上传的祛斑规则),右键选择编辑任务,百度姐给大家详细介绍一下这个规则的几个重要的东西。如下图:

  

  2.第二布:采集内容规则。

  A、百度姐这边的百度知道规则只抓取问题(问题标签),最佳答案(问题1标签)和第二个答案(问题2标签),如果大家需要抓抓取第三个答案,就必须添加问题3的标签,需要查看页面代码,找出此答案前后唯一的代码才可以。这块百度姐以后花时间详细写一下。

  B、典型页面。这边可以找一个知道的内容页,有最佳答案和第二个答案的,点击测试,就可以看到此网页采集到的内容。如果没有最佳答案,问题1的部分是空白的。第二个答案也是一样的,如果页面中没有第二个答案,那么这个采集到的问题2的部分就是空白的。  

  C、如果百度知道采集太多,会出现采集不到内容的问题,如下图1,这是因为百度官方限制。所以采集的时候不要频繁采集。把网址放浏览器打开就如图2,如果条件允许,可以买个vpn更换ip,就可以继续使用了。

  图1:

  图2:

 

  3.第三步:发布内容设置。

  A、看截图红框的部分,设置好路径,采集成功后,直接找到文件打开就可以了。

  B、如果打不开,大家可以现在数据库软件Access安装,在打开。百度姐用的是Access2003,提供下载地址。

  Access2003下载地址:http://url.cn/P9gnVm 

  今天就说到这里吧,微信上有朋友跟我要火车头百度知道的采集规则,如果有想要的朋友可以微信百度姐:baidujie。如果不出意外的话,下次博文会放出来,会更细节一些,大家感兴趣的可以把百度姐的博客收藏到浏览器收藏夹,百度姐每周最少周二会更新。百度姐感激大家的关注!

  原创地址: http://www.baidujie.org/?p=87

5ucms插件网收集整理

本站推荐:5ucms模板 5ucms插件 微信/QQ:3876307        [复制给好友] [打印] [关闭] [返回] [顶部]
上一篇:5ucms帮助浅谈:描述标签的规范写法
下一篇:5ucms教程,百度死链提交工具使用方法及死链xml文件制作
本站声明:本网站所载文章等内容,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权及其它问题,请在30日内与本网联系(Email:3876307#qq.com),我们将在第一时间删除内容。若原创内容转载请注明出处。
常见问题: 什么是路径码? 如有问题,请在下方评论提问或加入5ucmsQQ群
5ucms仿站,用火车头采集百度知道的方法的关键词:百度 火车 采集 方法 知道
评论信息
相关分类
本周热门
本月热门
关于我们 - 版权/免责 申明 - 建站服务 - 网站地图 - 稿件投递 - 联系我们 - 5ucms
Copyright © 2008-2015 www.5ucms.org 微信/QQ:3876307