上星期百度姐讲了自己提高百度文库通过率的几点方法(百度姐:如何提高百度文库通过率),当时也有说到要把百度知道火车头采集方法告诉大家,今天就讲讲百度知道的采集方法。
第一步:下载百度知道的规则。
百度知道的规则下载:http://url.cn/OGraeM
火车头规则的卷写需要看到页面程序,现在就不讲怎么写采集规则了,百度姐直接把自己写的规则放出来,大家可以直接下载,导入到火车头里面就可以使用了。
百度姐的这个规则是搜索“祛斑”关键词的一个规则。如果大家需要采集其他关键词的百度知道,可以相应修改一下就ok了。
第二步:下载火车头。
大家可以上网上下载也可以用百度姐已经下载好的,百度姐使用的是火车采集器8.0,截至到现在应该算最高版本了,百度姐用的是免费版本的,所以有限功能会有现在,但是免费版本的采集内容到本地服务器还是可以的。貌似没有发布功能。
火车采集器8.0下载:http://url.cn/TQzMu3
第三步:安装火车采集器8.0。
下载了火车采集器8.0之后,直接解压就可以使用了。打开解压的文件夹,点击LocoyPlatform文件就可以了。
第四步:导入百度知道采集规则。
先创建一个分组,随便命名,方便自己以后查找使用。百度姐创建了一个百度知道的分组。如图:
选择我们刚刚创建的百度知道分组,点击右键,选择导入任务至该组。点击确定。如图:
第六步:本地数据。
选择任务(就是刚刚上传的祛斑规则),右键选择编辑任务,百度姐给大家详细介绍一下这个规则的几个重要的东西。如下图:
2.第二布:采集内容规则。
A、百度姐这边的百度知道规则只抓取问题(问题标签),最佳答案(问题1标签)和第二个答案(问题2标签),如果大家需要抓抓取第三个答案,就必须添加问题3的标签,需要查看页面代码,找出此答案前后唯一的代码才可以。这块百度姐以后花时间详细写一下。
B、典型页面。这边可以找一个知道的内容页,有最佳答案和第二个答案的,点击测试,就可以看到此网页采集到的内容。如果没有最佳答案,问题1的部分是空白的。第二个答案也是一样的,如果页面中没有第二个答案,那么这个采集到的问题2的部分就是空白的。
C、如果百度知道采集太多,会出现采集不到内容的问题,如下图1,这是因为百度官方限制。所以采集的时候不要频繁采集。把网址放浏览器打开就如图2,如果条件允许,可以买个vpn更换ip,就可以继续使用了。
图1:
图2:
3.第三步:发布内容设置。
A、看截图红框的部分,设置好路径,采集成功后,直接找到文件打开就可以了。
B、如果打不开,大家可以现在数据库软件Access安装,在打开。百度姐用的是Access2003,提供下载地址。
Access2003下载地址:http://url.cn/P9gnVm
今天就说到这里吧,微信上有朋友跟我要火车头百度知道的采集规则,如果有想要的朋友可以微信百度姐:baidujie。如果不出意外的话,下次博文会放出来,会更细节一些,大家感兴趣的可以把百度姐的博客收藏到浏览器收藏夹,百度姐每周最少周二会更新。百度姐感激大家的关注!
原创地址: http://www.baidujie.org/?p=87
5ucms插件网收集整理
上一篇:5ucms帮助浅谈:描述标签的规范写法 下一篇:5ucms教程,百度死链提交工具使用方法及死链xml文件制作 |
|
本站声明:本网站所载文章等内容,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权及其它问题,请在30日内与本网联系(Email:3876307#qq.com),我们将在第一时间删除内容。若原创内容转载请注明出处。 常见问题: 什么是路径码? 如有问题,请在下方评论提问或加入5ucmsQQ群 5ucms仿站,用火车头采集百度知道的方法的关键词:百度 火车 采集 方法 知道 |