从目前来看,或者说从使用火车采集器的经验来看,目前防采集的办法有以下几点。
当然,现在才来说防采集这件事,并不是怕人人都防采集了,火车还能何去何从。主要原因还是在,防采集的难度和成本太高,无奈最近这段时间美眉网正遭受一群道上的朋友恶意采集,还不得已想了一些防采集的办法,这几个办法,我自己也在不断权衡,相信不久的将来,会有比较完善的防采集解决方案。
一,动态程序(或者伪静态)仿采集的办法。
简单来说,就是在服务器上使用Session记录客户端的访问请求。可以实现限制用户恶意刷新、多次重复请求和限制时间内大面积访问请求等。简单来说,这个办法是最行之有效的,也是最简单的一个办法。
当然,这个办法为什么没有普遍开来,想必在这里肯定是被当成废话来听。这样的动态程序本身就是一个占用并浪费资源的、严重影响用户体验的一个办法。
防采集,肯定是针对大量数据的网站而言,几篇几十篇文章手动点下鼠标就成。针对大量数据的网站,基本上都是用生成静态HTML来解决服务器压力的问题。
那么,这个静态文件肯定就无法使用动态程序(或者伪静态)仿采集的办法。
除此之外,这样的限制访问速度、要求用户登陆等办法,也在一定程度上影响了搜索引擎的收录效果。
二,随机乱码、隐藏字符防采集。
现在的论坛程序、CMS程序,基本上都加了这个功能,简单来说,就是在内容中插入一些文字和代码,混淆视听。在不影响用户阅读文章内容的情况,增加采集程序过滤的难度。
由于本人未能考证此种办法在搜索引擎优化方面是否有较大弊端,所以,在这里不讨论此种办法的优缺点,只说其实现方式和难度。
这种办法应该是最简单的、效果非常不错的一个防采集办法了,如果再遇上一两人CSS高手,写出数十上百个不同的字体颜色和效果,足以让时下众多采集器茫然无措。
本文以使用DEDE防采集的经验,举例如下,假设在页面以黑色字体输出这样一段文字:
“这是尘缘写的防采集的文章”。
这段文字里面,我们可以使用DEDE提取关键字的方式,给“尘缘”和“防采集”加上一个CSS样式。
如“尘缘”、"防采集"”。
这里的'black1'和'black2'建议大家使用不同的大小写组合,尽量繁多,越多越好。这样实现防采集的第一步。
那么第二步,是在内容插入不等数量的随机乱码,建议大家将CSS样式,尽量和内容中的CSS样式混淆,即,起差不多的CSS样式名。增加在采集时过滤的难度。
如“乱码”、"乱码"”。
这里的'black3'和'black4'可以将文字直接隐藏,可以将长度限制为零达到隐藏的目的。'black3'和'black4'可以通过程序批量生成,你可以将这些样式效果写在CSS里,当然也可以使用javascript读取这些随机样式的标签,设置其显示效果和样式。
总结一下,即,采集时,如果将CSS样式过滤,则会留下乱码,这些乱码可能会让采集者放弃采集,当然,如果真被采集了,留下一点版权倒也对得起你;再者,如果采集时把CSS样式和标签对里的内容过滤,那么,很有可能正文也被过滤了。
这个办法的主要难度在于,手动设置随机CSS样式时,有点麻烦。当然,如果你比较熟悉DEDE,那在DEDE中实现起来,只需要修改一点程序即可实随机现关键字的链接和CSS样式处理。
写此文的同时,我也整理了一个测试用的HTMl文档,里面是一段文章,使用随机CSS样式防采集的办法。稍时将整理上传。欢迎大家测试。
三,随机模板的防采集。
假设我们要防采集的字段叫“内容”。以下直接叫内容得了。简单来说,也就是在模板中使用不同的CSS样式来输出内容。
如,在这个文章中使用“