站长之间的采集与被采集,那是一件司空见惯的事情。如果你做了一个网站,每天坚持原创1-2篇文章,坚持了半年,你的网站终于得到了百度的认可,有了收录和SEO排名,随之而来的是网站流量也增加了。你是不是很高兴?
但是这时候,你发现一个网站,采集你的内容,而百度排名却比你好。不光偷走了你的内容也偷走了你的流量。你是不是很恼火?甚至你刚发布的新内容,马上就被采集走,你是不是很无奈?
谁遇到这种事情都会很气愤。那你会说,我采集的内容被别人采集去了是不是就不应该生气了?我想百分之七八十的站长都会觉得,就算是采集的内容被别人采集走了也是很不高兴的。一个人采集你没事,两个人采集你也没事,但是十个百个站长采集你呢?我们都是个人站长,为了节约成本,不是购买虚拟主机就是买一些低性能的廉价VPS或者云服务器来做网站,这样的硬件性能天天被百来个IP来来回回的爬,翻来覆去的采集。当正常用户访问的时候,动不动就是504错误代码,可想而知是什么样的体验。不光影响网站响应速度,也影响蜘蛛的爬取,从而影响网站的收录和排名。这样的事谁遇到不糟心?
虽然被采集是一个普遍现象,但这也证明了你的文章有价值。不要过于气愤,继续写下去,专注于提供有质量的内容。虽然现在SEO搜索引擎增强了识别原创的能力,但仍然会出现被采集的内容在别人的网站却比你网站排名更高的情况。所以个人站长都不愿意自己网站文章被别人采集。那么我们应该如何有效地防止被别人采集呢?其实不管我们怎么防止别人采集,都是不能完全杜绝被采集的,只能说是增加网站的采集难度,增加别人的采集成本。依我建站多年的经验来看,想要避免网站内容被轻易采集,我们还是可以做一些事情的。
1、禁止右键:禁止右键能防止别人最简单的复制粘贴,对不懂网站建设的小白还是比较管用的。由于禁止右键功能通常是JS代码来完成的,所以别人禁止掉js代码加载或者用手机访问也能轻松复制。何况一般批量采集的机器都是通过网页源码来分析并抓取内容的,禁止右键就失去了它应有的意义了。
2、修改文章容器DIV的class名:这样可以减少其他网站自动采集你的文章的可能性。因为很多采集是通过识别DIV的class名来采集的。如果你能通过随机DIV的class名或者定期修改DIV的class名来调用相关CSS代码的话,也可以在一定程度上避免你的网站内容被采集。举个例子:XX小说网的章节内容在<div id="content">与</div>之间,别人就可以通过简单的规则匹配来采集小说章节内容了。如果这时候你定期修改<div id="content">为<p id="content">与</p>或者修改为<div id="caijisiquanjia">与</div>,就会让别人预先写好的采集规则失效,增加别人的采集技术成本。从而对网站内容形成了一定的保护。
3、文章内容采用js输出:判断是不是知名搜索引擎的爬虫,也就是站长们常说的蜘蛛,如果是就原文输出,如果不是蜘蛛就使用JS调用数据来输出,避免影响SEO优化。以前起点小说网的章节页就是这样来防止被采集的。不过这种防止采集的手段还是太低级了,因为别人直接抓取你的JS页面,即可采集到他想要的内容了。这个方法只能防止小菜鸟,对于稍微懂点技术的就无能为力了。
4、文章内容图片输出:这个方法比第三种方法的防采集能力要强那么一点点,也是很多小说网站采用该方法来保护收费章节不被采集的主要方法。比如你把网站的内容用PHP生成了图片,然后用图片的方式展示你的文章内容。这种方法和第三种方法一样,也需要针对搜索引擎做优化。但是别人可以模拟搜索引擎来采集。反正就是一句话:上有政策,下有对策。
5、不规则URL:不规则的URL可以有效防止批量采集。比如你的第一篇文章的URL是https://www.adminbk.com/article/1.html,但是你第二篇的文章URL是:https://www.adminbk.com/article/caijisiquanjia.html,这样别人就很难通过简单的文章ID来实现顺序采集。你甚至可以通过后台程序来完成URL的部分随机化、虚拟化URL参数,增加采集器对你网站URL的识别能力。
6、用户真实性判断:就是搜索引擎以外的用户访问,需要登录或者点击一下确定按钮才可继续访问等。就像百度网站,当我用PHP去抓取某个站的site内容的时候,打印出来的页面就是一个图片验证页面。你可以记录每一个IP的访问记录,如果该IP在短时间内爬取次数达到一定数值,则必须完成真人验证才能继续访问。
7、分析网站日志:对一些频繁爬取网站的IP进行监控,达到预定的阙值判断为非真实用户访问。比如:某IP的访问顺序是文章ID顺序或者是某列表的顺序,则基本可以判断该用户是非正常访问。则应该屏蔽或者短时间禁止访问。
8、登录访问:其实监控IP的操作行为也不是十分准确的,而且容易误判,一些高端的采集者会使用IP代理,IP会不停切换,也会让你无法达到预期的目的。当然我们还可以使用登录访问,这样会对搜索引擎不太友好,需要针对搜索引擎做优化。想象一下,曾经那么多收费小说不仅需要登录,而且付费之后才能阅读,别人同样可以通过给账号预存阅读费用来模拟登录进行采集。这里我们有个小技巧,比如我们的网站没有开放注册登录功能,但是我们实际却在访问者第一次访问网站的时候,传递一个cookie值,当我们的服务器无法读取到这个值的时候,判断为非真人访问。因为一般访问者都是需要使用浏览器来渲染的,而不支持cookie的浏览器是很少很少的。只有采集者才会直接读取源码。当然这个方法也不是绝对就能防止文章内容不会被采集。
9、使用防盗链技术:防盗链技术是一种可以有效地防止盗链和复制的技术手段。我们可以通过Nginx服务器配置等方式来实现防盗链。
10、使用JavaScript加密:利用JavaScript对页面内容进行加密也是一种常见的防采集方法。通过对页面内容进行加密,可以有效地防止恶意复制和盗用。
11、版权维护:自媒体或者网站建设者应时刻牢记对自己的创作成果要有足够的版权保护意识,避免轻易授权或使用他人的内容。同时,我们可以在文章中加入版权声明和水印,以有效防止恶意复制和盗用。一旦发现自己的创作成果被恶意盗取或复制,我们应积极维权,寻求法律保护和维权途径,以维护自己的合法权益。但是发现别人的盗用或者维权都是需要时间和人力成本的,对于个人站长来说,是很难全面做到的。
关于防止采集的手段,可能是我知道的就这么多了,也有可能是更多的防采集手段我还没有想到。有个站长建议在自己网站的放点不合规、敏感的内容来让别人采集,其实这是一种杀敌一千自损八百的做法,并不可取,还有可能给自己惹来麻烦。其实都不那么重要了,因为所有防采集手段都只能起到一定的作用,并不能全面杜绝被采集。在真正的高手面前,不要说采集你的文章内容,就是你整个服务器在他眼里都像自家的电脑一样。
还没有评论,来说两句吧...