防止Web站点被收集的理论分析和十页1/2响应的方法

同一点:
两者都需要直接捕获到Web源以便有效地工作。
在单位时间内多次捕捉网站内容。
从宏观上讲,两个IP都将改变。
d.更不耐烦地解决一些加密和验证网页,例如通过js文件加密的网页内容,例如,您需要输入验证代码来浏览内容,例如,您需要登录到访问内容。

差异uff1a
搜索引擎的爬虫忽略整个网页源代码的脚本和样式和HTML标记代码,再复杂的语法句法分析的文本的其他一系列处理分割。收集器通常需要抓取数据通过在生产特点的HTML标签,采集规则时填写目标内容的开始标记,结束标志,因此定位所需要的内容;或者通过正则表达式,具体到特定的页面,筛选出需要的内容。HTML标签(页面结构分析)的参与,无论是使用的开始和结束标志或正则表达式。

提出了一些反捕方法。
1。限制IP地址单位时间访问的次数
分析:没有一个普通人能在一秒钟内访问同一个网站5次,除非有一个程序访问,剩下的就是这个兴趣,然后搜索引擎爬虫和讨厌的收集器离开了。

缺点:一个适合所有人,这也阻止了搜索引擎收集网站。

网站:不依赖搜索引擎的网站

收集器将做什么:减少每单位时间访问次数并降低捕获效率

2,屏蔽IP
分析:通过后台计数器,记录访问者的IP和访问频率,人工分析访问记录,屏蔽可疑IP。

弊端:似乎没有什么弊端,就是站长忙。

适用网站:所有网站,站长都知道哪些机器人是谷歌或百度的。

收藏家会做什么:打游击战!使用IP代理收集一次,但会降低收集器的效率和网络的速度(使用代理)。

三.使用js加密网页内容
注意:我没有碰这个方法,只是从别的地方。
分析:没有分析,搜索引擎爬虫和收集器杀死

网站:一个非常讨厌搜索引擎和收集器的网站。

收藏家会这样做:你这样的牛,准备牺牲,他不会来找你。

4。网页隐藏了网站的版权或一些随机的垃圾邮件,这些都是在CSS文件中写的。
分析:虽然它不能防止收藏,但它会使收集内容充满你的网站的版权描述或垃圾词,因为一般收藏家不会同时收集你的CSS文件,而这些字符会毫无风格地显示。

适用网站:所有网站

收藏家会做什么:对于受版权保护的文本,运行良好,替换它。对于垃圾的随机文本,没有办法,勤奋。

5,用户登录可以访问网站的内容。
分析:搜索引擎爬虫不设计为每种类型的网站登录程序。听说收集器可以设计一个模拟用户登录并提交表单的行为对一个网站。

网站:一个非常讨厌搜索引擎的网站,想阻止大部分的收集器。

收集器将做什么:为一个准用户的行为创建一个模块来登录表单

6。使用脚本语言进行分页(隐藏分页)
分析:还是那句话,搜索引擎爬虫不会分析各网站的隐藏页面,影响搜索引擎收录它。然而,当集热器是写采集规则,谁想分析目标网页代码和理解脚本知识会知道真正的分页链接地址。

适用站点:不太依赖搜索引擎的网站和不了解脚本知识的人。

收藏家是干什么的应该说收藏家会做什么。他会分析你的网页代码,无论如何,和分析你的分页脚本,这不会花很多额外的时间。