robots文件怎么制作 mcp016是什么东西?
mcp016是什么东西?
是mcp016的博客,由于该网站的robots.txt文件存在限制指令。
怎么让别人在搜索引擎上搜索不到自己的信息?
不做SEO优化,设置robots.txt文件拒绝所有搜索引擎访问,这样你就不会被别人搜到。如果你是只想让某个人看不到,在网站后台屏蔽它的ip,把他拉入黑名单就可以了,至于它的ip可以在网站访问日志看到。
测试的网站不想被百度抓取,也不想搜索关键词排名,应该怎设置?
有些站长比较喜欢将站点上线测试(不喜欢在本地测试),但是又不想被百度等搜索引擎抓取,那么应该怎么暂时屏蔽呢?今天boke112就跟大家简单介绍几种方法。
方法一:WordPress站点的直接后台设置WordPress站点可以直接登录站点后台 gtgt 设置 gtgt 阅读 gtgt 勾选“建议搜索引擎不索引本站点”并点击【保存更改】即可。
方法二:通过robots.txt禁止直接在网站根目录中新建一个robots.txt文件,然后在文件中添加以下代码:
User-Agent: *
Disallow: /
方法三:通过noindex标记来禁止直接在站点的头文件文件中添加以下代码:
ltmeta namerobots contentnoindex gt
方法四:通过PHP代码禁止(WordPress站点为例)将以下代码添加到主题目录的当中:
ob_start(Deny_Spider_Advanced)
function Deny_Spider_Advanced() {
$UA $_SERVER[HTTP_USER_AGENT]
$Spider_UA /(spider|bot|)/i //定义需要禁止的蜘蛛UA,一般是spider和bot
//如果检测到UA不为空而且发现是蜘蛛则返回404
if($UA ampamp preg_match_all($Spider_UA,$UA)) {
header(HTTP/1.1 403 )
header(status: 403 )
}
}
可以自行替换或添加以上的spider|bot,多个用|隔开即可。
方法五:Nginx禁止在server{}中添加以下代码:
#如果抓取的UA中含有spider或bot时返回403
if ($http_user_agent ~* spider|bot) {
return 403 #如果是删除已收录的,则可以返回404
break
}
可以自行替换或添加以上的spider|bot,多个用|隔开即可。
方法六:Apache禁止在.htaccess中添加以下代码:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|spider|bot) [NC]
RewriteRule ^(.*)$ - [F]
可以自行替换或添加以上的spider|bot,多个用|隔开即可。
总结
理论上以上6种方法都有效,建议找适合自己站点的一种办法来使用即可。一般采用方法二比较普遍,如果能够结合方法五或六来使用估计效果更佳。
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。