robots.txt 是搜索引擎访问网站的时候要查看的第一个文件. 当一个搜索蜘蛛访问一个站点时, 它会首先检查该站点根目录下是否存在 robots.txt, 如果存在, 搜索机器人就会按照该文件中的内容来确定访问的范围; 如果该文件不存在, 所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面.
误区一: 我的网站上的所有文件都需要蜘蛛抓取, 那我就没必要添加 robots.txt 文件了. 反正如果该文件不存在, 所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面. 每当用户试图访问某个不存在的 URL 时, 服务器都会在日志中记录 404 错误 (无法找到文件). 每当搜索蜘蛛来寻找并不存在的 robots.txt 文件时, 服务器也将在日志中记录一条 404 错误, 所以你应该做网站中添加一个 robots.txt.
误区二: 在 robots.txt 文件中设置所有的文件都可以被搜索蜘蛛抓取, 这样可以增加网站的收录率. 网站中的程序脚本, 样式表等文件即使被蜘蛛收录, 也不会增加网站的收录率, 还只会浪费服务器资源. 因此必须在 robots.txt 文件里设置不要让搜索蜘蛛索引这些文件. 具体哪些文件需要排除, 在 robots.txt 使用技巧一文中有详细介绍.
误区三: 搜索蜘蛛抓取网页太浪费服务器资源, 在 robots.txt 文件设置所有的搜索蜘蛛都不能抓取全部的网页. 如果这样的话, 会导致整个网站不能被搜索引擎收录.
来源: http://www.bubuko.com/infodetail-2478425.html