robots.txt는 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기
위한 규약이며 권고안이라 꼭 지켜야할 의무는 없다
또한 크롤러는 주로 검색엔진들의 인덱싱 목적으로 사용되고 있으며
웹사이트 내용이 좀더 많이 검색 & 노출이 목적이라면 굳이 막을 이유는 없다.
robots.txt 내용 작성방법
모든 로봇에게 문서 접근을 허용
User-agent: *
Allow: /
모든 로봇을 차단
User-agent: *
Disallow: /
모든 로봇에 특정 디렉토리 접근을 차단
User-agent: *
Disallow: /admin/
Disallow: /tmp/
모든 로봇에 특정 파일 접근을 차단
User-agent: *
Disallow: /admin/admin_file.html
Googlebot (구글) 로봇에 모든 파일 접근을 차단
User-agent: Googlebot
Disallow: /
Yeti(네이버)와 Googlebot(구글) 로봇에 특정 디렉토리 접근 차단
User-agent: Yeti
User-agent: Googlebot
Disallow: /private/
이처럼 다양하게 조합이 가능합니다.
예시
Yeti(네이버), Googlebot(구글), Daumoa(다음) 이외의 모든 로봇은 접근을 차단,
관리자 경로인 "admin" 디렉토리는 접근을 차단.
User-Agent : *
Disallow : /
User-Agent : Googlebot
User-Agent : Yeti
User-Agent : Daumoa
Allow : /
Disallow: /admin/