위즈군의 라이프로그
Reboot... Search /

검색로봇 접근제어를 위한 robot.txt 작성

2004.03.16 14:45
로봇이 http://wiz.pe.kr/과 같은 웹 싸이트를 방문하면, 먼저 http://wiz.pe.kr/robots.txt 파일을 호출한다.
robot.txt 파일이 발견되면 파일을 읽어 그 내용을 분석한다.
로봇에 접근 권한 및 접근 가능한 경로에 대한 정보로 자신이 수집해도 되는 콘텐트만을 수집 하게 된다.

한 사이트에는 하나의 "robots.txt" 를 루트에 가질 수 있다.
로봇은 하위 디렉토리에서 이 파일을 검색하지 않는 것을 원칙으로 한다.
이 때문에 robots.txt 파일은 꼭 웹사이트의 루트에 생성해야 한다.

uri는 대소문자 구별하고, "robots.txt" 파일이름은 모두 소문자로 작성해야 하며. 파일명에 공백은 허용되지 않는다.

robots.txt 파일에 아래와 같이 되어있다면 해당 url에 대하여 모든 로봇에 대해 모든 경로에 접근을 차단한다는 내용이다.
User-agent: * # 모든 로봇(robot)들에 적용
Disallow: / # 모든 페이지들의 색인(indexing) 금지

Uuser-agent : 접근을 허용하지 않을 로봇을 설정 한다.
Disallow : 허용하지 않을 항목에 대해 설정 한다.

"Disallow"를 빈 값으로 설정 할 경우, 모든 하위 경로에 대한 접근이 가능하다.
robots.txt 화일에는 최소한 한개의 "disallow" 필드(field)가 존재해야 한다.

Disallow: /help          # /help.html과 /help/index.html 둘 다 허용 안함
Disallow: /help/    # /help/index.html는 허용 안하나, /help.html은 허용 됨.

페이지 차단하기
특정 파일 확장자를 차단 하는 방법은 robot.txt 파일에 아래와 같은 내용을 추가 하면된다.

Disallow: /*.xml$      # 루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부한다.
Disallow: /test.html?  # 루트에 text.html 과 ?가 포함된 파일의 색인을 거부한다.

참고.
페이지의 메타태그에 아래와 같은 설정을 할 경우 로봇이 문서를 색인(index)하거나 연결을 분석하지 않는다.
내용에서 사용되는 용어들은 all, index, nofollow, noindex이다.
그 이름과 내용 애트리뷰트의 값은 대소문자 구별 없이 사용된다


신고
Luxury Q. 2008.07.21 10:27 신고 E / R
처음 방문에세 이런 댓글을 달아 죄송한데..

좋은 정보 감사드리고요~

퍼 갈께요~^^^^ ←이거 생도둑인데??
위즈 2008.07.21 22:26 신고 E
출처만 꼭 남겨주세요.
GOOD 2008.11.26 17:44 신고 E / R
좋은 정보 감사드립니다....

알고 싶었던 정보였는데 아주 아주 유용하네요~~

그리고 이 정보 퍼갈께요
위즈 2008.11.26 17:59 신고 E
출처만 확실히 표시해주신다면..
서한석 2009.03.16 09:49 신고 E / R
좋은 정보 감사합니다.
인덱싱 거부해 놓았습니다. ^^/
위즈 2009.03.17 09:04 신고 E
즐거운 하루되세요.^^
나그네 2009.09.10 20:18 신고 E / R
좋은 정보 감사합니다.^^
위즈 2009.09.14 09:51 신고 E
즐거운 하루되세요.
kaingwoo 2010.08.18 09:32 신고 E / R
좋은정보 감사합니다. 유용하게 잘 사용하였습니다. 좋은 정보인것 같아서 제 블로그에 담아가겠습니다. 출처 표기와 상업적이용에는 사용하지 않겠습니다.
위즈 2010.08.23 22:05 신고 E
네~! 알겠습니다.^^ 즐거운 하루되세요.
robo 2012.06.15 09:35 신고 E / R
감사합니다 혹시 질문사항있을때 질문해두되나여
맑은빛 2012.06.30 05:00 신고 E / R
유용한 팁 감사합니다. 그런데 글 제목이 좀 이상하네요. 오타인가요?
nii25846 2013.04.07 01:34 신고 E / R
이걸 적는곳은 어디에 적어야하면 어떤경로로 들어가야 하나요 ㅠㅠ
위즈 2013.04.28 18:44 신고 E
환경에 맞는 셋팅으로 robot.txt 파일을 만들어서 web 루트에 복사해서 넣어주시면 됩니다.
ㅇㅅㅇ 2016.04.07 19:05 신고 E / R
적용이 되었는지 확인하려면 어떻게 하나요?
구글 robot.txt 테스터로 url 써봤더니 그냥 옆에 초록색으로 허용함이라고 나오던데
적용이 된건가요?
ㅇㅅㅇ 2016.04.07 19:05 신고 E / R
적용이 되었는지 확인하려면 어떻게 하나요?
구글 robot.txt 테스터로 url 써봤더니 그냥 옆에 초록색으로 허용함이라고 나오던데
적용이 된건가요?
Name : Password : Blog : ( )

위즈군의 라이프로그

Category

전체 (569)
개발 (0)
정보 (0)
일상 (0)
정리중 (569)
Total:2,100,951
Today:26 / Yesterday:295
Daum 코드
Powered by Tistory / Skin by 위즈 / Copyright Click Here 라이센스정책 rss 2.0