검색로봇 접근제어를 위한 robot.txt 작성

2004. 3. 16. 14:45

로봇이 http://wiz.pe.kr/과 같은 웹 싸이트를 방문하면, 먼저 http://wiz.pe.kr/robots.txt 파일을 호출한다.
robot.txt 파일이 발견되면 파일을 읽어 그 내용을 분석한다.
로봇에 접근 권한 및 접근 가능한 경로에 대한 정보로 자신이 수집해도 되는 콘텐트만을 수집 하게 된다.

한 사이트에는 하나의 "robots.txt" 를 루트에 가질 수 있다.
로봇은 하위 디렉토리에서 이 파일을 검색하지 않는 것을 원칙으로 한다.
이 때문에 robots.txt 파일은 꼭 웹사이트의 루트에 생성해야 한다.

uri는 대소문자 구별하고, "robots.txt" 파일이름은 모두 소문자로 작성해야 하며. 파일명에 공백은 허용되지 않는다.

robots.txt 파일에 아래와 같이 되어있다면 해당 url에 대하여 모든 로봇에 대해 모든 경로에 접근을 차단한다는 내용이다.

User-agent: * # 모든 로봇(robot)들에 적용
Disallow: / # 모든 페이지들의 색인(indexing) 금지

Uuser-agent : 접근을 허용하지 않을 로봇을 설정 한다.
Disallow : 허용하지 않을 항목에 대해 설정 한다.

"Disallow"를 빈 값으로 설정 할 경우, 모든 하위 경로에 대한 접근이 가능하다.
robots.txt 화일에는 최소한 한개의 "disallow" 필드(field)가 존재해야 한다.

Disallow: /help # /help.html과 /help/index.html 둘 다 허용 안함
Disallow: /help/ # /help/index.html는 허용 안하나, /help.html은 허용 됨.

페이지 차단하기
특정 파일 확장자를 차단 하는 방법은 robot.txt 파일에 아래와 같은 내용을 추가 하면된다.

Disallow: /*.xml$ # 루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부한다.
Disallow: /test.html? # 루트에 text.html 과 ?가 포함된 파일의 색인을 거부한다.

참고.
페이지의 메타태그에 아래와 같은 설정을 할 경우 로봇이 문서를 색인(index)하거나 연결을 분석하지 않는다.

내용에서 사용되는 용어들은 all, index, nofollow, noindex이다.
그 이름과 내용 애트리뷰트의 값은 대소문자 구별 없이 사용된다

'정리중 > 개발참고' 카테고리의 다른 글

[개발팁] 응용 프로그램을 위한 최상의 사용자 환경을 만드는 방법 (0)	2006.09.30
[개발참고] RSS 2.0 specification (0)	2006.03.20
[개발팁] 개발 환경의 버전 선택 법칙 (0)	2005.06.18
[개발참고][About GIS] GIS(Geographic Information System)의 정의 (0)	2005.05.04
[개발참고][About GIS] DXF 파일구조 (2)	2004.05.05
[개발참고][About GIS] 국립지리원데이터 형태 (0)	2004.05.04
[개발참고][About GIS] PC에서 GIS 구현시 좌표계 (0)	2004.05.04
[개발참고] 목적별로 구분한 XML 관련 표준과 기술 (0)	2004.04.27