robots.txt 파일을 사용하여 전체 웹사이트를 허용/차단하기


전체 웹사아트를 검색엔진이 색인하도록 허용하고자 할 때에는 다음과 같이 robots.txt
일을 추가합니다.
User-agent: *
Disallow:

또 다른 해결 방법으로는 단순하게 robots.txt를 사이트로부터 제거 하는 것입니다.

검색엔진에서 사이트를 삭제하고 향후 어떤 검색봇도 접근하지 못하게 하려면 robots.txt 파일에 다음 내용을 추가합니다.


User-agent: *


Disallow: /


주의) 이 경우 검색봇이 차단되어 사이트가 더이상 검색엔진에 나타나지 않게 됨으로 검색엔진을 통 들어오게 되는 사용자들에게 불이익을 제공하게 됩니다.

각 포트에는 전용 robots.txt 파일이 있어야 합니다. 특히 http와 https 모두를 통해 사용자들에 콘텐츠를 제공하려면 이 두 가지 프로토콜에 대해 각각의 robots.txt 파일이 있어야 합니다.


예를 들어 검색봇을 통해 https 페이지를 제외한 모든 http 페이지에 대한 수집을 허용하려면 다음 robots.txt 파일들을 각의 프로토콜에 사용해야 합니다.

http 프로토콜의 경우
(http://yourserver.co.kr/robots.txt):
User-agent: *
DIsallow:

https 프로토콜의 경우
(https://yourserver.co.kr/robots.txt):

User-agent: *
Disallow: /

robots.txt 파일을 사용하여 페이지 차단하기

예를 들어, 검색봇이 특정 디렉토리(: board )의 모든 페이지를 검색하지 않도록 차단하려면 다음과 같이 robots.txt를 사용 하시면 됩니다.

User-agent: *

Disall

ow: /board/

Googlebot이 특정 형식(: .gif)의 파일을 모두 검색하지 않도록 차단하려면 다음과 같이 robots.txt를 사용 하시면 됩니다.

User-Agent: Googlebot

Disallow: /*.gif$

Googlebot이 ?가 포함된 URL 즉, 도메인 이름으로 시작되거나 임의의 문자열 또는 물음표로 구성된URL 검색을 차단하려면 다음과 같이 하시면 됩니다.


User-agent: Googlebot


Disallow: /*?

구글은 웹마스터 도구의 일원으로 robots.txt 분석 도구를 사용자들에게 제공하고 있습니다. robots.txt 분석도구는 여러분의 robots.txt 화일을 검색봇이 읽는 그대로 인식하여 그 결과를 여러분들께 제공하고 있습니다.

robots.txt의 올바른 사용으로 사이트 방문자에게 보다 쉬운 접근 방법을 제공하는 동시에 필요한 부분을 보호, 차단할 수 있기 바랍니다.