user-agent: * # 모든 로봇(robot)들에 적용
disallow: / # 모든 페이지들의 색인(indexing) 금지
disallow: /help # /help.html과 /help/index.html 둘 다 허용 안함
disallow: /help/ # /help/index.html는 허용 안하나, /help.html은 허용 됨.
Disallow: /*.xml$ # 루트 하위에 있는 xml 확장자를 가진 모든 파일의 색인을 거부한다.
Disallow: /test.html? # 루트에 text.html 과 ?가 포함된 파일의 색인을 거부한다.
내용에서 사용되는 용어들은 all, index, nofollow, noindex이다.
그 이름과 내용 애트리뷰트의 값은 대소문자 구별 없이 사용된다
댓글 2
댓글작성칸으로구글 검색에 노출되셨군요. 이는 구글의 로봇이 다녀갔기 때문입니다. 상세 안내드립니다.
1. 홈페이지의 자료가 구글에서 검색되는 이유는, 구글의 크롤링 로봇이 귀하의 동문회 홈페이지 자료를 수집해 갔기 때문이며, 차단하지 않는다면 수시로 수집해 가게 됩니다. 구글의 로봇이 다녀가는 이유는, 여러가지 이유가 있겠으나, 다른 곳의 링크를 통해 한 번 방문하게 된 이후로 발생했을 가능성과, 다른 웹사이트에 동문회 홈페이지를 등록하면, 그 링크를 통해 방문하게 되었을 것입니다.
2. 구글 검색에서 삭제하기 위해서는, 긴급할 경우 구글측에 요쳥하여 검색 결과를 삭제하면 됩니다(귀하의 홈페이지 자료를 삭제할 필요는 없습니다.) 다만 이 과정은 조금 복잡할 수 있습니다.
2-1. 일반적으로 구글 로봇을 차단할려면, 홈페이지의 루트 디렉토리(최상위 폴더)에 robots.txt를 업로드하시면 됩니다. 모든 로봇을 차단하실려면 아래와 같이 하면 됩니다.
User-agent: *
Disallow: /
구글 로봇만 차단시에는 아래와 같이 하면 됩니다.
User-agent: Googlebot Disallow: /
2-2. 그러나 자신이 운영하는 홈페이지가 아니라, 특정 사이트 하위 형식으로 된 홈페이지일 경우 robots.txt를 사용할 수 없는 경우가 있습니다. 이러한 경우에는, 웹페지의 내용에 meta 태그를 삽입해서 차단할 수 있습니다.
전체 로봇 차단시, <meta name="robots" content="noindex">
Google 로봇만 차단시, <meta name="googlebot" content="noindex">
* 참조 : http://www.google.com/support/webmasters/bin/answer.py?answer=93710&ctx=sibling
2-3. 기존에 구글 검색에 노출된 자료의 삭제는, 구글 웹마스터 도구에 가입한 후, 절차에 따라 시행하시면 됩니다. 일반적으로 며칠 이내에 반영됩니다. 홈페이지의 최상위 폴더에 robots.txt를 삽입한 경우에는, 구글 로봇이 재방문해야 적용될 것이며, 구글에 노출된 자료는 시일이 좀 지난 후에 삭제처리될 것으로 보입니다.
* 참조 : https://www.google.com/webmasters/tools/docs/ko/about.html
3. 구글 로봇의 방문과 관련하여, 홈페이지 제작 업체는 아무런 상관이 없습니다. 귀하께서 미리 외부에 노출되지 않도록 요청했어야 할 것입니다.
4. robots.txt 파일의 업로드나, 메타 태그의 삽입은 개인이 직접 가능하며, 수정이 힘들 경우 홈페이지 제작업체에서 얼마든지 작업 가능합니다. 아주 간단하거든요.
5. 무상 여부는 알 수가 없군요. robots.txt 파일의 업로드는 간단하지만, 웹페이지에 메타 태그를 삽입하는 것은 수정 비용이 추가될 수 있습니다.