robots.txt 파일

 

 웹을 색인하는 검색엔진 로봇을 차단하거나,
일부 페이지는 검색될 수 있도록 허용시키는 설정을 할 수 있다. 

예를 들어, 웹 사이트의 실제 오픈 전 도메인을 연결해 놓았다면
웹에서 검색엔진이 사이트를 자동으로 크롤링할 수 있다.

 

크롤링 나무wiki : https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81

 

크롤링 - 나무위키

이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외) 기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권을 갖습니다. 나무위키는 백과사전이 아니며 검증되지 않았거나, 편향적이거나, 잘못된 서술이 있을 수 있습니다. 나무위키는 위키위키입니다. 여러분이 직접 문서를 고칠 수 있으며, 다른 사람의 의견을 원할 경우 직접 토론을 발제할 수 있습니다.

namu.wiki

 

이러한 일을 방지하고자 할 때 robots.txt파일을 이용한며, 사용법은 쉽다.

- 파일위치: 
robots.txt 파일은 일반 텍스트 파일(.txt)이며, 도메인의 root 위치에 있어야 하고, 반드시 'robots.txt' 파일명으로 저장되어야 한다

 

root위치란 ,
http://www.example.com/robots.txt는 유효한 위치이지만,
http://www.example.com/mysite/robots.txt는 유효하지 않은 위치이다.
일반적으로 프로젝트의 최상의 web폴더나, webapp폴더에 위치한다.

- 작성방법:
전체 웹사이트를 검색엔진이 색인하도록 허용하고자 할 때에는 다음과 같이 robots.txt일을 작성 후 추가한다. (혹은, robots.txt를 사이트로부터 제거 하는 방법이 있다.)
User-agent: *
Disallow:


검색엔진에서 어떤 검색봇도 접근하지 못하게 하려면 다음과 같이 작성한다.
User-agent: *
Disallow: /


특정 디렉토리(예: board) 하위 페이지들에 대한 접근을 모두 막으려면 다음과 같이 작성한다.
User-agent: *
Disallow: /board/

'Web개발' 카테고리의 다른 글

리다이렉트(redirect)와 인터셉트(intercept)  (0) 2020.04.15
세션(Session)과 쿠키(Cookie)  (0) 2020.04.15
TypeScript 란 ?  (0) 2020.02.01
시맨틱 마크업  (0) 2020.01.28
servlet 버전 별 web.xml 스키마 예제  (0) 2020.01.19

+ Recent posts