robots.txt 파일
웹을 색인하는 검색엔진 로봇을 차단하거나,
일부 페이지는 검색될 수 있도록 허용시키는 설정을 할 수 있다.
예를 들어, 웹 사이트의 실제 오픈 전 도메인을 연결해 놓았다면
웹에서 검색엔진이 사이트를 자동으로 크롤링할 수 있다.
크롤링 나무wiki : https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81
이러한 일을 방지하고자 할 때 robots.txt파일을 이용한며, 사용법은 쉽다.
- 파일위치:
robots.txt 파일은 일반 텍스트 파일(.txt)이며, 도메인의 root 위치에 있어야 하고, 반드시 'robots.txt' 파일명으로 저장되어야 한다
root위치란 ,
http://www.example.com/robots.txt는 유효한 위치이지만,
http://www.example.com/mysite/robots.txt는 유효하지 않은 위치이다.
일반적으로 프로젝트의 최상의 web폴더나, webapp폴더에 위치한다.
- 작성방법:
전체 웹사이트를 검색엔진이 색인하도록 허용하고자 할 때에는 다음과 같이 robots.txt파일을 작성 후 추가한다. (혹은, robots.txt를 사이트로부터 제거 하는 방법이 있다.)
User-agent: *
Disallow:
검색엔진에서 어떤 검색봇도 접근하지 못하게 하려면 다음과 같이 작성한다.
User-agent: *
Disallow: /
특정 디렉토리(예: board) 하위 페이지들에 대한 접근을 모두 막으려면 다음과 같이 작성한다.
User-agent: *
Disallow: /board/
'Web개발' 카테고리의 다른 글
리다이렉트(redirect)와 인터셉트(intercept) (0) | 2020.04.15 |
---|---|
세션(Session)과 쿠키(Cookie) (0) | 2020.04.15 |
TypeScript 란 ? (0) | 2020.02.01 |
시맨틱 마크업 (0) | 2020.01.28 |
servlet 버전 별 web.xml 스키마 예제 (0) | 2020.01.19 |