본문 바로가기

IT/Search

크롤링과 색인(Crawling and Indexing)

검색엔진은 일반적으로 사용자가 검색결과에서 콘텐츠를 사용할 수 있도록 하기 위해 크롤링색인 생성이 라는 두 가지 주요 단계를 거칩니다. 크롤링은 검색엔진 크롤러가 공개 웹페이지에 액세스하는 순간을 말합니다. 여기에는 일반적으로 마치 사람이 하는 것처럼 웹페이지를 살펴보고 해당 페이지의 링크를 따라가는 것이 포함됩니다. 색인 생성에는 검색결과에 사용('게재')할 수 있도록 페이지에 대한 정보를 수집하는 것이 포함됩니다.

크롤링과 색인 생성의 차이는 중요합니다. 일반적으로 이 차이가 혼동되기 쉽지만 이로 인해 웹페이지가 검색결과에 표시되거나 표시되지 않을 수 있습니다. 페이지가 크롤링되지만 색인이 생성되지 않을 수 있으며 드물긴 하지만 크롤링되지 않았어도 색인이 생성될 수 있습니다. 또한 페이지 색인 생성을 제대로 방지하려면 URL 크롤링 또는 크롤링 시도를 허용해야 합니다.

본 문서에 설명된 메소드를 사용하면 크롤링과 색인 생성을 모두 제어할 수 있으므로 콘텐츠가 크롤러에 의해 액세스되는 방식뿐 아니라 검색결과에서 다른 사용자에게 표시되는 방식도 결정할 수 있습니다.

어떤 경우에는 크롤러가 서버 영역을 액세스할 수 없도록 할 수도 있습니다. 이는 해당 페이지를 액세스할 때 제한된 서버 리소스를 사용하거나 URL과 링크 구조에 문제가 있어 이를 모두 따라가면 무한 개수의 URL을 만드는 경우입니다.

어떤 경우에는 웹 콘텐츠가 검색결과에 어떻게 나타날지 제어하고 싶을 때가 있습니다. 예를 들어 페이지 색인이 전혀 생성되지 않도록 하거나 스니펫(검색결과의 제목 아래 표시되는 페이지 요약) 없이 표시되도록 할 수도 있습니다. 또는 검색엔진 사용자가 페이지의 캐시된 버전을 보지 못하도록 할 수도 있습니다.


참고: 페이지는 크롤링 된 적이 없어도 색인이 생성될 수 있습니다. 크롤링과 색인 생성 프로세스는 서로 독립적입니다. 페이지에 대한 정보가 충분하고 사용자와 관련된 것으로 생각되는 경우 검색엔진 알고리즘은 해당 콘텐츠에 직접 액세스한 적이 없어도 검색결과에 이를 포함시킬 수 있습니다. 부가적으로 말씀드리면, 로봇 메타 태그를 사용하면 간단하게 색인에 포함되지 않도록 할 수 있습니다.


출처: https://developers.google.com/webmasters/control-crawl-index/docs/getting_started?hl=ko

'IT > Search' 카테고리의 다른 글

N-gram 알고리즘 기초 두번째  (0) 2014.10.21
N-gram 알고리즘 기초  (0) 2014.10.21
한국어.........  (0) 2014.07.29
구글 검색엔진에 관해  (0) 2014.07.25
웹 크롤러란?  (0) 2014.07.25