본문 바로가기

IT/Search

웹 크롤러란?

정보 검색을 쉽고 빠르게 하고 싶다면!

안녕하세요. 여러분들의 IT비타민 SK브로드밴드 Blog 지기입니다:D 오늘은 검색엔진의 가장 기본이 되는 정보수집을 하고 있는 "웹 크롤러"란 프로그램에 대해 알아보도록 하겠습니다. 웹 스파이더, 웹로봇 등 각종 별명을 갖고 있는 웹 크롤러! 무슨 일을 하는 프로그램인지 한번 알아보도록 합시다 :^)


웹 크롤러란?

웹 크롤러(Web Crawler)방대한 웹 페이지를 두루두루 방문하여, 각종 정보를 자동적으로 수집하는 일을 하는 프로그램으로서 검색 엔진의 근간이 됩니다. 크롤러(crawler)란 기어가는 사람 혹은 포복동물 이라는 의미로, 조직적, 자동적인 방법으로 각종 웹 페이지들을 돌아다니며 웹 문서의 URL, 링크정보, 문서내용 등 다량의 정보들을 수집해 오는 기능으로 인해 이런 이름이 붙었답니다. 웹 크롤러에 대한 다른 용어로는 앤트(Ants), 자동인덱서(automatic indexers), 봇(bots), 웜(worms), 웹 스파이더 (web spider), 웹 로봇(web robot) 등이 있답니다.

웹 크롤러 이미지

웹 크롤러가 하는 작업을 웹 크롤링(web crawling) 혹은 스파이더링(spidering)이라고 부르기도 하는데요, 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 항상 웹 크롤링을 합니다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용됩니다.

또 한 크롤러는 링크체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는데도 사용됩니다. 웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태로 대개 시드(seed)라고 불리는 URL리스트에서부터 시작하며 페이지의 모든 하이퍼링크를 인식, URL 리스트를 갱신하여 확인합니다.



웹 크롤러, 양날의 검?

웹 크롤러는 인터넷 공간 여기저기를 돌아다니며 정보를 수집한다는 특징 때문에 사람들에게 피해를 주는 존재라고 생각할 수 있습니다. 실제로 웹 크롤러는 설계(프로그래밍)를 잘못하면 네트워크에 트래픽을 증가시키고 서버에 과부하를 줄 수 있으며, 블로그나 카페 등에 게시한 개인정보까지 수집해 가기 때문입니다. 게시한 글을 지우더라도 웹 크롤러가 수집하여 검색엔진 데이터베이스에 저장한 정보는 지워지지 않으며, 나중에 다른 사용자가 검색할 수도 있습니다. 구글이나 네이버 등 검색 시 볼 수 있는 저장된 페이지가 바로 그것이죠.

그렇다면 이 웹크롤러는 트래픽 증가의 주범이자 사생활을 침해하는 나쁜 프로그램일까요?  모든 것이 장단점이 있듯 웹 크롤러는 검색엔진 외에도 링크 체크, HTML코드 검증, 자동 이메일 수집 등 다양한 형태로 사용됩니다. 이를 통해 사람이 손으로 하기 귀찮은 수많은 작업을 자동으로 수행해주고 있답니다. 

웹크롤러 양날의 검? 이미지

이 미 웹 크롤러가 수집해간 정보를 DB에서 지우려면 해당 서비스의 고객센터에 연락해 삭제 요청하는 방법밖에 없습니다. 이런 이유로 가급적 중요한 정보가 담긴 게시물은 비공개로 설정 혹은 회원만 볼 수 있도록 설정하는 것이 좋습니다. 웹 크롤러는 해당 웹 페이지에 원천적으로 접근할 수 없어 열람이 불가능하기 때문입니다. 기업이나 개인 홈페이지를 운영하는 사람이라면<robots.txt>라는 텍스트 파일을 사용해 웹 크롤러를 배제하는 방법이 있습니다. 해당 텍스트 파일 안에 여러 가지 코드를 넣어 특정 웹 크롤러가 접근하지 못하도록 차단할 수 있답니다.

오 늘은 각종 정보를 자동으로 수집해오는 프로그램으로 정보검색시스템의 정보수집을 담당하는 웹 크롤러에 대해 알아보았습니다.  블로그나 개인 홈페이지를 운영하는 분들, 간혹 자신이 작성한 페이지가 검색포탈에서 검색되는 경우를 종종 확인하셨을 텐데요, 이를 가능하게 해주는 것이 바로 이 크롤러가 웹페에지를 수집해서라는 것을 이제는 잘 아시겠죠? 이상 웹 크롤러에 대한 정보를 전달 드린 SK브로드밴드 Blog지기였습니다 :^ D

출처: http://blog.skbroadband.com/652


'IT > Search' 카테고리의 다른 글

N-gram 알고리즘 기초 두번째  (0) 2014.10.21
N-gram 알고리즘 기초  (0) 2014.10.21
한국어.........  (0) 2014.07.29
구글 검색엔진에 관해  (0) 2014.07.25
크롤링과 색인(Crawling and Indexing)  (0) 2014.07.25