본문 바로가기

IT/Search

N-gram 알고리즘 기초 두번째 N-GRAM 지금까지 위에 다룬 기술들은 사실 like 검색의 결과를 모두 커버하지 못한다.예를 들어, 상품코드명을 찾는다고 하자. 이런경우는 영어사전에 있는 단어가 아니다.MDR V시리즈를 찾는다고 하면 DB 에서는 이런 쿼리를 사용할것이다.물론, Full scan을 하겠지만 우리가 원하는 결과를 찾을 수는 있을것이다. select * from product where 제품명 like '%MDR-V%'; 그런데 우리가 배웠던 기술들로는 인덱스를 쓰는 방법이 안떠오른다. 해결법배가 고픈데 "짜파게티를 먹을까? 라면을 먹을까?" 고민이 되는경우가 있다.그때 내친구가 해준말이 생각난다. 친구 : "왜 고민을 해? 둘 다 먹으면 되지" 그럼 여기선 어떻게 하면 해결될까? 왜 고민을해 다 만들면 되지...NGR.. 더보기
N-gram 알고리즘 기초 - 1. N-gram greentec.egloos.com/2795831 오다카 토모히로의 을 읽었다. 빅데이터 처리에 대한 간단한 기술들을 C언어 실습 예제로 알기 쉽게 풀어 설명한 책이다.예 전부터 관심이 있어서 계속 공부해 온 분야이긴 한데, 이 책은 정말 내용을 쉽게 잘 써놓았다. 도표도 적재적소에 사용되었고 소스도 적절하다. 이 책에 나와 있는 프로그램 중 일부를 AS 3.0으로 구현해 보는 것이 도움이 될 것 같아서 오늘부터 한번 시작해보려고 한다. 오늘의 주제 : N-gramN-gram이란 간단하게 말해서 입력한 문자열을 N개의 기준 단위로 절단하는 방법이다. 예를 들어 "Here is a dog" 라는 문장을 문자 절단 단위의 3-gram으로 만든다면, "Her", "ere", "re_", .. 더보기
한국어......... 1.1 음절의 뜻 음절은 한 번에 소리낼 수 있는 소리마디로서, 언어의 형식인 '음성'을 이용하여 문장을 분석한 단위이다. 1.2. 음절의 특성 소리를 중심으로 하여 분석한 것이다. 자음, 모음이라는 음운으로 나누어진다. 음절의 수는 발음이 되는 모음의 개수이다. 한 문장에서 글자 수는 음절의 수와 똑같다.2.1 어절의 뜻 어절은 띄어 쓴 마디나 끊어 읽는 마디로서, 언어 사용상 의미 파악에 편리하며, 문장 성분의 단위와 일치한다. 2.2 어절의 특성 끊어읽기와 띄어쓰기의 마디와 일치한다. 하나 이상의 낱말이 모여서 이루어진다. 3.1 낱말의 뜻 '낱말'은 문장을 이루는 기본 단위로서, '어절'을 의미를 고려하여 더 작게 나눈 것이다. 낱말 분석의 기준이 되는 것은 '의미적 자립성'과 '분리성'이다. 3.. 더보기
구글 검색엔진에 관해 4.5 검색(Searching) 검색의 목표는 효율적으로 질 높은 검색 결과를 제공하는 것이다. 많은 대형 상업적 검색 엔진들은 효율성 측면에서는 큰 발전을 이뤄온 것처럼 보인다. 그러므로, 비록 우리 솔루션이 약간의 노력만 더 하면 상업적인 스케일로 확장가능하다고 믿고 있음에도 불구하고, 본 연구에서는 검색의 질적인 측면에 더 포커스를 맞춰왔다. 구글 질의어 평가 과정은 그림 4와 같다. 응답 시간에 제한을 두기 위해, 일단 일정 숫자(현재는 4만 개)의 관련 문서가 발견되면 서쳐는 자동으로 그림 4의 8단계로 건너 뛴다. 이것은 덜 최적화된(sub-optimal) 결과가 제공될 수도 있음을 의미한다. 우리는 현재 이 문제를 해결할 다른 방법을 찾고 있는 중이다. 과거에는, 히트를 페이지랭크(PageR.. 더보기
크롤링과 색인(Crawling and Indexing) 검색엔진은 일반적으로 사용자가 검색결과에서 콘텐츠를 사용할 수 있도록 하기 위해 크롤링 및 색인 생성이 라는 두 가지 주요 단계를 거칩니다. 크롤링은 검색엔진 크롤러가 공개 웹페이지에 액세스하는 순간을 말합니다. 여기에는 일반적으로 마치 사람이 하는 것처럼 웹페이지를 살펴보고 해당 페이지의 링크를 따라가는 것이 포함됩니다. 색인 생성에는 검색결과에 사용('게재')할 수 있도록 페이지에 대한 정보를 수집하는 것이 포함됩니다. 크롤링과 색인 생성의 차이는 중요합니다. 일반적으로 이 차이가 혼동되기 쉽지만 이로 인해 웹페이지가 검색결과에 표시되거나 표시되지 않을 수 있습니다. 페이지가 크롤링되지만 색인이 생성되지 않을 수 있으며 드물긴 하지만 크롤링되지 않았어도 색인이 생성될 수 있습니다. 또한 페이지 색인 .. 더보기
웹 크롤러란? 안녕하세요. 여러분들의 IT비타민 SK브로드밴드 Blog 지기입니다:D 오늘은 검색엔진의 가장 기본이 되는 정보수집을 하고 있는 "웹 크롤러"란 프로그램에 대해 알아보도록 하겠습니다. 웹 스파이더, 웹로봇 등 각종 별명을 갖고 있는 웹 크롤러! 무슨 일을 하는 프로그램인지 한번 알아보도록 합시다 :^) 웹 크롤러(Web Crawler)는 방대한 웹 페이지를 두루두루 방문하여, 각종 정보를 자동적으로 수집하는 일을 하는 프로그램으로서 검색 엔진의 근간이 됩니다. 크롤러(crawler)란 기어가는 사람 혹은 포복동물 이라는 의미로, 조직적, 자동적인 방법으로 각종 웹 페이지들을 돌아다니며 웹 문서의 URL, 링크정보, 문서내용 등 다량의 정보들을 수집해 오는 기능으로 인해 이런 이름이 붙었답니다. 웹 크롤러.. 더보기