본문 바로가기

n-gram

N-gram 알고리즘 기초 두번째 N-GRAM 지금까지 위에 다룬 기술들은 사실 like 검색의 결과를 모두 커버하지 못한다.예를 들어, 상품코드명을 찾는다고 하자. 이런경우는 영어사전에 있는 단어가 아니다.MDR V시리즈를 찾는다고 하면 DB 에서는 이런 쿼리를 사용할것이다.물론, Full scan을 하겠지만 우리가 원하는 결과를 찾을 수는 있을것이다. select * from product where 제품명 like '%MDR-V%'; 그런데 우리가 배웠던 기술들로는 인덱스를 쓰는 방법이 안떠오른다. 해결법배가 고픈데 "짜파게티를 먹을까? 라면을 먹을까?" 고민이 되는경우가 있다.그때 내친구가 해준말이 생각난다. 친구 : "왜 고민을 해? 둘 다 먹으면 되지" 그럼 여기선 어떻게 하면 해결될까? 왜 고민을해 다 만들면 되지...NGR.. 더보기
N-gram 알고리즘 기초 - 1. N-gram greentec.egloos.com/2795831 오다카 토모히로의 을 읽었다. 빅데이터 처리에 대한 간단한 기술들을 C언어 실습 예제로 알기 쉽게 풀어 설명한 책이다.예 전부터 관심이 있어서 계속 공부해 온 분야이긴 한데, 이 책은 정말 내용을 쉽게 잘 써놓았다. 도표도 적재적소에 사용되었고 소스도 적절하다. 이 책에 나와 있는 프로그램 중 일부를 AS 3.0으로 구현해 보는 것이 도움이 될 것 같아서 오늘부터 한번 시작해보려고 한다. 오늘의 주제 : N-gramN-gram이란 간단하게 말해서 입력한 문자열을 N개의 기준 단위로 절단하는 방법이다. 예를 들어 "Here is a dog" 라는 문장을 문자 절단 단위의 3-gram으로 만든다면, "Her", "ere", "re_", .. 더보기