DB/Elasticsearch 3

Nori 한글 형태소 분석기, KNN 서치

Elasticsearch와 함께 사용하는 Nori 형태소 분석기와 KNN 서치Elasticsearch는 강력한 검색엔진이지만, 기본적으로 영어에 최적화되어 있음.한국어 같은 복잡한 언어를 정확하게 처리하려면 형태소 분석이 필요하며, 이를 위해 Nori 분석기를 사용함.또한, KNN 서치는 텍스트 유사도 기반 검색이나 추천 시스템을 구축할 때 사용하는 벡터 기반의 고속 유사 검색 기능임.1. Nori 형태소 분석기란 무엇인가Nori 분석기는 Elasticsearch에서 제공하는 한국어 전용 형태소 분석기임.형태소는 단어를 구성하는 가장 작은 의미 단위이며, Nori는 이를 분리하고 불용어 제거, 사용자 사전 기반 분석 등 다양한 기능을 제공함.주요 기능명사, 동사, 조사 등 분리하여 분석함.불용어 제거로 ..

DB/Elasticsearch 2025.04.23

N-gram

N-gram 이란 무엇인가N-gram은 연속된 N개의 요소로 구성된 시퀀스(문자, 단어, 토큰)를 기반으로 텍스트 데이터를 나누는 방법임.주로 텍스트 분석, 검색엔진 최적화, 자연어 처리(NLP) 분야에서 많이 활용됨.문장을 일정한 단위로 분할하여 빈도 분석, 패턴 인식, 자동 완성, 오타 교정 등에 활용할 수 있음.1. N-gram의 개념N-gram은 텍스트를 N개의 단위로 분리하는 기법임.N이 1이면 Unigram한 글자(또는 한 단어) 단위로 나눔.N이 2이면 Bigram두 글자(또는 두 단어)씩 묶음.N이 3이면 Trigram세 글자(또는 세 단어)씩 묶음.예시: "데이터"라는 단어를 대상으로 할 경우NN-gram 결과1 (Unigram)데, 이, 터2 (Bigram)데이, 이터3 (Trigram..

DB/Elasticsearch 2025.04.13

[Elasticsearch] 엘라스틱서치

1️⃣ 엘라스틱서치(Elasticsearch)란?Elasticsearch는 분산 검색 및 분석 엔진으로, 대량의 데이터를 실시간으로 저장, 검색, 분석할 수 있는 NoSQL 기반의 검색 엔진임.기본적으로 Apache Lucene을 기반으로 하며, JSON 기반 REST API를 제공하여 사용이 간편함. 💡 주요 특징:✅ 빠른 검색 속도 → 역색인(Inverted Index) 기술을 사용하여 빠르게 검색 가능✅ 확장성(Scalability) → 분산 시스템을 지원하여 대량의 데이터 처리 가능✅ RESTful API 지원 → JSON 기반 요청을 사용하여 손쉽게 데이터 조회✅ 실시간 분석 가능 → 로그, 메트릭, 이벤트 데이터 등을 실시간으로 분석 2️⃣ 엘라스틱서치와 관계형 DB 비교비교 항목엘라스틱서치..

DB/Elasticsearch 2025.02.27