Vector DB와 RAG에 대해 궁금한 점 정리

Vector DB 정리해보기

데이터 (문장, 이미지, 코드)의 “의미"를 벡터로 표현하고, 이 벡터들 간의 유사도를 빠르게 검색하기 위한 데이터베이스

ex) “apple"과 “fruit company"는 다르기 때문에 기존 DB에서는 연관지어 검색이 어렵지만, embedding을 통해 벡터화하면 두 벡터의 거리가 가까워서 같은 의미로 분류될 수도 있음

Vector DB의 핵심 구성 요소

Vector Embeddings

Index (벡터 인덱스)

Metadata

Similarity Metric

동작 방식

Index 생성

Search 시

결과 반환

의미론적 유사도 측정

코사인 유사도(Cosine Similarity)

내적(Dot Product)

기존 RDB와 비교

항목벡터 DB전통적 DB
데이터 형태고차원 벡터 (예: 1536 floats)텍스트, 숫자, 키-값
검색 기준의미적 유사도 (코사인 거리 등)정확한 키 매칭
주요 알고리즘HNSW, IVF, PQB-Tree, Hash index
응용 분야RAG, 추천 시스템, 이미지 검색, 코드 검색CRUD, 트랜잭션, 정형 데이터
대표 예시Qdrant, Milvus, PineconeMySQL, MongoDB, PostgreSQL

Embedding Model

Embedding Model간 호환성

Embedding Vector의 복원

LLM과 Vector

차세대 RAG의 방향

두 세계의 통합

Generative Retrieval (생성형 검색)

Semantic Caching (의미 기반 캐시)

End-to-End Embedding-Language Fusion

OpenAI에서 memory API를 공개 예정

추가로 공부할 수학 지식

Back To Top