티스토리 뷰
구글 스터디잼과 구글 엔지니어 자격증 스터디를 신청하여 들어야하는 강의가 많다.
현재 영어 단기 어학연수를 와있는데 겸사겸사 가볍게 강의를 들으려고 한다.
이번에 들을 강의는 구글 클라우드 스킬 세미나 (Google Cloud Skills Boost)에서 제공하는 Vector Search and Embedding이다.
7-8분짜리의 5개 유튜브 강의와 실습(Lab), 읽을 자료를 제공한다. 단, 강의영상은 Google Cloud Skills Boost를 통해서만 볼 수 있다.
1. Why use vector search

1. 벡터 검색(Vector Search)란 무엇인가?
벡터 검색은 검색 엔진의 고급 검색 기술로 데이터를 의미가 있는/의미론적(semantic) 벡터로 변환하여 효율적인 검색을 가능하게 한다.
기존의 키워드 검색은 단순히 키워드 매칭에 의존하여 맥락이나 사용자의 의도를 이해하지 못하고, 멀티모달(이미지, 소리, 영상 등) 검색이나 도메인에 특화된 검색을 지원하지 않는다.
2. 벡터 검색의 장점
- 의미론적 이해(semantic): 키워드와 정확히 일치하지 않아도 의미적으로 유사한 결과가 있다면 찾을 수 있어 자연어 검색에서 유용하다.
- 멀티모달 검색: 이미지, 오디오, 텍스트 등 다양한 유형의 데이터에 적용할 수 있다.
- 개인화와 추천: 자연어 기반의 검색 또는 사용자 의도에 맞는 쿼리 문맥을 이해하고 이에 맞는 결과를 제공할 수 있다.
벡터 검색의 대표적인 예시는 상품 추천이나 대화형(챗봇) 검색에서 관련 정보를 추천할 때 유용하다.
3. 벡터 검색의 기술적 배경
벡터 검색은 데이터를 벡터로 변환하는 임베딩(Embedding) 기술과 검색에 사용될 수 있도록 돕는 벡터 인덱싱(Vector Indexing) 기술을 사용한다. 또한, 거대 언어 모델(LLM), 생성 AI와 같은 최신 기술에서 중요한 역할을 하고 대규모 데이터를 처리하고, 의미있는 정보를 추출하는 데 사용된다.
4. 구글 클라우드
구글 클라우드는 벡터 검색을 지원하기 위한 다양한 서비스를 제공한다. 그리고 이 강의에서 벡터 검색을 실습할 수 있는 환경과 코드, UI를 제공한다.
2. Generate Embedding

자연어 처리 공부할 때 '텍스트를 숫자로 바꾼다'는 말이 자주 나온다. 이때, 숫자는 말그대로의 숫자가 아닌 벡터를 의미한다. 그리고 벡터로 변환할 수 있게 해주는 과정을 '임베딩(Embedding)'이라고 한다.
1. 임베딩의 목적
임베딩의 목적은 텍스트, 이미지, 오디오 등의 데이터를 의미가 있는 숫자 벡터로 변환하는 것이다. 변환 방법은 간단하게 빈도를 따라 숫자로 변환하는 방법과 머신러닝(ML) 모델이 학습가능한 형식으로 만드는 방법이 있다.
2. One-Hot Encoding
원-핫 인코딩은 자연어 처리에서 전통적인 방법으로 빈도 기반의 변환 과정이다. 각 단어를 고유한 벡터로 표현하지만 단어 사이의 의미적 관계는 반영되지 않는다. 예를 들어 '나는 강아지와 산책한다'라는 문장을 변환하기 위해 충분한 수의 차원(예:1000개)을 만들고 각 단어를 하나씩 인코딩할 수 있다. 따라서 차원이 매우 크고 값의 대부분이 0인 희소 벡터(Sparse Vector)가 되어 비효율적이다.
3. Word Embedding
원 핫 인코딩의 한계를 개선하기 위해 단어 임베딩을 사용할 수 있다. 단어 임베딩은 단어를 저차원의 밀집 벡터(Dense Vector)로 표현한 것이다. 유사한 의미를 가진 단어끼리 벡터 공간에서 가까운 거리를 갖게 된다. 예를 들어 'King + Women = Queen'과 같이 단어 사이의 유사성을 수학적으로 나타낼 수 있다.
이러한 임베딩은 사람이 직접 벡터를 정의하는 것이 아니라, 신경망(Neural Network)를 통해 학습된다. 대표적인 알고리즘은 Word2Vec(Google), GloVe(Stanford), FastText(Facebook)이 있다.
다양한 알고리즘을 통해 미리 학습된 모델, 즉 사전학습된 모델(pre-trained model)은 경우에 따라 직접 훈련할 필요없이 API 호출만으로 사용할 수 있다. 벡터를 사용하면 텍스트뿐만 아니라 이미지, 오디오와 같은 멀티모달 임베딩도 가능하다.
'스터디&세미나' 카테고리의 다른 글
| [Kafka] 카프카 핵심 가이드 - 1 (1) | 2025.07.01 |
|---|---|
| Vector Search and Embeddings (3) (1) | 2025.05.16 |
| Vector Search and Embedding (2) (0) | 2025.05.08 |
| 일할맛 세미나 3월 후기: GraphRAG부터 MultiModal RAG까지 (0) | 2025.03.31 |
| 구글 클라우드 자격증 취득 프로그램 (Google Cloud Get Certified) - Data Engineer 신청 (1) (0) | 2025.03.12 |
- Total
- Today
- Yesterday
- LLM
- cursorai
- Vue3
- Kafka
- 키워드추출
- TextRank
- Encoding
- hadoop
- vervel
- polars
- pdfmathtranslate
- vectorsearch
- MongoDB
- vertorsearch
- rdffox
- AWS
- deepseek
- rdflib
- Postgis
- PostgreSQL
- ChatGPT
- 지식그래프
- Claude
- python
- SPARQL
- vscode
- geospy
- PEFT
- pandas
- docker
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |