티스토리 뷰
이번에 패스트캠퍼스에서 주최한 일할맛 세미나를 듣기 위해 판교를 다녀왔다.
3월 세미나는 총 두 개의 주제로 진행되었고, 각각 GraphRAG와 MultiModal RAG에 대한 이야기였다.
세미나 시작 전에 간단한 네트워킹 시간이 있었는데, 오프라인 참석자 대상으로는 피자와 음료도 제공되어 분위기가 훨씬 편안했다. 그리고 세미나가 모두 끝난 후에도 자유롭게 이야기를 나눌 수 있어서 현직자분들과의 대화가 특히 인상 깊었다.

세미나 1: GraphRAG - 그래프를 통한 정보 검색과 표현의 가능성
3월 27일, 정이태 연사님이 진행한 첫 번째 세션에서는 그래프를 구축하는 것부터 GraphRAG에 대한 의사결정 트리까지 다뤘다.
내가 과거에 진행했던 데이터맵 구축이나 검색 프로젝트와 연결해볼 수 있는 내용도 있어서 더 몰입해서 들을 수 있었다. 특히 GraphRAG을 위한 의사결정 트리를 설계하는 방식은 앞으로 내가 작업할 때도 참고하면 좋을 것 같다는 생각이 들었다.
인상 깊었던 포인트 정리
- 표 데이터를 그래프로 만들기 위해선 **온톨로지(스키마)**가 필요하다는 점. 이건 결국 도메인 지식이 필수라는 의미다.
- 그래프를 설계할 땐 단순히 연결만 생각하는 게 아니라, 도메인의 제약 조건과 속성 설계, 그리고 이질적인 DB 통합까지 고민해야 한다.
- 기존의 RDB에서 조인을 복잡하게 처리하던 구조보다, 특정 상황에선 GDB(Graph Database)가 더 나을 수도 있겠다는 생각이 들었다.
- 테이블을 요약해 벡터로 변환해 시맨틱 서치를 가능하게 하는 방식도 소개되었는데, 이건 도메인 지식을 덜 요구하지만, 그만큼 추상화가 강하다는 느낌도 있었다.
- 테이블 기반 정보 추출과 관련해서는 핀터레스트 사례처럼 Text2SQL 기술을 차용하는 것도 인상 깊었고, 테이블 스키마와 쿼리 요약 정보를 함께 프롬프트에 넣는 방식도 실용적이었다.
그리고 무엇보다, 그래프의 본질적인 강점은 암묵지를 명시적으로 표현할 수 있는 점이라는 말이 크게 와닿았다. 그래프를 잘 만들려면 결국 도메인 전문가의 개입이 중요하다는 사실을 다시 한 번 느꼈다.
검색과 Cypher
Cypher 쿼리는 아직 익숙하진 않지만, 그래프에서 다중 홉 기반의 질의를 수행할 수 있다는 점이 RAG 시스템에서의 강점으로 보였다. 특히 graphRAG.com처럼 Neo4j 기반에서 돌아가는 사례들을 보면, 실제 활용 가능성이 꽤 커 보였다.
LangChain을 쓸 때도 LLM이 그래프 스키마를 잘 인식하지 못하는 경우가 있어서, include, exclude 파라미터를 직접 지정해줘야 한다는 점은 실무 팁처럼 느껴졌다.
평가를 위한 데이터셋
- 성능 평가를 위해선 좋은 데이터셋을 직접 만드는 과정도 중요하다고 하셨다. 특히 사분면을 나눠서 각 벡터가 잘하는 것과 못하는 것을 구분해서 설계하는 방식이 실용적으로 느껴졌다.
- LLM 판단 기반 데이터셋이나, Graph CoT 관련 프롬프트도 소개되었는데, 발표 때 청중의 페르소나를 미리 생각하고 준비하는 발표 전략도 참고할 만했다.
- 마지막으로 그래프 기반 추천 시스템에 대한 이야기도 나왔는데, 내가 평소 관심 있던 소비 데이터와 일상 데이터의 결합 가능성에 대해 상상해보게 되었다.
세미나 2: MultiModal RAG - 텍스트와 이미지를 함께 다루는 시대
두 번째 세션에서는 멀티모달 RAG, 즉 텍스트와 이미지 등 다양한 데이터를 결합해서 검색하는 방식에 대한 이야기였다.
여기서 가장 크게 느낀 건, 데이터셋의 품질이 정말 모든 걸 좌우한다는 점. 쿼리와 텍스트, 이미지를 짝지어서 학습시키는 게 핵심인데, 데이터 품질이 좋지 않으면 성능도 그만큼 떨어질 수밖에 없다.
Contrastive Learning & Hard Negative Sampling
- 멀티모달 학습에서 Contrastive Learning 기법이 중요한데, 포지티브/네거티브 샘플을 잘 나누는 것뿐 아니라, 하드 네거티브 샘플링 기법을 통해 성능을 극적으로 높일 수 있다는 점도 인상 깊었다.
- 실제 프로젝트에선 OpenCLIP 모델을 사용했다고 하는데, 이는 기존 CLIP을 오픈소스로 재구현한 것이라고.
도메인 지식과 그래프
- 의학 분야에선 RadGraph처럼 전문 온톨로지와 그래프 이론이 중요하게 쓰이고 있고,
- 멀티모달 RAG에서도 임베딩보다는 리트리버 튜닝에 집중하는 전략이 더 실용적으로 보였다.
- M3DocRAG 논문에서는 긴 문서와 이미지 정보를 함께 처리할 수 있도록 임베딩 방식을 바꿨다고 하는데, 이런 방식이 RAG의 성능을 높이는 핵심이라는 점이 기억에 남는다.
멀티홉 리즈닝 & 검색 성능
- 멀티모달 RAG에서 멀티홉 리즈닝 데이터셋을 구축한 논문도 소개되었는데, 실제로 그래프 구조와 RAG의 연결점이 분명히 있다는 걸 느꼈다.
- 요즘 핫한 벤치마크 데이터셋으로는 uniIR이 있다고 하니, 나중에 찾아보면 좋을 듯.
- 멀티모달 검색에선 모달리티 간의 갭이 문제라고 했는데, 이건 말 그대로 이미지와 텍스트의 표현 차이에서 발생하는 것 같았다.
- 서브그래프로 줄여서 K-NN 탐색하는 방식은 최근 Graph 연구 분야에서도 언급된 부분이라 흥미롭게 들었다.
마무리
두 세션 모두 단순한 기술 소개를 넘어서, 실제 프로젝트에 어떻게 접목할 수 있을지를 많이 생각하게 해주는 세미나였다.
특히 그래프를 설계하고 검색에 적용하는 과정은 내가 예전에 했던 작업들과도 많이 닿아 있어서, 돌아오는 길에 여러 생각이 머릿속을 맴돌았다.
그리고 발표가 끝나고 나서의 네트워킹 시간도 정말 즐거웠다. 각자 다른 고민을 가진 현업 분들과 이야기 나누면서 나도 내가 하고 싶은 것들에 대해 정리할 수 있는 시간이었다.
'스터디&세미나' 카테고리의 다른 글
구글 클라우드 자격증 취득 프로그램 (Google Cloud Get Certified) - Data Engineer 신청 (1) (0) | 2025.03.12 |
---|
- Total
- Today
- Yesterday
- rdflib
- geospy
- PostgreSQL
- rdffox
- LLM
- vervel
- hadoop
- python
- knowledgegraph
- pdfmathtranslate
- Encoding
- Claude
- python'
- polars
- SPARQL
- Postgis
- deepseek
- MongoDB
- 지식그래프임베딩
- vscode
- writerow
- 지식그래프
- ChatGPT
- cursorai
- 키워드추출
- TextRank
- PEFT
- psycopg
- Vue3
- pandas
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |