티스토리 뷰

https://arxiv.org/abs/2507.16507

 

Agentic RAG with Knowledge Graphs for Complex Multi-Hop Reasoning in Real-World Applications

Conventional Retrieval-Augmented Generation (RAG) systems enhance Large Language Models (LLMs) but often fall short on complex queries, delivering limited, extractive answers and struggling with multiple targeted retrievals or navigating intricate entity r

arxiv.org

 


1. 배경 및 문제 의식: 기존 RAG의 한계

  • Classical RAG의 단점: 단순히 유사도가 높은 상위 k개의 텍스트 조각(top-k snippets)만 가져오기 때문에, 전체 목록 추출이나 복잡한 관계(저자→논문→프로젝트)를 추적하는 데 한계가 있음.
  • 해결책: 동적 추론을 수행하는 에이전트(Agentic) 기능과 구조화된 정보를 가진 지식 그래프(KG)를 통합한 'INRAExplorer'를 제안함.

Note: 기존 RAG가 단답형이나 요약에 강했다면, 이 시스템은 연구원처럼 조사를 수행하겠다는 의지로 보임. 데이터 간의 연결 고리를 놓치지 않으려는 시도가 인상적임.

2. 지식 베이스 구축 (Knowledge Base Construction)

  • 데이터 소스: INRAE의 2019년~2024년 오픈 액세스 출판물 및 HAL, OpenAire 등의 메타데이터를 결합함.
  • 하이브리드 저장 구조:
    • Vector Database (Qdrant): 텍스트 청크를 저장하며, Jina v3(밀집 벡터)와 BM25(희소 벡터)를 모두 사용하는 하이브리드 검색 지원.
    • Knowledge Graph (Neo4j): 417,030개의 노드와 100만 개 이상의 관계로 구성됨.
  • 특이점: INRAE Thesaurus(유의어 사전)를 통합하여 'Domain'과 'Concept' 노드를 구축, 전문 용어에 대한 이해도를 높임.

Note: 이 논문은 그래프의 구조(Topology) 자체를 쿼리(Cypher)로 직접 탐색하는 방식에 집중하고 있음. 노드를 벡터화해서 유사도를 찾는 방식도 있겠지만, 여기선 '관계의 정확성'을 위해 직접적인 그래프 쿼리를 도구로 선택한 것으로 보임.

3. 에이전트 및 멀티 툴 오케스트레이션

핵심 모델로 deepseek-r1-0528을 사용하며, 에이전트는 다음의 4가지 도구를 동적으로 활용함.

도구명 주요 기능 비고
SearchGraph Neo4j에 Cypher 쿼리를 보내 관계를 추적하고 전체 리스트를 확보함. 핵심 도구
SearchPublications 벡터 DB에서 하이브리드 검색을 통해 초기 진입점 논문을 찾음. 진입점 확보용
SearchConceptsKeywords 시소러스를 통해 모호한 쿼리를 명확하게 하고 관련 개념을 탐색함. 용어 정리 및 확장
IdentifyExperts 특정 주제의 전문가를 식별하기 위한 복합 도구(논문 수, 인용 수 등 계산) 도메인 특화 로직

 

Note: 결국 "지식 그래프를 어떻게 심층적으로 활용했는가?"에 대한 답은 에이전트가 직접 Cypher 쿼리를 생성하여 그래프를 넘나들게(Multi-hop) 설계했다는 것임. 사용자가 직접 설계해야 한다는 점은 여전하지만, 에이전트가 상황에 맞춰 툴을 골라 쓰는 '유연성'을 부여한 점이 포인트임.

4. 주요 수치 및 통계 데이터

논문에서 구축한 지식 그래프의 노드 분포는 다음과 같음.

  • 총 노드 수: 417,030개
  • 주요 구성:Keyword: 96,588 (23.2%)Concept: 13,591 (3.3%)
  • Project: 3,999 (1.0%)
  • Publication: 38,791 (9.3%)
  • Author: 233,728 (56.0%)

결론 및 시사점

INRAExplorer는 단순 요약을 넘어 인간 연구자처럼 조사하는 AI를 지향함. 특히 복잡한 질문에 대해 에이전트가 스스로 "먼저 논문을 찾고(Step 1), 그 논문을 지원한 프로젝트를 찾고(Step 2), 그 프로젝트의 다른 주제를 탐색(Step 3)"하는 식의 추론 과정을 성공적으로 보여줌.

 

Note: 에이전트라고 해도 아직은 결국 인간이 얼마나 정교하게 도구(Tool/MCP)를 설계했느냐에 크게 의존하는 것 아닌가? 논문에서도 IdentifyExperts 같은 도구는 도메인 지식을 캡슐화한 것이라고 명시함.

반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2026/04   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30
글 보관함