논문 5

[Knowledge Graph] Unifying Large Language Models and Knowledge Graphs: A Roadmap

https://ieeexplore.ieee.org/document/10387715/ Unifying Large Language Models and Knowledge Graphs: A RoadmapLarge language models (LLMs), such as ChatGPT and GPT4, are making new waves in the field of natural language processing and artificial intelligence, due to their emergent ability and generalizability. However, LLMs are black-box models, which often fall sieeexplore.ieee.org 최근 KG와 LLM을 연..

논문 11:31:35

[논문리뷰] GPT-1 Improving Language Understanding by Generative Pre-Training

이 글은 GPT-1의 논문인 Improving Language Understanding by Generative Pre-Training (Radford et al., 2018)을 리뷰합니다. 2018년에 등장한 Generative Pre-trained Transformer(GPT-1)은 자연어 처리 분야에서의 초기 모델 중 하나로, 이미지 기반의 pre-training을 자연어 처리에 적용한 첫 논문입니다. 이 모델은 12개의 트랜스포머 레이어를 쌓아서 사용되었으며, 동일한 모델을 다양한 자연어 처리 태스크에 활용하기 위해 추가 작업이 이루어졌습니다. 모델은 512 토큰 길이와 1.17억 개의 파라미터를 사용하며 당시에는 큰 규모의 모델로 여겨졌습니다. GPT-1은 대규모 라벨이 없는(unlabeled)..

논문 2024.02.01

[논문리뷰] P-tuning-GPT Understands, Too(Version2)

P-tuning이란? P-tuning은 언어 모델의 full pre-training을 지양하고 수동적인 프롬프트 엔지니어링을 극복하고자 고안한 방법입니다. 수동 프롬프트 엔지니어링은 단어 하나의 변화가 결과에 큰 영향을 미치기 때문에 성능의 일관성을 확보하기 어렵습니다. AutoPrompt와 같은 선행 연구는 템플릿을 자동으로 생성하는 방식을 도입했지만, 여전히 단어 단위의 템플릿이기 때문에 단어 하나가 바뀌면 결과가 크게 달라지는 한계가 있습니다. P-tuning은 이러한 한계를 극복하기 위해 연속성있는 임베딩 벡터를 생성하여 학습합니다. 프롬프트에는 "영국의 수도는 [MASK] 입니다."라는 문장이 있습니다. 여기서 "The capital of ~is"는 프롬프트이고, "Britain"은 컨텍스트(X..

논문 2024.01.24

[논문리뷰] Prefix-Tuning: Optimizing Continuous Prompts for Generation

개요 (Overview) "Prefix-Tuning"은 2021년에 스탠포드에서 발표된 논문으로, 사전 훈련된 언어 모델의 파라미터를 고정시키고 prefix를 도입하여 다양한 작업에 대한 효율적인 조정을 가능케 하는 방법을 소개합니다. Prefix-Tuning은 가벼운 fine-tuning 접근으로써, 적은 학습 데이터로도 성능 향상을 이끌어낼 수 있습니다. 요약 (Abstract) - Prefix-Tuning은 사전 훈련된 언어 모델의 파라미터를 고정시키고, 새로운 벡터인 prefix를 도입하여 다양한 작업에 대한 튜닝을 수행합니다. - "프로프팅"에서 영감을 받아, prefix만 잘 튜닝하면 모델의 답변이 향상될 수 있다는 아이디어를 제시합니다. - Prefix-Tuning은 전체 파라미터를 학습시키..

논문 2024.01.22

[논문리뷰] LoRA (Low-Rank Adaptation of Large Language Models)

http://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes le arxiv.org 소개 (Introduction) "LoRA"는 마이크로소프트에서 출시된 언어 모델로, ..

논문 2024.01.22