논문 4

[논문리뷰] GPT-1 Improving Language Understanding by Generative Pre-Training

이 글은 GPT-1의 논문인 Improving Language Understanding by Generative Pre-Training (Radford et al., 2018)을 리뷰합니다. 2018년에 등장한 Generative Pre-trained Transformer(GPT-1)은 자연어 처리 분야에서의 초기 모델 중 하나로, 이미지 기반의 pre-training을 자연어 처리에 적용한 첫 논문입니다. 이 모델은 12개의 트랜스포머 레이어를 쌓아서 사용되었으며, 동일한 모델을 다양한 자연어 처리 태스크에 활용하기 위해 추가 작업이 이루어졌습니다. 모델은 512 토큰 길이와 1.17억 개의 파라미터를 사용하며 당시에는 큰 규모의 모델로 여겨졌습니다. GPT-1은 대규모 라벨이 없는(unlabeled)..

논문 2024.02.01

[논문리뷰] P-tuning-GPT Understands, Too(Version2)

P-tuning이란? P-tuning은 언어 모델의 full pre-training을 지양하고 수동적인 프롬프트 엔지니어링을 극복하고자 고안한 방법입니다. 수동 프롬프트 엔지니어링은 단어 하나의 변화가 결과에 큰 영향을 미치기 때문에 성능의 일관성을 확보하기 어렵습니다. AutoPrompt와 같은 선행 연구는 템플릿을 자동으로 생성하는 방식을 도입했지만, 여전히 단어 단위의 템플릿이기 때문에 단어 하나가 바뀌면 결과가 크게 달라지는 한계가 있습니다. P-tuning은 이러한 한계를 극복하기 위해 연속성있는 임베딩 벡터를 생성하여 학습합니다. 프롬프트에는 "영국의 수도는 [MASK] 입니다."라는 문장이 있습니다. 여기서 "The capital of ~is"는 프롬프트이고, "Britain"은 컨텍스트(X..

논문 2024.01.24

[논문리뷰] Prefix-Tuning: Optimizing Continuous Prompts for Generation

개요 (Overview) "Prefix-Tuning"은 2021년에 스탠포드에서 발표된 논문으로, 사전 훈련된 언어 모델의 파라미터를 고정시키고 prefix를 도입하여 다양한 작업에 대한 효율적인 조정을 가능케 하는 방법을 소개합니다. Prefix-Tuning은 가벼운 fine-tuning 접근으로써, 적은 학습 데이터로도 성능 향상을 이끌어낼 수 있습니다. 요약 (Abstract) - Prefix-Tuning은 사전 훈련된 언어 모델의 파라미터를 고정시키고, 새로운 벡터인 prefix를 도입하여 다양한 작업에 대한 튜닝을 수행합니다. - "프로프팅"에서 영감을 받아, prefix만 잘 튜닝하면 모델의 답변이 향상될 수 있다는 아이디어를 제시합니다. - Prefix-Tuning은 전체 파라미터를 학습시키..

논문 2024.01.22

[논문리뷰] LoRA (Low-Rank Adaptation of Large Language Models)

http://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes le arxiv.org 소개 (Introduction) "LoRA"는 마이크로소프트에서 출시된 언어 모델로, ..

논문 2024.01.22