본문 바로가기

Prompt/프롬프트 공부

The Power of Prompting 번역

원문보기

 

오늘날, 우리는 어떻게 제너럴리스트인 GPT-4 모델이 의학적 도전 문제 벤치마크(성능을 평가하는 기준 데이터셋)에서 전문가처럼 행동할 수 있는지를 보여주는 'Power of Prompting' 전략에 관한 연구를 발표했습니다.

 

해당 연구에서 GPT-4의 능력은 의학용 어플리케이션을 위해 파인튜닝된 리더 모델을 능가함을 확인할 수 있었습니다(동일한 벤치마크에서 상당한 차이를 보임). 이러한 결과는 프롬프팅 전략이 어떻게 범용 파운데이션 모델(레이블이 지정되지 않은 광범위한 데이터 집합에 대해 훈련된 대규모 인공 지능 모델)에서 특정 분야 전문성을 유도하는 데 효과적인지를 보여주는 최근 연구 중 하나입니다.

 

GPT-4의 초기 평가에서는 일반적인 문제 해결 능력에 대한 희망적인 발견이 있었습니다. 추상화, 일반화, 그리고 다양한 분야의 개념을 융합하는 능력을 포함하여, GPT-4는 분야를 넘나들며 다재다능한 추론 능력을 갖추고 있음을 확인했습니다. 이러한 일반적인 추론 능력을 넘어서, 우리는 GPT-4를 프롬프팅을 통해 특정 분야 전문가로 이끌 수 있다는 것을 발견했습니다.

 

이전에는 특정 도메인에서 최고의 성능을 얻기 위해 특별히 선택된 데이터로 파인튜닝이 필요했습니다.

이는 더 광범위하게 학습된 범용 파운데이션 모델들이 파인튜닝의 필요성을 줄일 수 있을지에 대한 의문을 제기합니다.

 

3월에 공유한 연구에서는 어떻게 간단한 프롬프팅 전략이 특별한 파인튜닝 없이도 GPT-4의 의학 지식에 대한 강점을 드러냈는지를 보여줬습니다. 결과적으로, '(OOTB: 디폴트값으로 쓰는 것) 초기설정' 모델이 의학적 도전 과제를 뛰어넘을 수 있는 능력을 보여줬습니다.

 

최근 연구에서는 여러 프롬프트 전략을 결합한 'Medprompt' 방법으로 GPT-4를 조작하여 최고의 성능을 달성하는 방법을 보여줬습니다.

 

Medprompt를 사용한 GPT-4에서 얻은 결과 :

- MedQA 데이터셋에서 90% 이상 달성

- MultiMedQA(실제 미국 의사면허시험에 출제되는 의학 지식·연구관련 문항과 유사한 6개문항에 인터넷에서 검색을 통해 찾을 수 있는 의학관련 질문 3173개를 결합한 데이터)의 모든 9개 평가 데이터셋에서 최고의 결과를 달성

- MedPaLM 2에서 보고된 MedQA의 오류율을 27% 감소

 

많은 AI 실무자들은 특정 도메인에서 우수한 성능을 발휘하도록 범용 파운데이션 모델을 확장하기 위해 도메인 중심 파인튜닝이 필요하다고 생각합니다. 파인튜닝은 성능 향상에 도움이 되지만, 많은 자원과 비용이 들 수 있습니다. 이러한 이유로 파인튜닝은 종종 전문가나 전문적으로 라벨링된 데이터와 모델 매개변수의 업데이트를 필요로 합니다. 이는 자원과 비용이 많이 들어가기 때문에 영세·중소 규모의 기업에게는 어려운 도전이 될 수 있습니다.

 

'Medprompt' 연구는 프롬프팅을 통해 범용 모델을 전문가로 변환하고, 이러한 모델의 이점을 새로운 도메인과 어플리케이션에 확장하는 가치를 보여줍니다. 우리가 보여준 프롬프팅 방법들은 전문 업데이트 없이도 다양한 분야의 전문 역량 시험에서 가치가 있는 것으로 나타났습니다. 이는 전기공학, 머신러닝, 철학, 회계학, 법학, 심리학 등 다양한 분야를 포함합니다.

 

GPT의 요약
- GPT-4는 'Power of Prompting' 전략으로 의학 분야에서 전문가 수준의 성능을 보임.

- 프롬프팅만으로도 특정 분야의 전문성을 갖추며, 파인튜닝 없이 다양한 분야에서 뛰어난 결과를 달성하는
'Medprompt' 방법을 제시함.

- 도메인 중심 파인튜닝 대신에 비용과 자원을 절감할 수 있는 가치를 보여줌.