본문 바로가기

AI 이야기

ChatGPT의 성과와 한계 | Wharton School MBA 통과, 의사 면허 시험 통과, 변호사 시험 통과, 코딩, 알고리즘, 수학 능력

2022년도에 ChatGPT가 의사 면허 시험, 변호사 시험 합격점을 받은 이야기는 유명합니다. 이번에는 MBA도 정복했습니다.

Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models

We evaluated the performance of a large language model called ChatGPT on the United States Medical Licensing Exam (USMLE), which consists of three exams: Step 1, Step 2CK, and Step 3. ChatGPT performed at or near the passing threshold for all three exams w

www.medrxiv.org

트위터에서 즐기는 Kenneth Goodman

“#OpenAI's ChatGPT is ready to become a lawyer, it passed a practice bar exam! Scoring 70% (35/50). Guessing randomly would happen < 0.00000001% of the time”

twitter.com

University of Pennsylvania’s Wharton School Christian Terwiesch 교수가 2023년 1월 17일에 진행한 연구에 따르면, ChatGPT는 MBA 최종 시험에 합격할 수 있다고 합니다.

MBA 시험에서 B-에서 B 정도의 점수를 받았다고 말합니다. 이제 분석가, 관리자, 컨설턴트 등 MBA 졸업생이 수행하는 직업의 일부 작업을 자동화할 수 있습니다.

Christian Terwiesch가 작성한 Would Chat GPT3 Get a Wharton MBA? 논문에서 ChatGPT의 능력을 직접 확인해보죠. 해당 문제는 A+에 해당하는 완벽한 답을 보여줍니다.

Would Chat GPT3 Get a Wharton MBA?: MBA quetion
Would Chat GPT3 Get a Wharton MBA?: ChatGPT answer

하지만 한계도 존재합니다. ChatGPT 6학년 수준의 간단한 계산을 못하는 예도 있습니다.

ChatGPT passes MBA exam given by a Wharton professor

The bot’s performance on the test has “important implications for business school education," wrote Christian Terwiesch, a professor at the University of Pennsylvania’s Wharton School.

www.nbcnews.com

한계와 발전 가능성

또한 알고리즘 문제 풀이를 잘 못합니다. 제가 진행한 간단한 실험(프로그래머스 문제 설명을 ChatGPT에 넣고, 답변을 프로그래머스(solution.py)에 넣어서 결과를 확인합니다)에 의하면, 비교적 간단한 문제(프로그래머스 LV2, 3)도 잘 풀지 못합니다. 어려운 문제(프로그래머스 LV5)는 말할 필요도 없습니다.
복잡한 코딩도 못 합니다. Numpy만 사용하여, BERT Backpropagation을 구현하라는 명령을 내리면, 코딩을 중간에 멈춥니다.

다만 문제 풀이를 위한 접근 방식과 문제에 대한 분석은 놀라울 정도로 정확합니다. 어려운 문제(프로그래머스 LV5)에 대해서도 정확하게 풀기 위한 올바른 접근 방법을 제시합니다.

Training language models to follow instructions with human feedback: labeling interface

뇌피셜

이제부터 저의 뇌피셜을 이야기하겠습니다. 모든 내용이 틀렸을 수도 있습니다. 혹시 틀린 부분이 있다면 알려주시길 바랍니다.

GPT 모델들은 LM 기반입니다. ChatGPT는 약간의 지도학습과 강화학습을 했지만, 부족한 게 사실입니다. 동시에 코딩 태스크에 특화된 학습을 진행하지 않았을 것입니다.

코딩 관련 공식 문서를 모두 읽고, 여러 스타일의 코딩 문제와 해결 방법을 학습했지만, 문제를 한 번도 풀어본 적 없는 사람과 같습니다. 많은 오류를 내지만, 푸는 방법은 정말 정확하게 압니다.

만약에 코딩하는 법을 배운다면(코딩 태스크에 맞는 Fine-tuning), 상상 이상의 결과를 보일 것입니다. (Copilot은 어떤지 궁금합니다) (다른 태스크를 Zero-shot으로 했는데, 이 정도면 대단하다고 봅니다)

수학도 같은 맥락입니다. ChatGPT는 수학 문제 학습을 하지 않았습니다. 다른 말로 수학 문제를 한 문제도 안 풀었는데, 이 정도의 성능을 보여주는 것입니다. (물론 수학 관련 정보와 코딩 관련 정보를 학습했을 겁니다)

이상 저의 뇌피셜이었습니다. ChatGPT를 포함한 모델의 학습 방법을 공개하지 않았기에, 실상은 OpenAI, MS 직원들만 알 것입니다. 따라서, 전부 틀렸을 수도 있습니다.

Would Chat GPT3 Get a Wharton MBA?: Afterthought

이후 이야기

현재 ChatGPT를 금지하는 학교와 학회가 많습니다. 동시에 이를 비판하는 이들도 많습니다. 다음은 회사입니다. 해당 주제로 글을 작성할 예정입니다.

과연 인간은 창의적이고 AI는 창의적이지 않을까요? 해당 주제로도 글을 작성할 예정입니다. 다만 시간이 부족하여, 언제가 될지 모르겠습니다. 이외에도 다룰 5개(Chat 저임금 노동력 착취 이슈, 챗봇 사업의 한계 등)의 주제가 더 있습니다.