챗 GPT 국내외적으로 요즘 가장 핫한 키워드입니다. 최대규모의 인공지능이 일반인들에게 다가온 첫 사례이기 때문입니다. chatGPt는 1억 명의 가입자와 월 20달러의 유료결제 이용자 100만 명을 단 2개월 만에 달성하였습니다. 이것이 과연 우리에게 어떤 변화를 가져올 것이고, 어떻게 대응해야 할 것인지, 한빛미디어 박태웅 의장의 강연을 중심으로 포스팅해 보겠습니다.
사용자 100 만명이 도달하는데 소요된 기간 | |||||
넷플릭스 | 트위터 | 페이스북 | 스포티파이 | 인스타그램 | 챗GPT |
3.5년 | 2년 | 10개월 | 5개월 | 2.5개월 | 5일 |
1. 챗 GPT 폭발력
챗 GPT 폭발력의 기반이 되는 하드웨어 사양을 알아보겠습니다. 엔비디아의 GPU V100은 125 테라플롭스(TFLOPs), 다시 말해 1초에 125조 번의 실수 연산을 할 수 있는 놀라운 장치입니다. 그런데, 챗 GPT는 A100 텐서코어 GPU, 즉 1초에 312조 번 실수 연산을 할 수 있는 312 테라플롭스 하드웨어를 장착하였습니다. 이는 딥러닝 학습과 추론에서 V100단순 대비 20배의 연산능력을 향상했음을 보여줍니다. 소프트웨어적으로는 데이터가 일정 규모 이상으로 쌓이면 오히려 정확도가 떨어지는 전통적인 방식(전문가시스템)이 아니라 딥러닝 방식을 취하고 있습니다. 예를 들어, 고양이를 찾아낼 때, 고양이의 모든 특징들을 세세히 입력해 주는 것이 아니라, 다양한 고양이 사진 15만 장을 제공하고 스스로 특징들을 걸러내게 합니다. 그것을 다시 자신만의 매개변수 1천만 개로 만들고, 각각의 매개변수마다 가중치를 다르게 설정하여 분석의 정확도를 대단히 높였습니다. 상상하기 쉽지 않은 성능입니다. 명칭을 보면 이 시스템의 특징을 알 수가 있습니다. 첫째, 챗(chat), 단기기억을 전제로 상호작용이 가능한 대화형입니다. 둘째, G, generative, 그림이나 동영상, 글 등을 학습한 그대로 생성이 가능합니다. 셋째, P, pre-trained, 3천억 단어와 5조 개의 문서 등 거대한 언어모델(LLM)을 사전학습했습니다. 넷째, T, transformer, 딥러닝 모델로 핵심단어를 파악하고 이어질 단어를 확률로 예측하여 사용자가 사람과 대화하는 듯한 생각을 하게 합니다. 이것이 가능한 이유는 1,750억 개의 가중치가 다른 매개변수를 갖고 연산하며, 인간의 피드백을 적용한 강화학습을 하기 때문입니다. 인간의 피드백에 기초한 재학습은 전혀 엉뚱하지 않은 그럴듯한 응답을 도출해 냅니다.
2. 가능성, 무엇을 할 수 있는가?
가능성이라면 고등교육 과정에 필요한 대부분의 것들을 해낼 수 있다는 것입니다. 실제로 변호사를 배출하는 미네소타 로스쿨 시험 에세이 작성에 합격점을 받았습니다. 미국 아이비리그 펜실베이니아대학교 와튼스쿨 MBA 최종시험도 합격점을 받았고, 대학과제 리포트 등에서도 A+를 손쉽게 받아냈습니다. 이렇게 챗 GPT는 엄격한 형식에 따라 규칙적인 업무가 진행되는, 어떤 패턴에 따라 진행되는 업무, 프로그래밍, 법률사무직, 저널리즘, 광고마케팅, 주식거래, 그래픽디자인 등 다양한 각계 분야에서 쓰임새가 폭발할 것이 예상됩니다. 인공지능이 활성화되면, 인간의 육체노동을 대신하는 것이 아니라, 고도의 계산이 필요한 인간의 전문영역을 대치하게 될 것으로 예견됩니다. 이렇게 보면 전지전능한 만능 AI가 출현한 것 같기도 하고, 약간 무서운 생각이 들기도 합니다.
3. 한계, 무엇을 할 수 없는가?
한계라면 아이러니하게도 어려운 일은 쉽게 하지만 쉬운 일은 어렵게 한다는 것입니다. 통계와 확률로 접근하여 예측하고 짐작하는 방식이기에 그 반대의 경우에 아주 취약합니다. 통계와 확률이 필요 없는 덧뺄셈(다섯 자리 이상의 연산)의 정답률이 10%도 안된다고 하며, 명확하게 답이 정해져 있는 경우 할루시네이션(hallucination, 환각) 오류를 20% 정도 발생시킨다고 합니다. 한 응급학과 전문의가 가상의 환자 증상을 주고 진단을 요청했더니, 처음에는 적절한 진단결과를 내놓은 듯했지만, 대화가 이어지자, 마치 당황한 것처럼 트랜스포머의 오류에 빠져 거짓논문과 거짓출처들을 내놓았다고 합니다. 악보가 존재하지 않는 모차르트의 첼로협주곡에 대해 질문을 던지자 그럴듯한 답변을 위해 허언증 환자처럼 없는 쾨헬 번호까지 만들어 답변을 내놓았다고도 합니다. 구글엔진 바드가 제임스웹 우주망원경에 대한 오답을 내놓아 이틀 만에 구글시총에서 200조 원을 날려버리거나, MS의 검색엔진 빙이 무선청소기의 단점을 코드가 짧다고 한 것처럼 아직 갈 길이 먼 것 같습니다. 세계적인 언어학자 노암 촘스키의 말대로 아직은 첨단기술 표절시스템일지도 모르겠습니다. 다음 포ㅡ팅에서 계속 됩니다. 챗 GPT를 경험해 보고 싶다면 아래 링크를 클릭해 보세요.
댓글