KAIST Startup팅 X Upstage 후기

이번 스타트업팅은 네이버와 카카오, 엔비디아, 구글 출신 AI 핵심 개발자를 모아 만든 AI 스타트업 ‘업스테이지'(Upstage)와 함께 했습니다. 업스테이지의 김성훈 대표님은 모두를 위한 딥러닝 강의로 알려져있고, 현 홍콩과기대 겸직교수로 있습니다. AI에 대한 이야기 및 멘토링을 받고 싶은 분들은 지금부터 업스테이지와 함께하는 스타트업팅을 주목해주시기 바랍니다.

선배들이 들려주는 AI시대의 커리어 빌딩-김성훈 대표

강의의 포문은 업스테이지의 김성훈 대표님이 열어주셨습니다. 내용은 강연자 1인칭 시점으로 서술됩니다.

국내 산업은 physical->Digital->AI Beneficial 이와같이 변화해왔습니다. 이 속에서 수많은 문제를 어떻게 AI transform할 것인가 고민하며 AI modeling, engineering-> cost reduction, 새로운 영역의 가치 창출이 필요하다고 느꼈습니다. 누가 할 것인가를 고민하다가 AI 기획자가 필요하다고 느꼈고 업스테이지 판을 만들어야겠다고 생각했습니다. -> Self-improving AI(SAI) Platform을 만들자! 그래서 회사이름도 업스테이지로 명명했습니다.

판에 데이터를 인식 베이스모델로 AI모델을 만들려고 한다. 함께 일할 플랫폼을 잘 만들어야겠다. 플랫폼을 지속적으로 만들려고 한합니다. 업스테이지는 AI개발자 등 실제 AI서비스를 운영해 본 경험이 있는 개발 및 비즈니스 리더들이 창업한 스타트업으로 더 많은 AI 인재들이 함께 하고 있습니다. 전 세계에서 함께 할 인재들을 기다리고 AI플랫폼을 만들려고 합니다.

누구도 알려주지 않는 이야기, 학교와 회사, 스타트업-이활석CTO

이활석CTO님은 본격적인 AI이야기를 시작하기 전 KAIST후배들에게 선배로서 커리어 이야기를 들려주었습니다.

[이활석CTO의 커리어 이야기]

2011년 비디오 코덱으로 박사 학위 취득 15년 삼성테크윈 입사 후 CCTV기술 쪽 업무를 하다가 딥마인드 논문을 보게 되어 AI 안하면 큰일 날 것 같은 생각이 들어 GPU장비 구매하여 연구하기 시작했습니다. AI에 집중하기 위해 이직- 일대일 대전을 위한 봇개발(NC소프트)을 시작으로 게임 개발 효율성을 위하 생성 모델 연구- 스타일변환- 오토인코더의 모든 것 강의 제작하였습니다.. 특히 생성 모델 전체를 텐서플로우로 구현한 레포가 주목을 받아 레딧 1등. 구글과의 콜라보까지 이어졌습니다.

더 많은 고객에게 AI서비스를 제공하기 위해 네이버로 이직(Clova OCR)-OCR이라는 분야를 밑바닥부터 기술을 끌러올려서 논문도 11편 쓰게 되었고 OCR세계대회 1위도 하였습니다. 국내외 수십여서비스 개발도 함/ 공로를 인정받아 OCR비롯 컴퓨터 비전 전반을 책임을 맡게되었고 더 큰 도전을 위해 창업에 합류하였습니다.(업스테이지)

[학교 vs 회사: AI개발 관점]

보통 학교/연구에서는 정해진 데이터셋/평가 방식에서 더 좋은 모델을 찾는 일을 합니다. AI연구에서는 정해진 테이터 셋, 테스트 셋, 평가 방식이 있어 그에 맞는 AI 신기술을 뽑아내는 AI 모델링 구축에 많이 투자하지만 AI 개발 시에는 학습 데이터도 테스트 데이터셋과 테스트 방법도 없습니다. 그러기에 AI 개발에서는 실서비스 적용 전 개발 환경에서의 정량평가(오프라인테스트)와 실서비스 적용시에 정량 평가(온라인테스트)는 이질감이 클 수 있습니다. 결국 AI개발자가 중심이 되어 서비스에서의 품질이 중요하기 때문에, 오프라인 테스트 결과가 온라인 테스트 결과와 유사하게 오프라인 테스트를 잘 설계해야 하고 모델에 관련한 요구사항을 도출해야 합니다.

[회사- AI 조직 구성]

앞서 설명한 데이터를 준비하고 품질을 관리하는 인력 필요하게 됩니다. 데이터/모델과 관련된 업무의 효율성을 위한 툴을 개발하는 인력 필요/이 전체를 총괄하여 모델의 품질을 관리하는 사람-데이터 Curator, 데이터 Modeler, IDE Developer이 필요합니다. 그런데 기술팀에 AI모델 Serving까지 요구되면 필요한 인력 증가하게 됩니다. 모델을 실제 서빙하기 위한 추가 작업들이 end device에 맞춰 더 있는 것을 발견할 수 있습니다.

데이터가 계속해서 쌓이는가를 확인해야 하며 서비스 개발 시에는 서비스 요구 사항만 있습니다. 그러기에 AI모델을 서비스로 만들기 위해 첫 번째로 할 일은 학습 데이터셋을 준비하는 것이 중요합니다. 예를 들어 종류, 수량, 정답의 정의를 내려야 합니다.

예시) 힘든 수식입력을 편하게 하기 위해 사진을 수식을 찍으면 Latax표현을 예측해주는 AI개발

학습데이터셋을 준비하려니 AI모델설계가 되어있어야 하고 AI모델 설계를 검증하자니 학습 데이터셋이 필요합니다. 이 작업들을 여러 번 반복하면서 점차 수렴해가는 것이 중요하게 여겨집니다. 데이터 제작 전문 업체가 많이 생겨서 데이터 제작 업무를 외주를 주기도 합니다.

[회사vs 스타트업]

Scope Project-> Collect Data-> Train Model->Deploy in Production 이 과정으로 진행이 됩니다.

Collect data 부분에서는 데이터가 계속해서 쌓이는가, 요즘에는 스타트업들도 일반회사 못지 않게 Big data를 가지고있고, 좋은 데이터를 가지고 있음을 볼 수 있습니다. 최소한의 데이터로 목적에 맞게 바꿔서 쓰는 경우도 있습니다.

Train Model부분에서는  GPU를 효율적으로 쓰는 툴이나 정부지원, 스타트업 지원 사업 도 있으니 활용하시면 좋을 것 같습니다. 그러나 가장 중요한 부분은 첫번째 Scope Project부분입니다.  어떤 서비스 목적에 맞게끔 AI모델을 개발하는가가 제일 중요합니다. 아래의 내용은 어디에 중점을 두고 있는가에 따라 두 종류로 나뉘기에 회사를 선택하기에 고려해볼 만한 사항입니다.

Business Centric AI: 이미 큰 기업, AI 도입 전에 하던 비즈니스, 기존에 사용하고 있던 모듈, Business Flow는 크게 변하지 않습니다.

AI Centric Business: 스타트업, AI를 중심에 두고 새로운 Flow를 정의합니다.(AI Transformation) 전통 자동차 제조업체 VS 테슬라-> 완전한 새로운 서비스/비지니스도 기대합니다.

정리하자면 대기업과 같은 큰 회사들은 AI와 관련된 정해진 규칙이 있고, 이미 갖춰진 틀이 있기 때문에 서비스 안정성을 고려해 완전히 판을 다 바꾸기가 쉽지 않다는 제약이 있습니다. 반면 스타트업은 한계가 없기 때문에 어떻게 판을 새로 짜서 신기술을 새로 도입하는 것이 비교적 자유롭게 가능합니다.

Upstage의 AI연구 및 개발-박성준 AI Resercher

박성준 AI개발자님께서는 AI연구 및 개발에 대해 심층적인 이야기를 전달해주었습니다. 이 내용은 영상을 참고하시면 더 좋을 것 같습니다. 데이터 제작 학습에서 데이터를 제대로 다루는 제작을 하거나 NLP이야기를 하셨습니다.

2018년 Glue 2020년 쯤 BART 올해는 GEM 등장하였습니다. 저희팀의 경우 KLUE 프로젝트(Korean Language Understanding Evaluation)에 참여하였는데 31명의 Co-Researchers, 11명의 Collaborators, 10개의 Sponsors가 참여하고 있습니다.

그러나 AI개발에 있어 데이터 셋에 대한 윤리적 문제도 고려해야 합니다. 어디까지 데이터 이슈들을 다룰 수 있을까 생각하고 모델평가 관점에서도 중요합니다. 요즘에는 AI개발자들을 선출할 수 있는 다양한 대회들도 생겨나고 AI전문가들이양성되고 있습니다. 최근에 Domain Adaptation –뤼이드에서 열린 테스트도 있었습니다.

Q&A 및 소통

사전에 받은 질문들을 취합해 김성훈 대표, 이활석CTO, 박성준 개발자가 나뉘어서 답변을 하였습니다. 질문은 AI커리어, AI개발, AI기술 등으로 분류가 되었습니다.

몇 가지 질문을 살피자면 “기술이 뛰어난 회사가 좋은가요, 아님 데이터 분석을 잘하는 회사가 좋은가요?” 에 “기술이 뛰어난 회사는 주변 사람들을 통해 많은 것을 배울 수 있고, 데이터 분석이 뛰어난 회사는 많은 데이터로 다양한 시도가 가능하다” 며 “그런데 둘 중 하나를 고르라면, 사실 ‘기술이 뛰어난 회사’가 더 좋다” 고 말하였습니다. AI 업계에 진출하고 싶은 비전공자가 무엇을 가장 중점으로 공부할 것인가에 대한 질문에는 “AI 비전공자라면 ‘전산과 기본과목’으로 기본기를 다지는 것”이 중요하다고 답변했습니다. “AI윤리 측면에서 가이드라인을 가지고 있는지, 가장 중요하게 생각하는 AI윤리의 가치는 무엇인지”에 대한 질문에는 대학이나 회사에서 이미 연구 윤리나 관련된 조항들이 있기에 참고해서 활용해야할 것 같다고 말하였습니다.

사전 질문 외에도 추가 질문들도 많아 세 분이서 적절하게 답을 해주셨습니다. 국내외의 AI전문가들이 모인 업스테이지의 스타트업팅에는 약 200명 정도의 참가자가 참여하였습니다. 스타트업팅에 관심있는 기자분도 참여하셔서 본 프로그램을 취재하셔서 기사로 나오기도 했습니다. AI시대에서 AI에 대한 관심도는 점차 증가하고 있습니다. KAIST에서 더 많은 AI전문가들이 나오며, 이를 창업으로 이어졌으면 좋겠습니다.

다음 번 스타트업팅도 기대와 참여 바랍니다.