2025년까지 AI가 ‘컴퓨터를 자유롭게 사용’하게 될 수 있을까?

테코피디아 신뢰성

2022년 챗GPT의 등장 이후, 생성형 AI의 발전과 다양한 기능을 가진 AI 챗봇들의 확산을 지켜본 이들은 이제 이 기술이 포화 상태에 가까워졌다는 데 동의할 것이다.

2024년 중반에 비디오, 텍스트, 코드 생성이 가능한 새로운 대규모 언어 모델(LLM)이 대거 등장했고 사람들의 관심은 점점 줄어들었다. 더 많은 모델들이 등장하면서 고유한 셀링 포인트도 사라졌다.

이제 관심은 AI 에이전트에 집중되고 있다. 좀 더 구체적으로 말하자면, “AI가 운영 체제에 직접 접속해 이를 사용할 수 있을까?”라는 질문에 초점이 맞춰지고 있다.

마이크로소프트는 다양한 인공지능 시스템들이 일상적인 GUI(그래픽 사용자 인터페이스)를 얼마나 잘 다룰 수 있는지에 대해 연구했다. 이 기술이 일상적인 도구들에서 AI를 활용하는 데 있어 중요한 연결 고리일 수 있음을 시사하는 연구 결과가 나왔다.

핵심 내용

  • AI GUI 에이전트는 윈도우나 맥OS와 같은 컴퓨터 인터페이스를 통해 작업을 자동화하는 것을 목표로 한다.
  • 특수화된 대규모 행동 모델(LAM)은 AI가 일상적인 도구와 프로그램을 활용하는 데 필요한 경로를 제공할 수 있다.
  • AI 에이전트는 빠르게 등장하고 있으며, 2030년까지 AI 에이전트 시장 규모는 470억 달러로 성장할 것으로 예상된다. 그러나 GUI 측면에서 기술은 아직 대중적인 수준에 도달하지 않았다.
  • 마이크로소프트의 연구는 주류 AI 서비스에서 희망적인 결과를 보였으나, 복잡성과 데이터셋 격차를 드러냈다.
  • 채택이 증가함에 따라 윤리적 문제와 일자리 상실이 우려된다.

AI 어시스턴트에 대한 기업의 갈망

2024년 10월, AI 스타트업 앤트로픽(Anthropic)이 “컴퓨터 유즈(Computer Use)”를 발표했다. 이는 생성형 AI 경쟁에서 큰 도약으로 여겨졌다.

기본적으로 “컴퓨터 유즈”는 우리가 컴퓨터를 사용할 때처럼 클릭을 할 수 있는 GUI 에이전트 또는 AI 에이전트를 의미한다. 앤트로픽은 이 에이전트를 “사람이 사용하는 방식으로 컴퓨터를 사용할 수 있는 AI”라고 표현했다.

간단한 텍스트 설명으로 작업을 자동화할 수 있다는 가능성은 매우 매력적이다.

앤트로픽이 AI 에이전트를 최초로 공개(퍼블릭 베타 버전)하면서 경쟁에서 앞서 나가고 있는 가운데, 마이크로소프트와 구글과 같은 다른 업체들도 비슷한 기술을 발표했다. 보도에 따르면, 오픈AI는 “오퍼레이터(Operator)”라는 코드명을 가진 AI 에이전트를 1월에 출시할 준비를 하고 있다.

AI 에이전트에 대한 기업들의 관심은 그들이 생산성을 높이고 비용을 절감할 수 있는 잠재력 때문에 급격히 증가하고 있다.

PR뉴스와이어에 따르면, 전 세계 AI 에이전트 시장은 2024년 50억 달러에서 2030년에는 470억 달러로 급성장할 것으로 예상된다.

2024년이 끝나가는 시점에서, 기업들은 이 수익성 높은 시장에서 자신의 영역을 확보하기 위해 경쟁을 벌이고 있다. 예를 들어, 세일즈포스는 이미 액센추어, 페덱스, IBM과 같은 유명 기업을 포함해 200개 이상의 기업과 계약을 맺고 AI 에이전트를 구현하고 있다.

이렇듯 큰 판이 벌어지면서, 기업용 AI 에이전트 시장을 차지하려는 경쟁은 점점 치열해지고 있으며, 누가 승자가 될지는 아무도 모르는 상황이다.

AI 에이전트가 데스크톱에서 작동할 준비가 되었나?: 마이크로소프트의 연구

AI 에이전트가 특히 기업 환경에서 얼마나 잘 작동하는지 이해하기 위해, 마이크로소프트 연구원들과 학계 파트너들은 LLM 기반 GUI 에이전트가 워크플로우에서 얼마나 적용될 수 있는지 연구했다.

이 연구는 또한 이러한 에이전트들이 다양한 운영 체제와 모바일 및 데스크톱 인터페이스에서 복잡한 소프트웨어 탐색을 어떻게 처리하는지도 살펴보았다.

긍정적인 점은, 기존 소프트웨어 에이전트와 달리, LLM 기반 에이전트는 화면에서 시각적 데이터를 처리하고 음성 또는 텍스트 지시를 따를 수 있어, 인간의 직접적인 개입 없이도 복잡한 작업을 처리할 수 있다는 것이다.

또한 이 에이전트들은 익숙한 소프트웨어 환경 내에서 새로운 작업에 빠르게 적응할 수 있는 것으로 나타났다.

연구는 또한 이들이 모호한 지시를 처리하고 다양한 소프트웨어 애플리케이션 간에 적응하는 능력도 테스트했다.

결과적으로, 이들은 불확실한 명령을 이해하고 데스크톱과 웹 환경을 자유롭게 전환할 수 있었다. 이로써 이러한 에이전트를 더 광범위한 AI 시스템에 통합할 수 있는 길이 열렸으며, 그 유용성이 더욱 확대될 것으로 예상된다.

하지만 단점도 있었다. 데스크톱 GUI 에이전트는 모바일과 웹 플랫폼에 비해 상대적으로 전용 데이터셋이 부족하다는 점에서 한계를 보였다. 이는 생산성 도구나 기업용 소프트웨어와 같은 애플리케이션에서 데스크톱이 중요한 역할을 한다는 점을 고려할 때 큰 문제로 지적된다.

현재의 GUI 에이전트들은 GPT-4o와 클라우드 3.5 소네트(컴퓨터 유즈)와 같은 기본 모델을 바탕으로 구축되었지만, 이들 에이전트는 GUI 기반 작업의 고유한 복잡성을 처리하는 데에는 부족함이 있다.

이 연구 결과는 앤트로픽의 클라우드 3.5 AI 에이전트가 복잡한 다단계 작업을 처리하는 능력에 한계가 있다는 최근 연구 결과를 뒷받침한다. 기본적인 컴퓨팅 작업에서는 87%, 탐색 작업에서는 92%의 성공률을 보였지만, 복잡한 작업을 처리하는 데는 부족함이 있다.

이 수치도 훌륭하긴 하지만, 아마도 AI가 여러분의 스프레드시트를 대신해서 작업을 처리하기에는 충분하지 않을 것이다.

LLM 기반 AI 에이전트는 LAM 없이는 부족할 수 있다

GUI 에이전트의 효율성과 정확성을 개선하기 위해, 마이크로소프트 연구원들은 기본 대규모 언어 모델(LLM)을 바탕으로 특수화된 대규모 행동 모델(LAM)을 구축하여 이를 미세 조정할 것을 제안했다.

그들은 특수화된 에이전트들이 “GUI 에이전트의 성능과 효율성을 개선하도록 맞춤 제작된다”고 설명하며, “LAM은 일반적인 기능과 GUI 기반 상호작용의 특정 요구 사항 간의 간극을 메워준다”고 덧붙였다.

또한 LAM은 GUI 에이전트가 복잡한 작업을 더 원활하고 일관성 있게 처리할 수 있도록 도와준다고 주장했다.

이러한 변화는 에이전트의 전반적인 효율성을 향상시킬 뿐만 아니라, 기업들이 반복적인 작업을 줄이고 전반적인 생산성을 개선하기 위해 이러한 에이전트에 더 많이 의존할 수 있도록 만들어줄 것이다.

데스크톱 GUI 에이전트의 전용 데이터셋 부족 문제를 해결하기 위해, 연구원들은 데스크톱 환경에 맞춘 고품질 데이터셋의 개발을 우선시할 것을 권장했다.

이들은 타겟 데이터셋을 통해 LAM을 훈련시키면 데스크톱 인터페이스에서 발생하는 고유한 문제들을 더 잘 이해하고 탐색할 수 있게 될 것이라고 강조했다.

그들은 이 데이터셋 개발에 투자하면, 데스크톱 에이전트와 모바일 또는 웹 플랫폼용 에이전트 간의 성능 격차를 해소할 수 있을 뿐만 아니라, 기업들이 AI 에이전트를 보다 광범위하게 채택하는 데 기여할 것이라고 강조했다.

결론

AI 에이전트는 작업을 자동화하고 인공지능을 활용해 효율성을 높이는 데 있어 유망한 가능성을 제시한다. 오픈AI의 CEO 샘 알트만은 이를 “차세대 거대한 돌파구”라고 칭했다.

에이전트가 여전히 많은 미세 조정이 필요하다는 연구 결과에도 불구하고, AI 기업들은 2025년까지 이를 시장에 출시할 가능성이 크다.

상황이 제대로 정리되면, 고객 서비스에서 프로젝트 관리에 이르기까지 다양한 작업을 처리할 수 있는 AI 에이전트의 잠재력이 드러나게 될 것이다. 그렇게 되면 의심할 여지 없이 일자리가 사라질 것이다.

AI 에이전트를 시장에 출시기 위해서는 대기업들이 충분한 인간의 관리와 감독을 제공해야 한다. 또한 규제 기관도 이러한 기술이 실제로 적용되기 시작할 때 신중하게 관리하고 감독할 책임이 있다.

Hyunwoo Kim
IT 전문가
Hyunwoo Kim
IT 전문가

본 작가는 MIT에서 컴퓨터과학을 전공한 후 지난 5년 동안 자연어 처리에 중점을 두고 다양한 소프트웨어 엔지니어링 프로젝트에 깊이 파고들었습니다. 자신의 엔지니어링 기술과 글쓰기에 대한 열정을 결합하여 통찰력 있고 유익한 콘텐츠를 통해 복잡한 기술 세계를 이해하기 쉽게 설명합니다. 주로 인공지능과 신규 기술 분야 관련 혁신적인 변화에 대한 기사를 작성하고, 독자들에게 정보를 전달하는 역할을 수행하고 있습니다.