Anthropic의 최신 Claude 3.5 Sonnet과 Claude 3.5 Haiku 두 가지 새로운 AI 모델 발표의 의미(공식발표 요약)

Anthropic은 최근 Claude 3.5 Sonnet과 Claude 3.5 Haiku라는 두 가지 새로운 AI 모델을 발표했습니다. 이 모델들은 디지털 마케팅 및 AI 기술 분야에서 실무자들에게 중요한 혁신을 제공합니다. 특히, Claude 3.5 Sonnet은 이전 모델보다 전반적으로 향상된 성능을 보여주며, 코딩 분야에서 특히 두드러진 개선을 이루었습니다.

Claude 3.5 Sonnet: 소프트웨어 엔지니어링의 혁신

Claude 3.5 Sonnet은 업계 벤치마크에서 광범위한 개선을 보였으며, 특히 에이전트 코딩 및 도구 사용 작업에서 강력한 성능을 발휘합니다. SWE-bench Verified에서 성능이 33.4%에서 49.0%로 향상되었으며, 이는 OpenAI o1-preview와 같은 추론 모델 및 에이전트 코딩에 특화된 시스템보다 높은 점수입니다. 또한, TAU-bench라는 에이전트 도구 사용 작업에서도 소매 분야에서 62.6%에서 69.2%로, 더 어려운 항공 분야에서는 36.0%에서 46.0%로 성능이 향상되었습니다.

GitLab은 DevSecOps 작업에 이 모델을 테스트한 결과, 사용 사례 전반에 걸쳐 최대 10%의 강력한 추론 능력을 제공하면서도 지연 시간이 추가되지 않았다고 밝혔습니다. 이는 다단계 소프트웨어 개발 프로세스를 지원하는 데 이상적입니다.

Claude 3.5 Haiku: 최첨단 기술과 경제성의 조화

Claude 3.5 Haiku는 이전 세대의 가장 큰 모델인 Claude 3 Opus와 유사한 속도와 비용으로 많은 지능 벤치마크에서 뛰어난 성능을 발휘합니다. 특히 코딩 작업에서 강력한 성능을 보이며, SWE-bench Verified에서 40.6%를 기록하여 기존의 Claude 3.5 Sonnet 및 GPT-4o를 포함한 여러 최첨단 모델들을 능가합니다[1].

이 모델은 사용자 인터페이스 제품, 특화된 하위 에이전트 작업, 대량의 데이터(예: 구매 이력, 가격 또는 재고 기록)로부터 개인화된 경험을 생성하는 데 적합합니다[2].

컴퓨터 사용 기능: 새로운 가능성

Anthropic은 컴퓨터 사용(computer use)이라는 혁신적인 기능을 공개 베타로 도입했습니다. 이 기능은 개발자가 Claude에게 사람처럼 컴퓨터를 사용할 수 있도록 지시할 수 있게 합니다—화면을 보고, 커서를 이동하고, 버튼을 클릭하며, 텍스트를 입력하는 방식으로 말입니다. 이 기능은 아직 실험 단계에 있으며 때때로 번거롭고 오류가 발생할 수 있지만, 개발자들의 피드백을 통해 빠르게 개선될 것으로 기대됩니다.

Asana, Canva, Cognition, DoorDash, Replit 및 The Browser Company는 이미 이러한 가능성을 탐색하기 시작했으며, 수십 또는 수백 단계의 작업을 수행하고 있습니다. 예를 들어 Replit은 Claude 3.5 Sonnet의 컴퓨터 사용 및 UI 탐색 기능을 활용하여 앱 평가 기능을 개발하고 있습니다.

안전한 컴퓨터 사용 탐색

컴퓨터 사용 기능은 특정 도구를 만드는 대신 일반적인 컴퓨터 기술을 가르쳐 다양한 표준 도구 및 소프트웨어 프로그램을 사용할 수 있게 합니다. 이를 통해 개발자는 반복적인 프로세스를 자동화하고 소프트웨어를 빌드 및 테스트하며 연구와 같은 개방형 작업을 수행할 수 있습니다.

Claude는 OSWorld 평가에서 스크린샷만으로도 다른 AI 시스템보다 높은 점수를 기록했으며(14.9%), 더 많은 단계가 주어질 경우에는 22.0%의 점수를 얻었습니다. 그러나 현재 이 기능은 완벽하지 않으며 스크롤링, 드래깅, 줌과 같은 간단한 작업에서도 어려움을 겪고 있습니다.

Anthropic은 이러한 새로운 기술의 안전한 배포를 촉진하기 위해 컴퓨터 사용이 언제 발생하는지 식별하고 해가 발생하는지 여부를 판단할 수 있는 새로운 분류기를 개발했습니다.

미래 전망

이 기술의 초기 배포에서 얻은 교훈은 점점 더 능력 있는 AI 시스템의 잠재력과 함의를 이해하는 데 도움이 될 것입니다. 우리는 이러한 새로운 모델과 컴퓨터 사용 공개 베타를 탐색하길 기대합니다.


Comments

댓글 남기기


Awsom GPT에서 더 알아보기

구독을 신청하면 최신 게시물을 이메일로 받아볼 수 있습니다.