인공지능 모델이 단순히 “질문에 답하는 수준”을 넘어, 스스로 계획하고 협업하며 장기 프로젝트를 완수하는 시대가 열렸다. 앤트로픽이 2026년 2월 5일(현지시간) 공개한 ‘클로드 오퍼스 4.6’는 100만 토큰 컨텍스트 창을 탑재하며, 한 번에 처리할 수 있는 정보량을 기존 40만 토큰 대비 2.5배 확대했다. 이는 약 750만 단어, 일반 소설책 기준 50권 이상을 동시에 분석할 수 있는 수준이다. 더욱 주목할 점은 여러 AI 에이전트가 팀을 이뤄 협업하는 ‘에이전트 팀’ 기능으로, 단일 모델의 한계를 넘어 복잡한 업무를 분산 처리할 수 있게 됐다는 점이다.

에이전트 코딩·추론 벤치마크 1위…”GPT-5.2 능가”

앤트로픽은 이번 업데이트가 단순 성능 개선이 아닌 “실무 환경에서의 안정성 강화”에 초점을 맞췄다고 밝혔다. 실제 벤치마크 결과는 이를 뒷받침한다. 에이전트 코딩 평가인 터미널벤치(Terminal-Bench) 2.0에서 최고 점수를 기록했으며, 경제적 가치 있는 지식 작업을 측정하는 GDPval-AA에서는 1606점으로 오픈AI의 GPT-5.2(1462점)를 144점 차이로 앞섰다. 복합 추론 테스트 ‘Humanity’s Last Exam’와 온라인 정보 검색 능력 평가 브라우즈컴(BrowseComp)에서도 업계 최상위 성능을 기록했다.

특히 대규모 코드베이스 환경에서 자체 코드 리뷰와 디버깅 능력이 강화되며, 모델이 스스로 오류를 포착하는 수준까지 진화했다. 앤트로픽은 “이전 모델보다 더 신중하게 계획을 수립하고, 장기 에이전트 작업을 안정적으로 수행한다”며 “단순한 지능 향상이 아닌, AI가 스스로 판단하고 실행하는 에이전틱(Agentic) 역량 극대화에 집중했다”고 설명했다.

MS 오피스 통합 본격화…”언어 모델→업무 플랫폼” 전환

주목할 변화는 제품 생태계 확장이다. 클로드는 이제 MS 엑셀과 파워포인트에 직접 통합되며, 개발자가 아닌 일반 업무 종사자까지 활용 범위를 넓혔다. ‘클로드 인 엑셀(Claude in Excel)’은 대폭 개선됐으며, ‘클로드 인 파워포인트’는 연구 미리보기 형태로 새롭게 출시됐다. 이는 재무 분석, 리서치, 문서·스프레드시트·프레젠테이션 생성 등 일상적인 화이트칼라 업무를 AI가 직접 수행할 수 있는 환경을 조성한다.

기술적으로는 ‘컨텍스트 컴팩션(Context Compaction)’ 기능이 추가돼, 모델이 자체적으로 컨텍스트를 요약하며 장기 작업을 수행한다. ‘적응형 사고(Adaptive Thinking)’는 상황에 맞게 추론 깊이를 자동 조절하며, 개발자는 새로운 ‘노력(Effort) 제어’ 옵션으로 지능·속도·비용 간 균형을 직접 설정할 수 있다. 가격은 API 기준 100만 토큰당 5달러(입력)/25달러(출력)로 기존과 동일하게 유지됐다.

“2개월 주기 업데이트”…치열해진 AI 에이전트 경쟁

오퍼스 4.6은 이전 버전(4.5)이 출시된 지 약 2~3개월 만에 공개됐다. 업계에서는 이를 오픈AI의 GPT-5.2, 구글의 제미나이 3 프로와의 경쟁 심화 신호로 분석한다. 특히 앤트로픽은 지난해 ‘클로드 코워크(Claude Cowork)’로 소프트웨어 개발 영역에서 파급력을 입증했으며, 이번 업데이트는 이를 엔터프라이즈급 복잡 업무로 확대하는 전략적 결정으로 평가된다.

다만 일부 전문가들은 “최고 성능 모드 사용 시 응답 지연(레이턴시) 증가 가능성”과 “GPT·제미나이 대비 높은 토큰당 단가”를 제약 요소로 지적한다. 그럼에도 앤트로픽은 “Opus 4.6은 단순한 성능 개선이 아니라, 실제 업무 환경에서 더 오래, 더 안정적으로, 더 자율적으로 작동하는 모델”이라며 “개발자와 기업이 AI를 실무에 깊이 통합하는 데 중요한 진전”이라고 강조했다. AI 모델이 단순 도구에서 ‘자율 협업 플랫폼’으로 진화하는 분기점이 될지, 시장의 주목이 집중되고 있다.