Claude Sonnet 4.6: 벤치마크 성능, 사용해 보는 방법

인류는 방금 출시된 최신 LLM(대형 언어 모델)인 Claude Sonnett 4.6. 화요일 릴리스는 2월 5일 회사의 프리미엄 AI 모델인 Claude Opus 4.6 출시에 이어 빠르게 이루어졌습니다.

Anthropic에 따르면 “Claude Sonnet 4.6은 현재까지 가장 유능한 Sonnet 모델입니다.” 회사는 Sonnet 4.6이 베타 버전으로 백만 개의 토큰 컨텍스트 창을 가지고 있다고 말합니다. 결정적으로, Anthropic은 Sonnet 4.6이 내부 안전 테스트에서 좋은 성적을 거두어 환각과 아첨에 연루되는 경향이 낮다고 보고했습니다.

Anthropic은 AI를 사용하여 코딩하는 개발자들 사이에서 Claude의 인기를 언급하면서 “Sonnet 4.6은 더 많은 사용자에게 훨씬 향상된 코딩 기술을 제공합니다”라고 말했습니다.

Anthropic의 최신 AI 모델을 사용하려는 경우 Anthropic이 이를 정말 쉽게 만들었습니다. Sonnet 4.6 조항에 액세스하는 방법은 다음과 같습니다.

클로드 소네트 4.6 사용법

무료 및 Pro 사용자 모두 Claude Sonnett 4.6이 이제 claude.ai 및 Claude Cowork의 기본 모델로 제공됩니다. Anthropic은 또한 API와 모든 주요 클라우드 플랫폼을 통해 모델을 출시했습니다.

무료 사용자는 현재 수요에 따라 사용률이 제한됩니다. 한도는 5시간마다 재설정됩니다. 더 높은 한계가 필요한 사람들을 위해 Claude Sonnet 4.6은 이전 모델과 동일한 가격으로 제공됩니다. Claude Pro 플랜의 비용은 월 $20 또는 연간 지불의 경우 월 $17입니다. API를 통과하는 경우 Claude Sonnett 4.6은 입력 토큰 백만 개당 3달러, 출력 토큰 백만 개당 15달러부터 시작합니다.

Claude Sonnet 4.6 벤치마크 성능

Anthropic의 벤치마크 테스트에 따르면 Claude Sonnet 4.6은 에이전트 재무 분석 및 사무 작업을 위한 회사의 가장 강력한 모델로 Google의 Gemini 3 Pro 및 OpenAI의 GPT 5.2와 같은 경쟁사를 능가합니다.

이러한 작업에서 Claude Sonnet 4.6은 Anthropic의 가장 강력한 AI 모델인 Anthropic의 자체 Opus 4.6을 능가합니다.

출시 발표에서 Anthropic은 Claude Sonnet 4.6에 대한 초기 액세스 권한을 가진 많은 개발자가 이전 모델인 Claude Sonnet 4.5뿐만 아니라 Claude Opus 4.5보다 이 모델을 선호한다고 밝혔습니다. Sonnet 4.6 시스템 카드에 따르면 새 모델은 Humanity’s Last Exam과 같은 주요 벤치마크에서 향상되었지만 Claude Opus 4.6이 더 높은 점수를 받았습니다.

벤치마크 성능

  • GPQA 다이아몬드: 89.9%

  • ARC-AGI-2: 58.3%

  • MMMLU: 89.3%

  • SWE 벤치 검증: 79.6%

  • HLE (인류의 마지막 시험): 도구 있음 49.0%, 도구 없음 33.2%

AI 기반 보험 회사인 Pace는 VentureBeat에 Sonnet 4.6이 복잡한 보험 컴퓨터 사용 벤치마크에서 모든 Claude 모델 중에서 가장 좋은 점수를 받았다고 말했습니다.

Claude Opus 모델은 일반적으로 복잡한 추론에 더 지능적이고 선호되기 때문에 이러한 결과는 주목할 만합니다.

Claude Sonnet 4.6은 일부 Opus 모델보다 강력할 뿐만 아니라 가격도 더 저렴합니다. 앞서 언급했듯이 Claude Sonnet 4.6의 가격은 $3/$15인 반면 Opus 4.6의 가격은 $5/$25입니다.

주제
인공지능

관련 기사

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다