‘정직한’ 인류학 AI인 Claude Opus 4.8을 사용해 보는 방법

Anthropic은 아직 일반 사용자가 초강력으로 추정되는 Claude Mythos AI 모델을 볼 수 있도록 할 준비가 되어 있지 않습니다. 그러나 AI 회사는 자사의 주력 제품인 Claude Opus의 업그레이드를 이제 4.8 버전으로 출시했습니다.

Anthropic은 목요일 보도 자료에서 “Opus 4.7을 기반으로 벤치마크 전반에 걸쳐 향상된 기능을 제공하며 더욱 효과적인 협력자입니다”라고 약속했습니다. 실제로 아래 벤치마크 수치는 전반적으로 매우 사소한 개선을 보여줍니다.

한 가지 주요 개선 사항은 환각 분야에 있다고 합니다. Claude Opus 4.8은 사용자에게 거짓말을 많이 하지 않습니다. Anthropic은 “초기 테스터들은 Opus 4.8이 작업에 대한 불확실성을 표시할 가능성이 더 높으며 근거 없는 주장을 할 가능성이 더 낮다고 보고합니다.”라고 Anthropic은 모델의 “정직함”을 칭찬했습니다.

Claude Opus 4.8은 ‘더 나은 판단력’을 가지고 있습니다

Shopify의 엔지니어인 Tom Pritchard는 “Claude Opus 4.8은 눈에 띄게 더 나은 판단력을 가지고 있습니다”라고 Anthropic에 말했습니다. 모델의 코딩 버전은 “올바른 질문을 하고, 자체 실수를 파악하고, 계획이 타당하지 않을 때 뒤로 물러납니다.”

기업 데이터베이스 전체를 삭제하는 AI 에이전트에 대한 공포 이야기가 점점 늘어나고 있다는 점을 감안할 때, 그 약속은 모든 곳의 바이브 코더들의 귀에 음악일 수 있습니다.

고급 사용자를 만족시키기 위해 Anthropic은 Claude가 일반 속도의 2.5배로 작업하는 “빠른 모드”에 대해 상당한 할인을 제공하고 있습니다. 회사 측은 “빠른 모드는 이제 이전 모델보다 3배 더 저렴하다”고 밝혔습니다.

그러나 Reddit 사용자는 구매하지 않았습니다. 많은 사람들은 더 인기 있는 모델인 Claude Opus 4.6에 대한 액세스 권한을 잃을까 봐 두려워했습니다. 한 Reddit 사용자는 요약하자면 “아무도 벤치마크 차트를 신뢰하지 않습니다”라고 썼으며 Opus 4.7도 출시되었을 때 꽤 좋은 수치를 보인 것 같다고 언급했습니다.

우리가 벤치마크를 신뢰할 수 있는지 여부와 명확하게 말하면 Mashable은 이러한 수치를 독립적으로 확인하지 않았습니다. Anthropic이 주장하는 내용은 다음과 같습니다.

Claude Opus 4.8의 벤치마크 번호 목록


크레딧: Anthropic

Claude Opus 4.8을 사용해 보는 방법

Claude Opus 4.8은 현재 Anthropic의 웹사이트인 Claude.AI는 물론 Claude API, Microsoft Foundry와 같은 Anthropic 파트너를 통해 사용할 수 있습니다.

새 모델의 가격은 이전 모델과 정확히 동일합니다. 즉, Claude Opus 4.5까지 거슬러 올라가는 모델입니다. 이들 모두에는 입력 토큰 백만 개당 5달러, 출력 토큰 백만 개당 25달러의 비용이 듭니다.

그러나 Anthropic이 몇 주 안에 Claude Mythos를 약속한다는 점을 감안할 때, 잠시 물러서서 해당 모델이 환각에 대해 더욱 “정직”할 수 있는지 확인하는 것이 좋습니다.

주제
인공지능 인류학

완벽 가이드 보기

완벽 가이드 보기

관련 기사

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다