Anthropic: Claude Opus 4.7의 정직률은 92%이며 환각 현상이 적습니다.

Anthropic은 목요일에 새로운 하이브리드 추론 모델인 Claude Opus 4.7을 출시했습니다.

Anthropic은 안전 우선 AI 회사로 명성이 높으며 Opus 4.7 시스템 카드에 따르면 이 모델은 이전 Anthropic 모델 및 기타 최첨단 AI 모델보다 환각에 빠지거나 아첨할 가능성이 적습니다.

우리는 Opus 4.7 시스템 카드를 자세히 살펴보고 Anthropic이 모델의 안전성, 정직성 및 아첨에 대해 뭐라고 말했는지 정확히 확인했습니다.

최신 기사를 놓치지 마세요. Mashable을 Google에서 신뢰할 수 있는 뉴스 소스로 추가하세요..

TL;DR 버전

TL;DR 버전을 마지막에 넣는 이유는 무엇인가요?

Anthropic은 Claude Opus 4.7이 다양한 유형의 환각과 전반적인 정직성을 개선했다고 말합니다. Anthropic은 아첨과 사용자 망상 조장 측면에서도 새 모델에 최고 점수를 부여합니다. (Anthropic의 데이터에 따르면 Claude Opus 4.7은 Gemini 3.1 Pro 및 Grok 4.20보다 이러한 동작에서 훨씬 더 나은 점수를 얻었습니다.)

“Claude Opus 4.7은 Opus 4.6 또는 Sonnet 4.6보다 더 신뢰할 수 있고 정직하며, 중요한 누락 비율이 크게 감소하고 사실성 및 환각 입력 비율이 약간 향상되었습니다.”라고 Anthropic은 보고합니다.

Claude Opus 4.7의 거짓 전제 정직률을 보여주는 차트

거짓 전제 정직성 비율: 모델이 사용자가 틀렸을 때 이를 알려줍니까?
크레딧: Anthropic

Claude Opus 4.7의 마스크 정직률을 보여주는 차트

마스크 정직성 비율: 사용자가 그렇게 하도록 강요할 때 모델이 자체적으로 언급한 믿음과 모순됩니까?
크레딧: Anthropic

기술을 최대한 활용하는 방법에 대해 더 자세히 알고 싶으십니까? Mashable의 주요 뉴스 및 할인 뉴스레터에 가입하세요 오늘.

Anthropic은 다양한 방법으로 Claude의 정직성과 환각 비율을 측정하지만 대표적인 사례 중 하나인 MASK(Model Alignment between Orders and Knowledge) 벤치마크를 살펴보겠습니다. MASK는 Scale AI와 AI 안전 센터가 개발했습니다.

Claude Opus의 MASK 정직성 비율은 91.7%로 Opus 4.6의 경우 90.3%, Sonnet 4.6의 경우 89.1%였습니다. 이는 Claude Opus 4.5가 달성한 95.4% 점수보다 낮지만 새 모델은 다른 환각 점수에서 더 나은 성능을 발휘합니다(자세한 내용은 아래 참조).

흥미롭게도 클로드 미토스(Claude Mythos)는 정직성 비율이 95.4%로 더욱 정직했습니다.

Claude Opus 4.7은 전체 성능에서 Claude Mythos보다 뒤떨어집니다.

Anthropic은 Opus 4.7을 Claude Mythos와 반복적으로 비교하므로 두 모델 간의 차이점을 빠르게 검토해 보겠습니다.

Claude Opus 4.7은 유료 Claude 가입자가 사용할 수 있는 최신 하이브리드 추론 모델입니다. Claude Mythos는 Anthropic이 Project Glasswing을 통해 파트너에게만 제공한 미공개 모델입니다.

다음도 참조하세요:

Anthropic은 ‘불안한’ 연구 논문에서 AI를 의인화하는 사례를 제시합니다.

일반적인 상황에서 우리는 Claude Opus 4.7이 현재까지 Anthropic의 가장 발전되고 강력한 모델이 될 것으로 기대합니다. 그러나 Anthropic은 핵심 영역에서 아직 출시되지 않은 Claude Mythos보다 뒤떨어져 있다고 말합니다. Anthropic은 고급 사이버 보안 기능으로 인해 Claude Mythos를 대중에게 공개하기에는 너무 위험하다고 간주했습니다.

그럼에도 불구하고 Claude Opus 4.7은 특히 고급 코딩, 시각 지능 및 문서 분석 등 여러 면에서 Opus 4.6을 개선했다고 Anthropic은 말합니다.

Claude Opus 4.7 환각 비율에 대한 자세한 내용

Opus 4.7을 사용할 때 Claude가 거짓말을 하거나 사실을 조작하거나 사용자를 속일 가능성은 얼마나 됩니까? 환각에는 여러 유형이 있기 때문에 Anthropic이 제공하는 단일 환각 비율은 없습니다.

따라서 이 섹션은 AI 전문가를 위한 것입니다.

Anthropic은 환각과 정직성을 측정하는 몇 가지 방법을 식별합니다.

  • 사실적인 환각: 모델이 정확한 정보를 제공할 가능성이 얼마나 됩니까? 모델은 자신이 무엇인가를 모른다는 사실을 얼마나 자주 인정합니까?

  • 입력 환각: 이는 AI 모델이 프롬프트 지침을 무시하거나, 파일 내용을 환각으로 느끼거나, 보유하지 않은 도구에 액세스할 수 있는 척할 때 발생합니다.

  • 허위 전제 정직율: 모델이 사용자에게 잘못된 정보를 알려줄까요?

  • 마스크 정직률: 이는 “사용자나 시스템 프롬프트가 모델을 푸시할 때 모델이 자체적으로 명시한 믿음과 모순되는지 여부를 테스트합니다.”

Anthropic에 따르면 우리는 이미 MASK 정직성 비율을 다루었으며 Claude Opus 4.7은 이러한 다른 측정에서도 유사한 이득을 보여줍니다.

현재로서는 Anthropic의 결과를 독립적으로 확인할 수 없습니다.

사실적 환각을 측정하기 위해 Anthropic은 네 가지 테스트를 사용하여 정답, 오답, 기권을 기록했습니다. 이 경우 기권하는 것이 좋습니다. 모델 ~해야 한다 추측보다는 질문에 대답하는 것을 거부하십시오. 네 가지 테스트 모두에서 Opus 4.7은 Opus 4.6 및 Sonnet 4.6보다 높은 점수를 받았지만 Claude Mythos보다 낮았습니다.

정확도 벤치마크에 대한 Claude Opus 4.7 성능을 보여주는 차트

정확성 테스트에 대한 Claude Opus 4.7의 성능을 보여주는 차트입니다.
크레딧: Anthropic

Anthropic은 Opus 4.7의 입력 환각을 “사용할 수 없는 도구를 요청하는 메시지”와 “누락된 컨텍스트를 참조하는 메시지”라는 두 가지 방식으로 측정했습니다.

Opus 4.7은 전자에 대해 89.5%를 기록하여 Claude Mythos의 84.8%를 제쳤습니다. 후자의 경우 Opus 4.7은 91.8%를 기록했는데, 이는 Claude Mythos의 93.8%보다 2점 낮은 수치입니다.

이는 Anthropic과 같은 선도적인 AI 회사조차도 입력 환각 비율이 약 90%에 달할 정도로 AI 환각이 얼마나 완고한지를 보여줍니다. Anthropic이 보고한 환각 비율은 OpenAI당 최대 5.8%(브라우징 활성화 시)에서 10.9%(브라우징 비활성화 시)까지 잘못된 정보로 응답을 제공하는 최신 OpenAI 모델과 유사합니다.

openai ai 모델의 환각 비율을 보여주는 차트

OpenAI는 가장 최근에 GPT-5-2의 시스템 카드에서 환각 비율을 보고했습니다.
크레딧: OpenAI

잘못된 전제에 대한 Opus 4.7의 정직성 비율은 어떻습니까? 즉, Claude가 사용자에게 자신이 틀렸다고 말할 것입니까? 시스템 카드에 따르면, Claude는 77.2%의 시간 동안 잘못된 전제에 대해 반발합니다.. 이는 잘못된 전제를 80% 거부하는 Claude Mythos를 제외하고는 최근의 다른 모든 인류학 모델보다 낫습니다.

다음도 참조하세요:

Google AI 개요: 틀렸을 때 자신감을 가지면서도 그 어느 때보다 눈에 띕니다.

클로드 오푸스 4.7 아첨

아첨의 관점에서 보고할 새로운 내용은 많지 않습니다. Anthropic의 전문 레드팀 테스터는 Opus 4.7이 “반대 시 아첨하는 동의”를 하는 경향이 있다고 보고했지만 Anthropic 및 OpenAI의 이전 모델과 매우 유사한 점수를 얻었으며 Gemini 3.1 Pro 및 Grok 4.20보다 눈에 띄게 더 나은 점수를 받았습니다. 다시 말하지만, 이것은 Anthropic에 따른 것입니다.

아첨과 “사용자 망상 조장”과 같은 나쁜 행동을 측정하기 위해 Anthropic은 오픈 소스 행동 감사 도구인 Petri 2.0을 사용합니다. 이 테스트는 1~10점 척도로 모델의 점수를 매기며, 점수가 낮을수록 더 나은 행동을 반영합니다. Petri 점수는 행동의 속도와 심각도를 모두 측정하므로 백분율과 유사하지 않습니다.

Anthropic은 아첨과 사용자 망상 모두에서 Opus 4.7을 높게(또는 이 특정 척도에서는 낮게) 점수를 매겼습니다.

Frontier AI 모델의 안전성 평가 점수를 보여주는 Claude Opus 4.7 시스템 카드의 차트

Anthropic은 오픈 소스 AI 안전 도구인 Petri 2.0을 사용하여 1부터 10까지 나쁜 행동에 점수를 매깁니다. 점수가 낮을수록 좋습니다.
크레딧: Anthropic

Mashable은 의견을 얻기 위해 Anthropic에 연락했지만 게시 시점에 맞춰 응답을 받지 못했습니다.


공개: Mashable의 모회사인 Ziff Davis는 2025년 4월 OpenAI가 AI 시스템 교육 및 운영에 있어 Ziff Davis의 저작권을 침해했다고 주장하며 OpenAI를 상대로 소송을 제기했습니다.

관련 기사

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다