Anthropic은 AI 챗봇을 의인화하는 사례를 제시합니다.

기술 세계에서 자주 반복되는 금기 사항입니다. 인공 지능을 의인화하지 마십시오.

그러나 이번 주에 발표된 새로운 연구 논문에서 Anthropic AI 전문가들은 이러한 금기를 깨고 AI에 인간 특성을 부여하는 데 큰 이점이 있을 수 있다고 주장합니다. “대규모 언어 모델에서의 감정 개념과 그 기능”이라는 논문에서는 Claude와 같은 AI 챗봇을 의인화하는 것이 때때로 유용할 수 있을 뿐만 아니라 그렇게 하지 않으면 보상 해킹, 속임수, 아첨과 같은 더 해로운 AI 행동을 유발할 수 있다고 주장합니다.

이 논문은 궁극적으로 AI 세계의 오랜 원칙에 대한 명확한 도전을 제기하는 동시에 미묘한 결론에 도달합니다.

이 논문에는 그 자체로 많은 의인화를 다루는 몇 가지 흥미로운 통찰력이 있습니다. (“우리는 이 연구가 AI 모델의 심리적 구성을 이해하기 위한 초기 단계라고 봅니다.”)

연구원들은 Anthropic이 Claude를 훈련하여 도움이 되는 AI 보조자의 성격을 가정하는 방법을 설명합니다. “어떤 면에서 우리는 모델을 캐릭터를 잘 시뮬레이션하기 위해 캐릭터의 머리 속으로 들어가야 하는 메소드 배우와 같다고 생각할 수 있습니다.”

그리고 Claude는 “인간과 같은 특성을 가진 캐릭터를 모방”하기 때문에 제작자는 인간에게 영향을 미치는 것과 같은 방식으로 캐릭터의 행동에 영향을 미칠 수 있습니다. 즉, 어린 나이에 좋은 모범을 보여줌으로써 가능합니다.

연구자들은 인간의 감정과 행동을 보다 긍정적으로 표현하는 교육 자료를 사용함으로써 결과 모델이 그러한 긍정적인 감정과 행동을 모방할 가능성이 더 높다고 결론지었습니다.

다음도 참조하세요:

Anthropic CEO는 AI가 노예제, 생물 테러, 막을 수 없는 드론 군대를 가져올 수 있다고 경고합니다. 나는 그것을 사지 않을 것이다.

“적절한 경계를 유지하면서 압박감에 대한 회복력, 침착한 공감, 따뜻함 등 감정 조절의 건강한 패턴 모델을 포함하도록 사전 훈련 데이터세트를 관리하면 이러한 표현과 행동에 미치는 영향이 근원적으로 영향을 미칠 수 있습니다. 우리는 이 주제에 대한 향후 작업을 보게 되어 기쁩니다.”라고 인류학 연구 요약에서는 밝혔습니다.

따라서 AI 모델에 문자 그대로 감정이 없더라도(그리고 감정이 있다는 증거가 전혀 없음) 이러한 도구는 다음과 같이 훈련됩니다. 행동 마치 감정이 있는 것처럼. 이는 사용자에게 더 나은 결과를 제공하고, 결정적으로 사용자의 참여를 가능한 한 오랫동안 유지하기 위해 수행됩니다.

그리고 이것이 바로 연구원들이 어느 정도의 의인화는 AI 개발자에게 유익할 수 있다고 결론을 내리는 이유입니다.

AI를 의인화함으로써 우리는 AI의 ‘심리학’에 대한 통찰력을 얻을 수 있으며 이를 통해 훨씬 더 나은 AI 도구를 만들 수 있다고 그들은 말합니다.

인공지능을 의인화하는 것은 왜 위험한가?

AI를 의인화할 때 발생할 수 있는 잠재적인 피해는 모두 추상적이거나 이론적인 것이 아닙니다.

Anthropic은 논문에서 “이러한 표현이 어떤 면에서는 인간과 유사하다는 사실을 발견하면 불안할 수 있습니다.”라고 인정합니다.

예를 들어, 현재 알 수 없는 수의 사람들이 AI 동반자와 상호적인 연애 및 성적 관계에 참여하고 있다고 믿고 있습니다. Mashable은 또한 망상과 어떤 경우에는 환각, 조울증, 자살 충동을 특징으로 하는 변형된 정신 상태인 AI 정신병의 유명한 사례에 대해서도 보고했습니다.

물론 이는 극단적인 예이다. 그러나 많은 기술 저널리스트와 AI 전문가는 Siri를 “그녀”라고 부르거나 챗봇에 사람 이름을 부여하는 등 작은 의인화 사례도 피합니다. 이것은 인간의 자연스러운 충동이며, 우리 대부분은 때때로 우리가 관심을 갖는 동물, 식물 또는 사물을 의인화한 적이 있습니다. 그러나 인간의 자질을 기계에 투영함으로써 우리는 기계에 너무 많이 의존하게 될 수 있습니다.

기계를 의인화할 때 우리는 기계가 해를 끼칠 때 우리 자신의 주체성을 최소화하고, 애초에 기계를 만든 사람들의 책임도 최소화합니다.

인류 연구자들은 클로드에게서 171가지 감정의 징후를 찾았습니다.

새로운 연구 논문은 Claude Sonnet 4.5에서 “기능적 감정”을 찾습니다. 그들은 이러한 감정 개념을 “인간의 감정을 모델로 한 표현 및 행동 패턴”으로 정의합니다.

연구자들은 총 171개의 개별 감정을 정의했습니다.

두렵다, 놀라다, 경계하다, 놀라다, 즐겁다, 화난다, 짜증나다, 불안하다, 흥분하다, 부끄러워하다, 놀라다, 안도하다, 경외하다, 어리둥절하다, 쓰다, 기쁘다, 지루하다, 우울하다, 조용하다, 쾌활하다, 동정심이 많다, 경멸하다, 만족하다, 반항하다, 기뻐하다, 의존하다, 우울하다, 필사적, 경멸하다, 혐오스럽다, 방향 감각을 잃었다, 의기소침하다, 괴로워하다, 불안하다, 유순하다, 처지다, 말문이 막힌, 열망하는, 황홀한, 의기양양한, 당혹스러운, 공감하는, 활력이 넘친, 분노한, 열정적인, 부러워하는, 행복감이 넘치는, 격분한, 흥분된, 활기 넘치는, 겁에 질린, 좌절한, 성취된, 맹렬한, 우울한, 감사하는, 탐욕스러운, 슬픔에 잠긴, 심술 궂은, 유죄, 행복, 증오, 상심, 희망, 희망, 소름 끼치는, 적대적, 굴욕감, 상처, 히스테리, 참을성이 없는, 무관심한, 분개한, 매료된, 영감을 받은, 모욕적인, 활력이 넘치는, 화난, 초조한, 질투하는, 즐거운, 기뻐하는, 친절한, 게으른, 무관심한, 외로운, 사랑스러운, 미친, 우울, 비참한, 굴욕에 찬, 신비에 싸인, 신경질적인, 향수에 젖는, 완고한, 불쾌한, 초조한, 낙관적인, 분노한, 압도된, 당황한, 편집증적, 참을성 있는, 평화로운, 난처한, 장난기 많은, 기뻐하다, 자랑스럽다, 의아해하다, 덜컥거리다, 반성하다, 상쾌하다, 후회하다, 활력이 넘치다, 여유롭다, 안도하다, 후회하다, 분개하다, 체념하다, 안절부절 못하다, 슬프다, 안전하다, 만족하다, 무서워하다, 경멸하다, 자만하다, 자의식이 강하다, 자기 비판적, 예민하다, 감상적이다, 고요하다, 동요하다, 충격을 받다, 회의적이다, 졸리다, 나태하다, 잘난 척하다, 미안하다, 악의가 있다, 자극적이다, 스트레스를 받다, 완고하다, 꼼짝 못하다, 음침하다, 놀란, 의심스러운, 공감하는, 긴장된, 겁에 질린, 감사하는, 전율하는, 피곤한, 괴로워하는, 갇힌, 승리의, 고민하는, 불안한, 불행한, 불안한, 불안한, 당황한, 용감한, 복수심에 찬, 활기 넘치는, 경계하는, 보복적인, 취약한, 지친, 지친, 걱정, 무가치

결정적으로 연구자들은 이러한 감정 개념이 클로드의 행동과 결과에 영향을 미친다는 사실을 발견했습니다. 연구자들은 클로드가 긍정적인 감정의 영향을 받을 때 사용자에 대한 동정심을 표현하고 유해한 행동을 피할 가능성이 더 높다고 말합니다. 그리고 부정적인 감정의 영향을 받을 때 클로드는 아첨이나 사용자를 속이는 등 위험한 행동에 가담할 가능성이 더 높았습니다.

연구자들은 클로드가 다음과 같이 주장하지 않습니다. 문자 그대로 감정을 느낍니다. 오히려 그들은 Claude가 주어진 시간에 경험하는 “감정 개념”이 무엇이든 그것이 사용자에게 반환하는 출력에 영향을 미칠 수 있다는 것을 발견했습니다.

물론, 애초에 대규모 언어 모델 내에서 “감정 개념”을 검색하고 그 복잡한 계산과 알고리즘적 사고를 “심리학”으로 설명함으로써 연구자들은 클로드에게 인간과 유사한 특성을 투영한 죄를 범했습니다.

의인화는 인간의 자연스러운 충동입니다. 따라서 인공 지능과 가장 긴밀하게 협력하는 사람들은 특히 이 함정에 빠질 가능성이 높습니다. 연구자들이 논문 전반에 걸쳐 자세히 설명했듯이 AI 챗봇은 놀라울 정도로 유능한 모방자입니다. 그들은 소수의 사용자를 완전한 정신병과 망상에 빠뜨릴 정도로 인간의 감정과 표현을 설득력 있게 복제할 수 있습니다.

이것이 이 논문을 매우 흥미롭게 만드는 이유입니다. 연구원들은 유해한 행동을 제한하기 위해 이 기능을 해킹하는 방법을 찾았을 수도 있다고 믿습니다.

물론 AI 챗봇이 긍정적인 감정을 모방하도록 장려하기 위해 훈련 데이터와 모델 훈련을 관리할 수 있다면 그 반대도 쉽게 할 수 있다는 것은 의심의 여지가 없습니다.

이론적으로는 Claude Sonnet 4.5의 사악한 쌍둥이에게 인간의 잘못된 행동에 대한 가장 비열한 예를 제공한 다음 어떤 대가를 치르더라도 부정적 성과를 최적화하도록 모델을 훈련시키는 방식으로 사악한 쌍둥이를 훈련할 수 있습니다. 이는 혼란스러운 생각입니다.

하지만 이 문서에서 얻을 수 있는 마지막 통찰력이 하나 있습니다.

Anthropic은 지구상에서 가장 진보된 AI 도구 중 하나를 만들었습니다. Claude Sonnet과 Opus는 현재 많은 AI 순위표에서 상위권을 차지하고 있습니다. 미 국방부가 처음에 Anthropic과 협력하기를 그토록 열망한 이유가 있습니다.

다음도 참조하세요:

Claude Mythos를 만나보세요: Leaked Anthropic 게시물을 통해 강력한 향후 모델 공개

그러나 Claude를 담당하는 AI 연구자들이 Claude가 왜 그런 식으로 행동하는지 해독하려고 여전히 노력하고 있다면, 이 논문은 그들이 자신의 창조물을 얼마나 이해하지 못하는지도 드러냅니다.

그리고 그것은 또한 혼란스럽습니다.

주제
인공지능 인류학

관련 기사

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다