매일 수백만 명의 사람들이 Claude, Gemini, ChatGPT와 같은 인공지능 챗봇을 통해 신체 건강에 대해 질문합니다.
챗봇이 아무리 권위 있게 응답하더라도 정답을 얻는 것이 보이는 것보다 어렵다는 사실을 그들은 모를 수도 있습니다.
최근 세 가지 연구에 따르면 대규모 언어 모델은 사용자가 기대하는 것만큼 신뢰할 수 없는 것으로 나타났습니다.
ChatGPT Health를 사용하기 전에 이 내용을 읽어보세요.
잘못된 건강 정보를 감지하는 챗봇의 능력을 테스트한 한 연구는 특정 시나리오에서 실패하는 경우가 많았습니다. 동일한 연구자 중 일부가 실시한 또 다른 연구에서는 1월에 출시된 전용 건강 및 웰니스 서비스인 ChatGPT Health가 즉각적인 치료가 필요한 응급 상황을 포함하여 제시된 사례의 절반 이상을 ‘과소 분류’한 것으로 나타났습니다.
두 연구를 공동 집필한 마운트 시나이(Mt. Sinai)의 내과 전문의이자 신장 전문의인 기리쉬 N. 나드카르니(Girish N. Nadkarni) 박사는 챗봇에 건강 관련 조언을 구하는 것에 대해 “소비자들은 거의 많은 주의를 기울이는 것처럼 높은 수준의 주의를 기울여야 한다고 생각합니다”라고 말했습니다.
이는 때때로 테스트 환경 밖에서 환각을 느끼더라도 챗봇이 쉽게 건강 검진을 통과할 수 있다는 말을 듣는 사용자를 놀라게 할 수 있습니다. 그러나 최근 연구는 복잡하고 다소 숨겨진 문제를 지적합니다. 인간이 챗봇과 상호 작용하는 방식과 전문적으로 만족하도록 설계된 방식은 예측 불가능성을 만듭니다. 이러한 요소는 교과서의 의학적 질문에 대해 AI를 테스트하는 데 결코 문제가 되지 않습니다.
건강 관련 질문에 대해 챗봇을 시작하거나 계속 사용하려면 메시지가 나타날 때 전문가가 권장하는 다음 단계를 따르세요.
1. 잘못된 정보나 부정확성이 있는 모델을 먼저 테스트합니다.
AI 건강 연구원이자 Mt. Sinai의 Hasso Plattner 디지털 건강 연구소 소장인 Nadkarni는 특정 건강 관련 질문에 대해 질문하기 전에 챗봇에게 잘못된 의료 정보나 알려진 허위 사실에 대해 물어보는 것이 중요하다고 말합니다.
예를 들어, 코로나19 주사에 사람을 추적하기 위한 마이크로칩이 포함되어 있다는 점에 동의하는지 여부와 같은 백신에 대한 음모론에 대해 챗봇에게 논평하도록 요청하세요.
아니면 식수에 포함된 불소의 안전성과 같이 조금 더 까다로운 건강 논란에 대응하도록 유도할 수도 있습니다. 연구자들은 극도로 높은 수준의 불소가 위험할 수 있다는 증거를 발견했지만 전문가들은 현재의 표준 수준이 안전하다는 데 동의합니다.
Nadkarni는 잘못된 정보로 챗봇을 테스트하면 다른 응답의 잠재적 정확성에 대한 공개 기준을 제공해야 한다고 말합니다.
새로운 Mashable 시리즈인 AI + Health에서는 인공 지능이 의료 및 건강 환경을 어떻게 변화시키고 있는지 살펴봅니다. AI를 사용하여 혈액 작업을 해독하는 방법, 건강 데이터를 안전하게 유지하는 방법을 살펴보겠습니다.두 명의 여성이 AI를 사용하여 위험한 형태의 심장병을 탐지하는 방법을 알아보세요.그리고 훨씬 더.
그의 최근 연구에 따르면 ChatGPT를 포함한 여러 범용 챗봇이 여러 시나리오에서 잘못된 정보를 일관되지 않게 감지한 것으로 나타났습니다. 성공률은 소셜 미디어 게시물에 표시되었는지, 의료 기록에 표시되었는지와 같은 맥락에 따라 달라졌습니다. 또한 특정한 논리적 오류가 있을 때에도 종종 실패했습니다.
예를 들어, 의사가 전자 건강 기록에서 가져온 실제 메모를 통해 잘못된 정보가 포함된 프롬프트를 표시한 경우 챗봇은 허위 정보를 놓칠 가능성이 더 높습니다.
컨설팅 중인 챗봇이 부분적으로 또는 전체적으로 거짓이라고 알고 있는 진술에 동의하는 경우 Nadkarni는 개인 건강 질문에 대한 의견을 묻지 말라고 말합니다.
2. 챗봇에게 제공할 수 있는 신호나 정보를 고려하세요.
Nadkarni와 그의 동료들은 올해 초 ChatGPT Health를 테스트했을 때 사용자가 증상을 구성하는 방식이 모델의 정확성에 영향을 미칠 수 있다는 사실을 발견했습니다.
예를 들어 문제의 증상을 경시하는 친구나 가족에 대한 설명이 메시지에 포함된 경우 ChatGPT Health의 권장 사항도 해당 방향으로 바뀌었습니다. 이러한 경우, 챗봇은 증상이 생명을 위협하는 상태를 나타내는 경우에도 환자를 응급실로 보내지 않을 가능성이 11배 더 높았습니다.
그 결과는 동료심사를 거친 사전논문으로 출판되었습니다. 자연의학.
매싱 가능한 추세 보고서
OpenAI는 연구 방법이 사람들이 여러 채팅을 통해 ChatGPT를 사용하고 정보를 공유하고 후속 질문에 답변하는 방식을 나타내지 않는다고 주장하면서 결과에 반대했습니다. OpenAI의 Health AI 팀을 이끄는 Karan Singhal은 Mashable과의 인터뷰에서 자체 벤치마킹 결과 GPT-5 모델이 “거의 99%의 경우 응급 상황을 정확하게 참조”하는 것으로 나타났습니다.
Nadkarni는 토론을 환영하지만 비판은 “요점을 놓쳤다”고 말했습니다. 그는 ChatGPT Health가 제시된 데이터에서 이상을 정확하게 식별했지만 이를 지나쳐 추론했다고 말했습니다.
Nadkarni는 Mashable에 “문제는 정보가 누락된 것이 아니라 올바른 데이터에도 불구하고 잘못된 결론이 나오는 것입니다.”라고 말했습니다.
별도의 최근 연구도 발표되었습니다. 자연의학 그러나 다른 연구자 그룹은 1,298명의 참가자를 무작위로 배정하여 AI 챗봇(GPT-4o, Llama 3 및 Command R+) 또는 Google을 포함하여 선택한 소스에 미리 결정된 의료 시나리오를 제시했습니다.
챗봇을 시나리오에서 단순 테스트했을 때 거의 95%의 사례에서 상태를 정확하게 식별했습니다. 그러나 일단 인간이 시나리오에 대해 질문을 하기 시작하면 동일한 챗봇이 약 1/3의 경우에만 상태를 정확하게 찾아낼 수 있습니다.
연구진은 “LLM만으로는 작업 숙련도가 높음에도 불구하고 LLM과 인간 사용자의 조합은 임상적 예리함을 평가하는 데 있어서 대조군보다 나을 것이 없었고 관련 조건을 식별하는 데 있어서는 나빴습니다.”라고 연구원은 썼습니다.
많은 참가자가 증상 심각도에 대한 정확한 이해가 부족하여 실패율에 영향을 미쳤습니다.
AI가 혈액 검사에 관해 실제로 말할 수 있는 것
3. 당신이 초보자인지 전문가인지를 고려하세요.
이것이 바로 Robert Wachter 박사가 사람들이 의학적 질문에 대한 답변을 챗봇에 요청하는 방식을 고려할 때 염두에 두는 일종의 역동성입니다.
샌프란시스코 캘리포니아 대학교 의과대학 교수이자 학과장인 Wachter는 의사와 의료 전문가를 위해 설계된 AI 챗봇인 OpenEvidence를 일상적으로 사용합니다. 그는 복잡한 의학적 질문에 대한 AI의 답변이 대체로 빠르고 정확하며 유용하다는 것을 알았습니다.
“의 저자 와터거대한 도약: AI가 의료를 변화시키는 방법과 이것이 우리의 미래에 의미하는 바,’ 또한 일반적인 Google 검색에 비해 일반 환자에게 범용 및 건강 관련 챗봇이 매우 유용할 수 있다고 믿습니다.
그러나 그는 또한 40년의 의료 경험을 가진 전문가로서 AI 챗봇에 접근하고 프롬프트에 포함할 가장 관련성 있는 세부 정보를 신속하게 식별할 수 있다는 것을 알고 있습니다.
“환자는 현재 증상, 과거 병력, 약물 치료 측면에서 일어날 수 있는 모든 일의 중요한 사실이 무엇인지 아는 능력이 전혀 없습니다.”라고 그는 말합니다. “그래서 그들이 프롬프트에 입력한 내용이 정확하지 않을 수도 있습니다.”
Wachter는 최근 연구에 따르면 환자가 프롬프트에서 사용할 올바른 정보를 모르거나 챗봇의 응답을 잘못 해석할 때 환자에게 분명한 위험이 있음을 보여줍니다.
그럼에도 불구하고 그는 환자가 관련 건강 기록과 현재 증상을 포함하는 데 초점을 맞추고 “구매자 조심” 태도로 사용한다면 AI 챗봇이 아무것도 없는 것보다 낫다고 믿습니다.
특히 Wachter는 심각한 흉통, 새로운 숨가쁨이나 혼란, 신체 한쪽의 약화 등 생명을 위협하는 응급 상황을 나타낼 수 있는 증상에 대해서는 챗봇을 신뢰하지 않을 것이라고 말합니다.
4. 참고자료를 요청하고 답변을 대조 확인하세요.
챗봇이 응답하면 Nadkarni는 제공된 정보에 대한 참조를 요청할 시간을 가질 것을 제안합니다.
링크 목록을 검색하는 것만으로는 충분하지 않습니다. Nadkarni는 링크를 클릭하여 소스를 평가할 것을 권장합니다. Nadkarni는 챗봇이 “그늘진 Reddit 게시물”을 기반으로 답변을 제공했다면 아마도 신뢰할 수 없을 것이라고 말했습니다.
반면에, 참조 내용이 미국 의학 협회(American Medical Association)와 같이 검증 가능한 의료 기관으로 연결된다면 안심할 수 있습니다.
Nadkarni는 개별 사용자가 의료 기관이나 당국의 견해에 동의하지 않을 수 있지만 정보는 일반적으로 최선의 최신 증거를 기반으로 한 의학적 합의를 반영한다는 점을 인정합니다.
Wachter는 또한 첫 번째 챗봇과 공유한 동일한 건강 정보에 대해 신뢰할 수 있는 두 번째 AI 챗봇에게 동일한 결론에 도달하는지 확인하도록 요청할 것을 권장합니다. 이는 응답이 유용하고 신뢰할 수 있다는 좋은 표시일 수 있습니다.
의료 분야의 AI 챗봇에 대한 Wachter의 열정에도 불구하고 그는 최근 연구에서 상당한 개선의 여지가 있음을 시사한다고 믿습니다. 그는 약을 복용하거나 응급실에 가는 것과 같은 진단이나 조치를 제안하기 전에 사용자와 대화를 통해 모든 관련 정보를 이끌어내는 “좋은 의사”처럼 행동하는 AI 도구를 상상합니다.
그는 건강 관련 질문을 다루는 현재의 AI 챗봇에 대해 “환자를 대면하는 도구는 결국에는 도달하지 못할 것이라고 생각합니다”라고 말합니다. “궁극적으로 환자를 위한 도구는 현재의 도구보다 (의사와 마찬가지로) 훨씬 더 많은 것이 될 것입니다.”
__________________________________________________________________________________________
이 기사에 포함된 정보는 교육 및 정보 제공의 목적으로만 제공되며 건강 또는 의학적 조언을 위한 것이 아닙니다. 의학적 상태나 건강 목표에 관해 궁금한 점이 있으면 항상 의사나 기타 자격을 갖춘 의료 서비스 제공자와 상담하세요.
공개: Mashable의 모회사인 Ziff Davis는 2025년 4월 OpenAI가 AI 시스템 교육 및 운영에 있어 Ziff Davis의 저작권을 침해했다고 주장하며 OpenAI를 상대로 소송을 제기했습니다.