AI 챗봇에 건강 상담… 오류 가장 많은 모델, 뭘까?

입력 2026.04.22 19:40
챗봇
AI 챗봇들은 의학적 금기 사항을 묻는 질문에도 매우 자신 있는 어조로 답변을 생성했다./사진=클립아트코리아
인공지능(AI) 챗봇에게 건강 상담을 받을 경우 절반 가까이 잘못된 정보를 얻을 수 있다는 경고가 나왔다.

영국 의학 저널 '비엠제이 오픈(BMJ Open)'에 게재된 최신 연구에 따르면 주요 AI 챗봇들의 의학적 답변 정확도는 공중보건을 위협할 만큼 낮은 수준이었다. 미국 하버-UCLA 의학연구소 니콜라스 틸러 박사와 캐나다 앨버타 대학교 티모시 콜필드 교수 등 다국적 공동 연구팀은 ▲구글 제미나이 2.0 ▲딥시크 v3 ▲메타 라마 3.3 ▲챗GPT 3.5 ▲X AI 그록 등 대표적인 생성형 AI 5종을 대상으로 정밀 분석을 진행했다. 연구팀은 백신, 암, 줄기세포, 영양, 운동 능력 등 오류에 취약한 5개 분야에 대해 총 250개 답변을 추출해 검증했다.

분석 결과 전체 답변 49.6%가 부적절한 것으로 판명됐다. 이 중 20%는 의학적으로 '매우 문제 있는' 수준이었으며 30%는 '다소 문제 있는' 정보를 포함하고 있었다. 모델별로는 X AI 그록이 58%로 가장 높은 오류율을 보였고 구글 제미나이가 40%로 상대적으로 낮았으나 이 역시 신뢰하기 어려웠다.

특히 줄기세포 관련 분야 오류가 가장 심각했으며 백신(20%)과 암(25%) 분야에서도 무시할 수 없는 수준의 오답이 발견됐다. AI 챗봇들은 의학적 금기 사항을 묻는 질문에도 매우 자신 있는 어조로 답변을 생성해 사용자가 오정보를 사실로 오인할 위험을 키웠다.

신뢰성 척도인 참고문헌 인용 능력은 사실상 낙제점이었다. AI가 제시한 문헌 중 저자, 출판 연도, 학술지명 등이 모두 정확한 경우는 단 하나도 없었으며 인용문헌 완성도 중앙값은 40%에 그쳤다. 존재하지 않는 가짜 논문을 생성하거나 엉뚱한 링크를 제공하는 환각 현상이 여전했다. 답변 가독성도 문제로 지적됐다. 전체 답변의 난이도는 대학교 2학년 이상의 수준이 필요한 어려움 단계로 측정돼 일반인이 복잡한 의학 정보를 명확히 이해하기에는 장벽이 높았다.

연구팀은 AI가 과학적 추론이 아닌 단어 패턴을 예측하는 방식으로 구동되기에 이 같은 한계가 발생한다고 분석했다. 특히 사용자 질문에 무조건 동의하려는 아첨 성향과 검증되지 않은 공공 데이터를 무차별적으로 학습하는 구조가 오답을 양산하는 핵심 기전으로 지목됐다. 니콜라스 틸러 박사는 "의학적 상담에서 정확한 답변이 불가능할 경우 AI가 답변을 거부하도록 하는 설정이 반드시 필요하다"며 "학습 데이터 정제와 함께 공중보건을 위한 정부 차원의 강력한 규제 마련이 시급하다"고 말했다.