챗지피티·제미나이가 ‘의료 AI’보다 질환 잘 본다? 개발자들 견해는…

[헬스테크]

이미지
사진=연합뉴스
수많은 기업이 인공지능(AI) 개발에 열을 올리고 있다. 개발부터 제품화 그리고 상용화에 이르기까지 소모되는 시간과 돈이 막대하기에, 성능 경쟁에 치열할 수밖에 없다.

의료 영역에서도 다양한 AI가 개발되고 있다. 그러나 이렇듯 특정 영역에 특화된 AI들은 한 번쯤 챗지피티(ChatGPT)나 제미나이(Gemini)같은 대규모언어모델(LLM)과 성능 비교를 당한다. 범용 LLM의 사용 비용이 의료 AI보다 훨씬 저렴하다 보니, 성능 경쟁에서 뒤지는 이상 시장에서 밀려날 것이라는 세간의 우려도 있다. 산업계에서는 이러한 경쟁 구도를 어떻게 바라보고 있을까? 

◇범용 LLM과 의료 특화 AI, 비슷한 수준으로 활용돼
범용성이 큰 제미나이나 챗지피티 같은 대규모언어모델(LLM)과 달리, 의료·금융·법률 등 특정 분야에 특화된 AI를 버티컬 AI라고 한다. LLM은 광범위한 데이터를 학습하지만, 버티컬 AI는 특정 산업·분야의 고유 전문 지식과 심층 정보를 학습한다. 자기공명영상(MRI) 등 의료 영상을 다량 학습함으로써 병변을 탐지하고 의사의 진단을 보조하는 의료 AI가 버티컬 AI의 대표적인 예다. 범용 LLM은 다양한 용도로 활용될 수 있지만, 의료·법률·금융 등 전문 영역에서는 정밀한 정보 제공이 어렵다는 것이 통상적인 인식이다. 

의료 AI의 경우, ▲의사와 환자의 대화를 AI가 실시간으로 분석해 요약해 주는 AI 소프트웨어 ▲영상 검사 이미지나 생체 신호 데이터를 분석해 의사의 질병 진단을 보조하는 AI 소프트웨어 ▲신약 후보 물질을 설계하는 AI 플랫폼 등이 주축을 이루고 있다. 의사들은 의료 AI와 범용 AI를 비슷한 수준으로 사용되고 있는 것으로 보인다. 한국보건산업진흥원과 대한의사협회가 지난해 의사 2125명을 대상으로 의료 AI 활용 실태를 조사한 결과, 응답자의 47.7%가 의료 AI를, 51.5%가 범용 AI를 활용한 경험이 있는 것으로 나타났다. 의료 AI를 사용해본 의사들의 83.3%(복수응답 가능)는 ‘영상 판독 AI’, 56.8%는 ‘생체 신호 분석 AI’, 54.9%는 ‘텍스트 기반 지원 AI’를 사용한 것으로 확인됐다. 주된 활용 목적으로는 진단(68.0%, 복수응답 가능)과 선별(51.2%)이 꼽혔다.

◇진단 성능 차이는? “의료 AI가 더 뛰어나”
챗지피티나 제미나이의 경우, 구독료가 의료 AI보다 저렴해 접근성이 뛰어난 편이다. 그리고 범용 AI인 만큼 영상 검사 이미지나 생체 신호 데이터를 올린 후 의심되는 질환의 종류와 실제 질환을 진단받을 가능성을 물어볼 수도 있다. 일각에서는 “챗지피티·제미나이가 의료 AI보다 질환 진단을 더 잘 하는 것 같다”는 이용 후기도 들려온다.

그러나 둘의 진단 성능을 비교한 논문들의 대답은 반대다. 2025년 학술지 ‘영상의학(Radiology)’에 게재된 논문에 따르면, 영상 검사 데이터를 학습시킨 의료 AI가 챗지피티의 이미지 분석 기능인 지피티-4V보다 진단 성능이 유의미하게 높은 것으로 나타났다. 영상의학과 전문의 4명이 의료 AI와 지피티-4V의 보고서를 검토해 ‘수정 없이 자신의 판독 보고서로 승인할 수 있는지’를 평가했더니, 의료 AI가 내놓은 결과 보고서의 수용률은 70.5%인 반면 GPT-4V 보고서의 수용률은 29.6%였다. 실제 진단 보고서와의 일치율도 의료 AI가 유의미하게 높았다. 2025년 ‘의학 인터넷 연구 저널(JMIR)’에 게재된 논문에 따르면 지피티-4, 제미나이 2.5 프로, 심전도 판독 의료 AI인 ECG 버디의 진단 성능을 비교한 결과 정확도는 각각 65.95%, 29.63%, 96.98%로 나타났다.

의료 AI 업계에서는 제도권 진입 측면에서도 의료 AI가 범용 AI보다 유리하다고 본다. 이미 의료기기로 허가받은 선례가 누적된 의료 AI와 달리, 범용 AI는 아직 허가 사례가 없다. 흉부 엑스레이 판독 AI 개발사 뷰노의 주성훈 최고기술책임자(CTO)는 “의료 특화 AI는 의료기기로 허가받은 이력이 충분히 쌓여, 규제 기관과 개발사 사이에 임상적 유효성을 어떻게 입증하고 평가할지에 대한 방법론이 어느 정도 확립됐다”며 “범용 LLM은 아직 의료기기로 허가받은 사례가 없고 평가의 틀 자체가 마련돼 있지 않아 의료기기로서의 진입 장벽이 높다”고 말했다. ECG 버디를 개발한 분당서울대병원 응급의학과 김중희 교수는 “의료 특화 AI는 검증된 데이터로 특정 과제를 직접 학습하기 때문에 정량적이고 재현 가능한 결과를 낸다”며 “반면 범용 LLM은 범위가 넓고 대화가 자유롭지만, 진단 정확도, 재현성, 허가 측면에서는 아직 의료기기 수준에 이르지 못했다”고 말했다.

◇LLM 지휘 하에 다양한 의료 AI 사용하게 될 것
범용 AI의 진단 성능이 의료 AI에 뒤지지 않는다거나 오히려 더 뛰어나다는 말은 왜 들리는 것일까. 주성훈 CTO는 “소수 사례에 대한 주관적 경험일 뿐이다”고 했다. 이어 그는 “범용 AI의 진단 성능이 더 뛰어나다고 개별 사용자의 인상에 남은 몇몇 사례가 있을 수 있지만, 진단 난도가 높은 사례에서는 오히려 범용 LLM의 성능이 떨어진다”며 “쉬운 사례에서 그럴듯한 답을 내는 것과, 임상적으로 어려운 사례를 정확히 판독하는 것은 전혀 다른 문제다”고 말했다. 정확한 성능 평가는 순간의 인상보다 ‘다수의 데이터를 이용한 정량 평가’로 이뤄져야 한다는 지적도 있었다. 김중희 교수는 “충분한 수의 실제 심전도 데이터로 직접 평가(18일 기준)해보면, 가장 최신의 범용 AI 모델조차 아직 기계판독 수준에도 미치지 못한다”고 했다.

의사들의 접근성 측면에서 범용 AI가 의료 AI보다 유리한 것은 사실이다. 그러나 김중희 교수는 “범용 LLM을 진단 영역에서의 직접적인 경쟁자로 인식하지는 않는다”고 했다. 오히려 ‘업무 분장’이 이뤄지는 방향으로 발전할 것이라는 견해가 있었다. 주성훈 CTO는 “범용 LLM이 중앙 제어 소프트웨어 역할을 맡고서, 진단·판독 같은 작업을 수행하는 다양한 의료 특화 AI를 필요에 맞게 호출하고 불러 쓰는 구조가 될 것이다”고 했다.