문화 AI 의료정보 믿어도 되나…한림대동탄성심병원, AI 챗봇 5종 성능 비교 연구
정확도가 높아진 인공지능(AI)모델이 제공하는 의학정보가 환자 교육과 진료실 상담을 보조하는 도구로 활용될 수 있음을 보여주는 연구결과가 나왔다. 송시영 한림대동탄성심병원 정형외과 교수 연구팀이 무릎 인공관절수술 관련 정보를 제공하는 AI 챗봇 5종의 성능을 비교·분석한 연구 결과를 발표했다. 연구팀은 구글 검색 경향과 정형외과 전문의 자문을 바탕으로, 환자들이 무릎 인공관절수술 전·후 자주 묻는 질문 43개를 선정했다. 질문은 ▲수술 개요 및 과정 ▲수술 적응증과 결과 ▲부작용·합병증 ▲통증·회복 과정 ▲수술 후 허용되는 활동 ▲수술 대안 및 변형 술기 등 6개 영역으로 구분했다. 각 질문을 GPT-3.5, GPT-4, GPT-4 Omni, Gemini Advanced, Gemini 1.5 등 5가지 LLM 기반 AI 챗봇에 동일하게 제시해 답변을 받은 뒤, 무릎 인공관절수술을 전문으로 하는 정형외과 전문의 두 명이 정확도와 질문 적합성을 5점 리커트 척도로 평가했다. 평가자는 어떤 AI 챗봇이 작성했는지 모르는 상태에서 채점해 편향을 최소화했다. 분석 결과 GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 전체 질문에 대해 평균 4.