온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀에 대한 자주 묻는 질문 1

자세한 내용은 본문을 참조하세요.

온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀에 대한 자주 묻는 질문 2

자세한 내용은 본문을 참조하세요.

온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀에 대한 자주 묻는 질문 3

자세한 내용은 본문을 참조하세요.

섹션 1 온타리오가 의료 제공자용으로 승인한 AI Scribe 시스템 20개에서 핵심 정보 누락, 오정보 삽…

Q: 온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀에 대한 자주 묻는 질문 1

자세한 내용은 본문을 참조하세요.

Q: 온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀에 대한 자주 묻는 질문 2

자세한 내용은 본문을 참조하세요.

Q: 온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀에 대한 자주 묻는 질문 3

자세한 내용은 본문을 참조하세요.

핵심 요약

온타리오가 의료 제공자용으로 승인한 AI Scribe 시스템 20개에서 핵심 정보 누락, 오정보 삽입, 발화되지 않은 내용 생성이 확인됨조달 평가는 모의 의사-환자 녹음과 AI 생성 진료 메모를 의료 전문가가 대조하는 방식이었고, 9개 시스템은 치료 계획 제안까지 조작함12개 시스템은… 온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀 (theregister.com)1P by GN⁺ 15일전 | ★ favorite | 댓글 1개 온타리오가 의료 제공자용으로 승인한 AI Scribe 시스템 20개에서 핵심 정보 누락, 오정보 삽입, 발화되지 않은 내용 생성이 확인됨 조달 평가는 모의 의사-환자 녹음과 AI 생성 진료 메모를 의료 전문가가 대조하는 방식이었고, 9개 시스템은 치료 계획 제안까지 조작함 12개 시스템은 잘못된 약물 정보를 넣었고, 17개 시스템은 녹음에 나온 환자의 정신건강 핵심 세부사항을 놓침 OntarioMD는 의사에게 AI 메모를 수동 검토하라고 권고했지만, 승인 시스템 중 정확성 확인 필수 기능을 갖춘 것은 없었음 평가 점수에서 국내 거점 보유가 30%였던 반면 의료 메모 정확도는 4%, 편향 통제와 위험·개인정보 평가는 각각 2%에 그침 감사 보고서와 평가 방식 Canada의 Office of the Auditor General of Ontario가 낸 공공서비스 AI 사용 현황 관련 보고서에 Ontario Ministry of Health의 AI Scribe 프로그램 평가가 포함됨 이 프로그램은 의사, 전문간호사, 기타 의료 전문가를 대상으로 한 AI 노트 작성 도구 조달을 다룸 조달 과정에서는 모의 의사-환자 녹음을 사용했고, 의료 전문가들이 원본 녹음과 AI 생성 진료 메모를 대조해 정확도를 판단함 20개 시스템 중 9개는 녹음에서 다뤄지지 않은 내용을 조작하고 환자 치료 계획 제안을 생성함 샘플 보고서에는 “종괴가 발견되지 않았다”거나 “환자가 불안해했다”는 식의 잠재적으로 심각한 오정보가 들어갔지만, 이런 내용은 녹음에서 논의되지 않았음 20개 시스템 중 12개는 환자 메모에 잘못된 약물 정보를 넣음 20개 시스템 중 17개는 녹음에서 다뤄진 환자의 정신건강 관련 핵심 세부사항을 놓침 6개 시스템은 환자의 정신건강 문제를 전체 또는 일부 누락하거나 핵심 세부사항을 빠뜨림 수동 검토와 안전장치 의사의 신기술 도입을 지원하고 AI Scribe 조달 과정에 관여한 OntarioMD는 의사들이 AI가 만든 메모의 정확성을 수동으로 검토하라고 권고함 감사 보고서에 따르면 승인된 AI Scribe 시스템 중 어느 것도 의사가 정확성을 확인했다는 필수 확인 기능을 갖추지 않음 낮은 성능의 상당 부분은 평가 가중치 문제와 연결됨 플랫폼 평가 점수의 30%는 Ontario 내 국내 거점 보유 여부에 배정됐고, 의료 메모의 정확도는 전체 점수의 4%만 차지함 편향 통제는 전체 평가 점수의 2%였고, 위협·위험·개인정보 평가는 2%, SOC 2 Type 2 준수는 4%를 차지함 이런 가중치는 부정확하거나 편향된 의료 기록을 만들 수 있거나, 민감한 개인 건강 정보를 보호할 충분한 장치를 갖추지 못한 벤더를 선정하는 결과로 이어질 수 있음 Ontario 보건부 대응 The Register는 Ontario Health Ministry에 보고서에 대한 입장과 AI Scribe 프로그램 권고사항을 따를 계획이 있는지 문의했지만 즉각적인 답변을 받지 못함 보건부 대변인은 수요일 CBC에 Ontario에서 5,000명 이상의 의사가 AI Scribe 프로그램에 참여하고 있으며, 해당 기술과 관련된 환자 피해 보고는 알려진 바 없다고 밝힘 함께 보면 좋은 글 온타리오 가정의, AI 노트 작성 기술로 직업 유지 AI 시스템 평가 방식의 약점을 밝힌 연구 2026 Bio-AI 오픈소스 감사 보고서: 10개를 점검해보니, "대부분은 돌아가지만 믿기 어려웠다." AI 에이전트 기반 투자 자동화의 현재와 미래 - AI 에이전트야, 월급 줄게 경제적 자유 다오? AI 탐지기 효과 있나? 학생들, 부당한 부정행위 혐의 직면 인증 이메일 클릭후 다시 체크박스를 눌러주세요 ▲GN⁺ 15일전 [-]Hacker News 의견들 현재 AI 기술의 미래에 대해 대체로 비관에서 낙관으로 바뀌었지만, 모델이 크게 발전하는 와중에도 기본 사실 오류가 계속 남아 있는 점은 여전히 크게 걸림 Claude Opus로 취향과 풍미에 맞춰 레시피를 만들면 마법 같다가도, 큰술과 작은술 변환 같은 기본 단위 계산을 틀리는 순간 확 식음 거의 제대로 행동하던 영화 속 인물이 어딘가 이상하더니 좀비였다는 식의 느낌이고, 이 노트 작성 사례도 인상적으로 거의 작동하다가 중요한 세부사항에서 실패함 이런 실패를 보면 현세대 AI가 잘 관리하면 멋진 일을 할 수는 있어도, 진짜 지능으로 가는 올바른 경로 위에 있는지는 점점 더 의심됨 맞는 말임.

구체적 내용

업계가 잘 이야기하지 않는 능력-신뢰성 격차가 있음 AI 업계는 능력과 신뢰성이 근본적으로 다른 성질이라는 사실을 계속 얼버무리는 듯함. “정확하다”와 “신뢰할 수 있다”를 흔히 같은 뜻으로 쓰지만, 모델이 벤치마크를 잘 통과해도 실제 운영 환경에서는 위험 요소가 될 수 있음 METR의 최신 결과도 능력 향상에는 반응이 크지만, 그 측정이 50% 성공률 기준이라는 점은 덜 이야기됨. 80% 성공률 기준의 보조 지표는 작업 시간 범위가 훨씬 짧아짐: https://metr.org/ 기업용 AI 시스템을 구현하지만, 80% 신뢰성은커녕 50% 신뢰성을 받아들일 기업은 본 적이 없음 LLM이 범용 인공지능으로 가는 맞는 길인지 회의적이었지만, 사용 방식 확장, LLM용 하네스, 더 나은 문맥 설계를 통해 얼마나 더 밀고 갈 수 있는지 보며 계속 놀라게 됨 LLM이 사실상 스스로 프롬프트와 문맥을 설계할 수 있는 모습을 보면, 영원히 인간의 안내가 필요하지는 않을 것 같음 구체적 방법론이 있는 단순 사실 기반 작업에는 LLM이 맞는 도구가 아니며, 그런 작업을 인식해 더 확정적으로 동작하는 도구로 넘기지 못하는 건 하네스의 실패라고 봄 필요한 때 “기술”을 쓰듯, 특정 작업은 도구나 특화된 “두뇌”로 넘겨야 함 첫 범용 인공지능은 단일 두뇌가 아니라 여러 LLM, 하네스, 기술, 도메인·작업 특화 하위 시스템이 얽힌 복합 시스템일 가능성이 커 보임 Claude가 변환값을 가끔 과대평가한다면, 호주식 큰술이 미국식과 다른 데서 온 현상일 수 있음 호주식 큰술은 4작은술/20mL이고 미국식은 3작은술/15mL라서, 이 오류는 현실 세계의 복잡성으로 어느 정도 설명 가능함 다만 3.14작은술이나 2작은술이라고 한다면 모르겠음 이 비유는 1년 전 이미지 생성 모델의 이상한 손가락과 손을 떠올리게 함 지금은 거의 해결됐고, 요즘은 현실과 구분하기 어려운 동영상까지 생성함 그래서 이런 미묘한 오류들도 계속 줄어들어 결국 거의 모든 작업에서 발견하기 어려워질 거라고 믿게 됨 어제 Copilot을 통해 opus 4.6을 써서, 세심함이 필요한 큰 기능을 러버덕 브레인스토밍했음 영감은 얻었지만 아주 기본적인 내용도 잘못 해석했음. 내 사용 능력 문제일 수도 있어 확신은 못 하겠음 직장에서 회의용 LLM 노트 작성기를 쓰는데, 최근 CIO가 벤더가 약속하고 지키지 않았다며 매우 화를 내서 개입해야 했음 그 “약속”이 있었다는 회의에 CIO는 없었고 나는 있었는데, 실제로는 아무것도 약속하지 않았고 논의는 LLM의 상세 요약보다 훨씬 미묘했음 논의가 선형적이지 않을 때도 빗나가는 걸 봄.

영향과 시사점

예를 들어 SOC 팀과 최근 경보/사고 대응을 놓고 오가며 이야기하면 요지는 맞추지만, 정확성에 의존하면 정말 크게 틀림 병원에서 처음 간호사가 하는 방문 기록처럼 주 증상, 체중, 키, 최근 변화 요약에는 잘 맞을 수 있지만, 의사와의 상세하고 기술적인 문답에는 신뢰하지 않겠음 규정 준수 측면에서도 병원은 기록을 고쳐 쓰기보다 녹취록만 쓰고 싶어할 것 같은데, 잘 모르겠음 최근 어머니날에 엄마에게 부재중 음성 메시지를 남겼는데, “전화 못 받아서 아쉽고 오늘 밤이나 내일 편할 때 전화해도 좋고 곧 이야기하자, 사랑해, 안녕” 정도의 평범...

원문

원문: https://news.hada.io/topic?id=29542

온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀

핵심 요약

구체적 내용

영향과 시사점

원문

원문 링크와 함께 맥락을 비교해볼 수 있습니다.

자주 묻는 질문

Q. 온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀에 대한 자주 묻는 질문 1

Q. 온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀에 대한 자주 묻는 질문 2

Q. 온타리오 감사관들, 의사용 AI 노트 작성기가 기본 사실을 반복적으로 틀린다고 밝혀에 대한 자주 묻는 질문 3

같이 읽을 글

노이즈 병목: 더 많은 정보라는 미묘한 함정

Show GN: 디지털 액자 관리를 위한 홈어시스턴트 애드온

절대 그들에게 당신의 얼굴을 주지 마라

글에서 다 다루지 못한 부분은 워크숍에서 직접 이어갈 수 있습니다.