CSV 비식별화 챗봇 프로토타입

A prototype chatbot for CSV de-identification

의료AI 직무교육의 팀 프로젝트로 로컬 LLM, RAG, LangGraph와 정규표현식 도구를 연결한 CSV 비식별화 챗봇 프로토타입을 만들었다.

배경

2025년 의료AI 보건의료인 직무교육 고급과정의 팀 프로젝트로 CSV 비식별화 챗봇을 만들었다. 교육에서 다룬 로컬 LLM, RAG와 LangGraph를 하나의 프로토타입으로 구현하는 과제였다.

외부 모델에 환자 데이터를 그대로 보내기 어렵다는 조건을 고려해, 모델은 교육 과정에서 제공된 GPU 서버에 로컬로 실행했다.

팀장을 맡아 주제 선정, 전체 흐름 설계, 개발과 발표를 담당했다. 팀원들은 RAG에 넣을 자료와 더미 환자 데이터를 준비했다.

프로토타입의 흐름은 다음과 같았다.

모델은 gpt-oss 20B를 사용했고, 관련 문서를 참고하는 기능에는 RAG를 붙였다. 개발은 Cursor와 Python 환경에서 진행했으며 간단한 web UI와 시연 영상을 만들었다.

교육 과정 안에서 작동하는 프로토타입과 시연 영상을 완성하고 팀 발표를 진행했다.

실제 환자 데이터나 병원 시스템에 적용한 제품은 아니다. 더미 데이터와 미리 정한 정규표현식 규칙을 사용한 교육용 프로토타입이며, 비식별화 정확도나 재식별 위험을 체계적으로 평가하지는 않았다.

병원에서 AI 도구를 실제 업무에 연결할 때 생기는 문제는 의료기관에서 AI adoption이 어려운 진짜 이유에 별도로 정리했다.