태아심박동 스캔 처리 자동화

Automating the processing of fetal heart-rate scans

NIA 태아심박동 과제에서 약 2.5만 장의 스캔 이미지로부터 그래프 영역을 추출하고 환자정보 영역을 가리는 Python 처리 코드를 작성했다.

배경

2022년 NIA 태아심박동 과제에서 데이터관리 실무를 맡았다. 주어진 일은 약 2.5만 장의 태아심박동 스캔 이미지에서 그래프 영역을 잘라내고, 환자정보가 있는 부분을 가리는 것이었다.

처음에는 이미지 편집 도구로 한 장씩 처리하는 방법이 논의됐다. 한 장에 30초만 잡아도 수개월이 필요한 분량이었다.

샘플 이미지를 확인해 보니 그래프와 환자정보가 비슷한 위치와 형태로 반복됐다. OCR과 컨투어 검출을 이용해 그래프 영역을 찾고, 필요한 범위만 남긴 뒤 나머지 텍스트 영역을 마스킹하는 Python 코드를 작성했다.

당시에는 소프트웨어 수업과 기초 Python 경험이 있는 정도였기 때문에, 이미지 처리 방법을 찾아가며 구현했다.

코드 작성에는 약 1주가 걸렸고, 전체 파일 실행은 수 시간 안에 끝났다. 이 작업 이후 같은 과제의 드라이랩 데이터 연구에도 참여했고, 이후 의료정보학 석사 과정으로 진학했다.

범용 의료영상 비식별화 제품을 만든 것은 아니다. 해당 과제의 비교적 일정한 스캔 양식에 맞춘 처리 코드였고, 별도의 제품화나 정량적 성능 평가까지 진행하지는 않았다.