문서 변환 자동화가 필요한 이유
업무를 하다 보면 수십 개에서 수백 개에 달하는 한글(HWP) 문서를 워드(DOCX) 파일로 변환해야 하는 상황이 자주 발생합니다. 이를 일일이 수작업으로 열어서 ‘다른 이름으로 저장’하는 방식은 극심한 시간 낭비와 단순 반복 작업을 유발합니다. 본 포스팅에서는 파이썬(Python) 프로그래밍을 활용하여 폴더 내의 모든 HWP 파일을 단 몇 초 만에 DOCX로 일괄 변환하는 자동화 스크립트 구축 방법을 소개합니다.
수십 개의 HWP 파일을 수작업으로 변환할 때의 비효율성
정기적인 보고서 취합이나 대량의 교육 자료 이관 시, 수작업 변환은 단순히 시간이 오래 걸릴 뿐만 아니라 누락이나 오작동 등 인적 오류(Human Error)를 발생시키기 쉽습니다. 특히 수십 개 이상의 대용량 문서를 다룰 때는 PC의 메모리 부담이 커지고 단순 반복 작업으로 인해 업무 효율성이 극도로 저하됩니다. 파이썬 자동화는 이러한 단순 반복 작업을 컴퓨터 시스템에 위임함으로써 핵심 업무에 집중할 수 있는 환경을 만들어 줍니다.
파이썬을 활용한 HWP to Word 변환 환경 세팅
한글 문서를 제어하기 위해서는 윈도우 환경에서 OLE(Object Linking and Embedding) 자동화를 지원하는 pywin32 라이브러리가 필요합니다. 이 패키지는 파이썬이 한글(Hancom Office) 프로그램의 API에 직접 접근하여 문서를 열고 백그라운드에서 제어할 수 있도록 돕는 핵심 도구입니다. 운영체제의 명령 프롬프트(CMD)를 열고 아래의 명령어를 입력하여 라이브러리를 먼저 설치해야 합니다.
Bash
pip install pywin32
필요한 파이썬 라이브러리 및 패키지 소개
윈도우 운영체제 환경에서 한글(HWP) 문서를 프로그래밍 언어로 제어하기 위해서는 OLE(Object Linking and Embedding) 기술을 지원하는 pywin32 패키지가 반드시 필요합니다. 이 패키지는 파이썬 스크립트가 설치된 한컴오피스 프로그램의 API 시스템에 직접 접근하여, 백그라운드 상에서 문서를 열고 닫거나 다른 포맷으로 저장할 수 있도록 연결해 주는 핵심 인터페이스 역할을 합니다. 또한 운영체제의 파일 시스템 내부를 탐색하고 경로를 다루기 위해 파이썬 표준 내장 라이브러리인 os 모듈을 함께 사용합니다.
자동화 스크립트 작성 및 실행 과정
파이썬을 활용한 자동화의 가장 큰 장점은 한 번 코드를 작성해 두면 이후에는 마우스 클릭 몇 번만으로 동일한 작업을 완벽하게 수행할 수 있다는 점입니다. 스크립트는 크게 세 단계로 구동됩니다. 첫째, 지정된 폴더 내에서 확장자가 ‘.hwp’로 끝나는 파일만 정확하게 필터링합니다. 둘째, 백그라운드에서 한글 프로그램을 실행하여 사용자의 화면을 방해하지 않고 문서를 순차적으로 열어줍니다. 마지막으로, 한글오피스의 고유 API 기능을 호출하여 원본 텍스트와 서식을 유지한 채 워드(DOCX) 파일로 다른 이름으로 저장합니다.
핵심 코드 리뷰 및 적용 방법
환경 세팅이 완료되었다면, 지정된 폴더 안의 HWP 파일을 탐색하여 자동으로 DOCX 형식으로 변환해 주는 전체 파이썬 스크립트 코드입니다.
Python
import os
import win32com.client
def batch_convert_hwp_to_docx(folder_path):
# 한글(HWP) 애플리케이션 구동
hwp = win32com.client.GenreationCache.EnsureDispatch("HWPFrame.HwpObject")
# 백그라운드에서 실행 (프로그램 창이 뜨지 않음)
hwp.XHwpWindows.Item(0).Visible = False
# 해당 폴더 내의 모든 파일 탐색
files = os.listdir(folder_path)
hwp_files = [f for f in files if f.endswith('.hwp')]
print(f"총 {len(hwp_files)}개의 한글 파일을 발견했습니다. 변환을 시작합니다.")
for file_name in hwp_files:
hwp_path = os.path.join(folder_path, file_name)
docx_path = os.path.join(folder_path, file_name.replace('.hwp', '.docx'))
# HWP 파일 열기
hwp.Open(hwp_path)
# DOCX 형식(포맷 번호 2)으로 다른 이름으로 저장
# 2번은 한글 버전에 따라 다를 수 있으므로 표준 DOCX 변환 형식을 따름
hwp.SaveAs(docx_path, "Format:docx")
print(f"변환 완료: {file_name} -> {os.path.basename(docx_path)}")
# 한글 프로그램 종료
hwp.Quit()
print("모든 문서 변환 작업이 완료되었습니다.")
# 변환할 한글 파일들이 모여있는 폴더 경로 지정
target_folder = r"C:\Your\Folder\Path"
if __name__ == "__main__":
batch_convert_hwp_to_docx(target_folder)
이 코드는 win32com을 통해 한글 프로그램을 제어하므로, 반드시 한컴오피스가 설치된 Windows 환경에서 실행해야 정상적으로 작동합니다. 스크립트 하단의 target_folder 경로를 본인의 작업 폴더 경로로 수정한 뒤 실행하면, 폴더 내의 모든 HWP 파일이 원본 이름 그대로 DOCX 파일로 일괄 생성되는 것을 확인할 수 있습니다.