PDF에서 표 추출하기
PDF에서 표를 추출하려면 소프트웨어가 페이지를 읽고 모든 행과 열을 진짜 격자로 다시 만들도록 하세요. 표가 들어 있는 PDF가 있습니다. 송장의 항목 명세일 수도 있고, 은행 명세서의 거래 내역일 수도 있고, 공급업체의 가격표일 수도 있습니다. 화면에서는 표가 멀쩡해 보이지만, 스프레드시트에 복사해 넣으면 열이 더 이상 맞지 않습니다. 숫자가 엉뚱한 머리글 아래로 들어가고, 두 줄로 이어진 행이 별개의 두 행으로 나뉘어 버립니다.
이 가이드에서는 PDF 속 표가 왜 그렇게 고집스러운지, 그것을 깔끔하게 꺼내는 일이 가장 중요해지는 상황은 어디인지, 그리고 표를 정렬하고 필터링하고 합계를 낼 수 있는 진짜 격자로 다시 되돌리는 가장 쉬운 방법을 설명합니다. 받은편지함에서 PDF를 바로 보내는 방법까지 포함해서요. 표를 꺼내는 것은 PDF에서 데이터를 추출하는 여러 방법 중 하나입니다.
PDF에서 표를 추출하는 이유는?
PDF 속 표는 격자처럼 보이지만, 격자로 저장되어 있지는 않습니다. 페이지에는 인쇄했을 때 표처럼 보이도록 배치된 텍스트와 선만 있을 뿐, 각 값을 그 위의 열 머리글과 이어 주는 것은 아무것도 없습니다. 그래서 복사해서 붙여넣으면 구조가 사라집니다. 숫자가 엉뚱한 열로 옮겨 가고, 두 줄에 걸친 행이 쪼개지며, 합계가 데이터 사이에 뒤섞여 버립니다.
사람들이 PDF에서 표를 추출하는 흔한 이유는 다음과 같습니다.
- 송장 항목 명세를 회계 소프트웨어에 입력할 때, 설명, 수량, 단가, 금액을 각자의 열에 그대로 유지하면서
- 예산 관리와 장부 기록을 위해 날짜, 설명, 잔액별로 정렬된 은행 및 신용카드 명세서 거래 내역
- 재고 관리나 주문 시스템에 행 단위로 불러오는 공급업체 가격표
- 주문 확인서와 배송 명세서에 담긴 주문 및 포장 표
- 다시 타이핑하지 않고 재활용해야 하는 수치 행과 소계로 이루어진 재무제표
- 콘퍼런스나 행사 PDF에서 가져온 참석자 및 연락처 목록
- 발행된 보고서에서 꺼낸 연구 및 설문 결과
- 급여 지급 때마다 PDF로 도착하는 급여 및 근태 격자
어느 경우든 핵심은 모양입니다. 숫자만 필요한 게 아니라, 화면에서 보이는 것과 똑같은 행과 열에 담긴 숫자가 필요합니다.
NiceData로 PDF에서 표를 추출하는 방법
세 단계가 있으며, 첫 단계에서는 시작하는 두 가지 방법을 제공합니다.
1단계: PDF를 NiceData에 넣기
NiceData에 PDF를 전달하는 방법은 두 가지입니다. 평소 작업 방식에 맞는 쪽을 고르세요.
앱에서 업로드하기. NiceData에 로그인한 뒤 PDF를 업로드 영역으로 끌어다 놓거나, Upload files를 클릭해 컴퓨터에서 선택하세요. 파일 하나만 넣어도 되고 한 번에 수백 개를 넣어도 됩니다. 단일 페이지와 여러 페이지 PDF 모두 동작하고, 스캔한 PDF와 페이지를 찍은 사진도 마찬가지입니다. 표를 미리 평평하게 펴거나 정리할 필요도 없습니다. 비뚤어진 스캔본, 로고, 머리글, 바닥글 모두 괜찮습니다.
이메일 첨부 파일로 보내기. NiceData의 모든 프로젝트에는 고유한 이메일 주소가 있으며, 프로젝트 설정에서 복사할 수 있습니다. PDF를 이메일에 첨부해 그 주소로 보내거나, 문서가 자동으로 도착하도록 전달을 설정하세요. NiceData는 첨부 파일이 도착하는 순간 처리하며, 직접 업로드한 파일을 처리하는 방식과 완전히 동일합니다. 이메일 한 통에 최대 10개의 파일을 첨부할 수 있고, NiceData가 첨부 파일을 읽을지, 이메일 본문을 읽을지, 아니면 둘 다 읽을지 선택할 수 있습니다.
2단계: NiceData가 표를 읽도록 하기
PDF가 도착하는 즉시 NiceData가 그것을 읽습니다. 페이지에서 표를 찾아내고, 머리글이 어디에 있는지와 각 머리글 아래에 어떤 값이 속하는지 파악한 뒤, 모든 셀을 제자리에 둔 진짜 격자로 전체를 다시 만듭니다.
표 주위에 상자를 그리거나 열의 경계가 어디인지 알려 줄 필요가 없습니다. 한 번도 본 적 없는 레이아웃에서도 알아서 파악합니다. 두 줄로 줄바꿈된 행은 하나의 행으로 유지됩니다. 열은 페이지에 나타난 순서 그대로 나옵니다. 그리고 표가 여러 페이지에 걸쳐 있고 페이지마다 상단에 머리글이 반복될 때도, NiceData는 각 페이지를 따로 취급하는 대신 하나의 이어진 표로 다시 이어 붙입니다. 대부분의 PDF는 1분 이내에 처리가 끝납니다.
3단계: 표 내보내기
추출이 끝나면 오른쪽 위의 Download 버튼을 클릭해 원하는 형식을 고르세요. CSV나 Excel을 선택하면 표가 스프레드시트에서 바로 열리며, 격자가 그대로 유지된 채 각 열은 이미 각자의 열에, 각 행은 이미 각자의 줄에 들어가 있습니다. 다시 정렬할 것도, 제자리로 밀어 넣을 셀도 없습니다.
이것이 전체 과정입니다. 받은편지함이나 바탕화면의 PDF에서 스프레드시트 속 바로 쓸 수 있는 격자까지, 단 세 단계입니다.
어떤 표를 추출할지 제어하는 방법
기본적으로 NiceData는 PDF에서 찾아낸 모든 표를 추출합니다. 대부분의 경우 그것이 원하는 결과지만, 어떤 페이지에는 표가 둘 이상 담겨 있기도 합니다. 예를 들어 송장에는 항목 명세 표와 별도의 합계 요약이 함께 들어 있는 경우가 많습니다. 그중 하나만, 또는 특정 열만 원한다면, 평범한 한국어로 알려 줄 수 있습니다.
문서 유형에 맞는 템플릿을 만들고, 그 안에 지시를 작성한 뒤(예: “설명, 수량, 금액이 담긴 항목 표만 주세요”), Testing Playground를 사용해 샘플로 테스트하세요. 그러면 NiceData는 이후 해당 프로젝트에 업로드하거나 이메일로 보내는 모든 PDF에 그 템플릿을 적용하므로, 매번 정확히 요청한 표를 돌려받게 됩니다.
작성할 규칙도, 매핑할 열도, 정규식도 없습니다. 원하는 표를 지목하기만 하면 나머지는 NiceData가 알아서 처리합니다.
NiceData가 PDF에서 표를 추출하는 가장 간단한 방법인 이유
PDF에서 표를 꺼내 준다고 약속하는 대부분의 도구는 사용자에게 먼저 표를 설정하라고 시킵니다. 문서 유형마다 시각적 템플릿을 직접 그려서 표가 어디에 있는지 표시하고 각 열의 경계를 일일이 끌어다 맞춰야 합니다. 모델이 레이아웃을 익히도록 라벨이 달린 예시 수십 개를 먹여 줘야 합니다. 까다로운 행을 위한 규칙을 작성해야 합니다. 어떤 도구는 표 하나를 꺼내기도 전에 작업 전체를 개발자와 API 계정에 떠넘기기까지 합니다.
NiceData는 그 모든 과정을 건너뜁니다. PDF를 업로드하거나 이메일로 보내면 NiceData가 표를 읽고, 사용자는 격자를 내려받습니다. 열은 이미 나뉘어 있고, 행은 이미 순서대로 놓여 있으며, 여러 페이지에 걸친 표는 이미 하나로 이어 붙여져 있습니다. 특정 표나 열 묶음으로 좁히고 싶다면, 그것을 평범한 한국어로 설명하면 됩니다. 열 매핑도, 모델 학습도, 코드도 없습니다.
바로 그 점이 차이입니다. 다른 도구들은 대규모 기술 팀을 위해 만들어졌습니다. NiceData는 PDF와 마감 기한을 가진 누구나를 위해 만들어졌습니다. 가격 페이지에서 요금제를 선택하거나, 무료 체험으로 시작해 직접 가진 표로 실행해 보세요.
업로드할 수 있는 파일 형식
이 가이드의 주인공은 PDF지만, NiceData는 거의 모든 종류의 문서에서 표를 읽어냅니다.
- PDF (단일 페이지 또는 여러 페이지, 디지털 또는 스캔본)
- JPG와 JPEG (사진 및 스캔본)
- PNG (스크린샷 및 고품질 이미지)
- TIFF와 TIF (스캐너에서 자주 사용)
- GIF와 WebP
- Word 문서 (DOC 및 DOCX)
- Excel 파일 (XLS 및 XLSX)
- CSV와 일반 텍스트 파일
원한다면 모두 같은 프로젝트에 끌어다 놓거나 이메일로 보내세요. NiceData는 이들을 동일한 방식으로 처리합니다.
표를 내보내는 방법
NiceData가 표를 다시 만들고 나면, 표가 다음으로 향할 곳에 맞는 형식을 고르면 됩니다.
- CSV는 스프레드시트와 거의 모든 업무 도구에 알맞은 선택입니다. 모든 열은 열로, 모든 행은 행으로 유지되어 깔끔한 격자로 열립니다.
- Excel은 동료에게 표를 건네고 싶을 때 가장 좋습니다. 머리글에 서식이 적용되고, 레이아웃이 깔끔하며, Microsoft Excel이나 Google Sheets에서 바로 열려 정렬하고 필터링할 준비가 되어 있습니다.
- JSON은 개발자가 선호하는 형식입니다. 표를 다른 도구, 연동, 또는 맞춤 앱으로 넘긴다면 JSON이 다루기에 가장 쉽습니다.
- 대시보드에서 복사하기는 일회성 작업에 가장 빠른 방법입니다. 문서를 열고 필요한 행을 복사해 원하는 곳에 붙여넣으세요.
자유롭게 조합할 수 있습니다. 같은 표를 재무 팀을 위한 CSV와 개발자를 위한 JSON으로 내보내는 데 추가 단계가 필요 없습니다.
Excel에서 표가 어떻게 보이는지
내보낸 파일을 열면 표는 이미 바로 쓸 수 있는 스프레드시트가 되어 있습니다. PDF의 각 열이 각자의 열에 들어가고, 모든 행이 각자의 줄에 놓이며, 머리글 행이 맨 위에 가로로 펼쳐져 있어 곧바로 정렬하고 필터링하고 합계를 낼 수 있습니다. 하나의 셀에 우겨 넣어진 것도 없고, 먼저 정리해야 할 군더더기 텍스트도 없습니다.
자주 묻는 질문
무료로 사용해 볼 수 있나요?
네. NiceData는 25페이지 추출이 포함된 14일 무료 체험을 제공하며, 신용카드도 필요 없습니다. 구독을 결정하기 전에 직접 가진 PDF로 실행해 행과 열을 확인해 보세요.
코딩을 할 줄 알아야 하나요?
아니요. NiceData는 코드를 한 줄도 써 본 적 없는 분들을 위해 만들어졌습니다. 모든 작업이 브라우저 안에서 이루어집니다. 파일을 폴더로 끌어다 놓거나 이메일을 보낼 줄 안다면, PDF에서 표를 꺼낼 수 있습니다.
추출 정확도는 어느 정도인가요?
저희 경험상 매우 정확합니다. NiceData는 모든 값을 올바른 머리글과 열 아래에 두고, 행을 순서대로 유지하며, PDF가 디지털 내보내기든 스캔본이든 사진이든 한 번도 본 적 없는 표에서도 합계와 소계를 인식합니다.
여러 페이지에 걸친 표도 처리할 수 있나요?
네. 여러 페이지로 된 PDF를 업로드하면 NiceData가 문서당 최대 25페이지까지 모든 페이지를 읽고, 페이지 경계를 넘어 이어지는 표를 하나로 다시 이어 붙이면서 각 페이지 상단에 반복되는 머리글은 제거합니다. 각 페이지는 월간 요금제에서 1페이지로 계산됩니다.
한 페이지에 표가 두 개 이상 있으면 어떻게 되나요?
NiceData는 기본적으로 찾아낸 모든 표를 추출합니다. 그중 하나만, 또는 특정 열만 원한다면, 템플릿을 만들고 어떤 표를 남길지 평범한 한국어로 설명하세요. 그때부터는 프로젝트의 모든 PDF에서 바로 그 표만 돌려줍니다.
제 데이터는 안전한가요?
네. 문서는 전송 중과 저장 시 모두 암호화되며, 본인과 팀원만 열 수 있는 격리된 프로젝트 폴더에 저장됩니다. 또한 문서를 1일, 14일, 30일, 60일, 90일 후에 자동으로 삭제되도록 설정할 수도 있습니다.
관련 가이드
PDF에서 텍스트 추출하기
어떤 PDF에서든 몇 초 만에 텍스트를 추출하세요. 파일을 업로드하거나 이메일 첨부로 보내기만 하면 NiceData가 깔끔하게 정리된 데이터로 바꿔 줍니다. 코드는 전혀 필요 없습니다.
PDF를 Excel로 변환하기
NiceData로 어떤 PDF든 몇 초 만에 깔끔한 Excel 스프레드시트로 변환하세요. 파일을 업로드하고, AI가 읽게 한 뒤, 바로 쓸 수 있는 워크북을 내려받으세요. 코드는 필요 없습니다.
PDF를 CSV로 변환하기
NiceData로 PDF를 몇 초 만에 깔끔한 CSV로 변환하세요. 파일을 업로드하면 AI가 읽어주고, 스프레드시트로 다운로드합니다. 코드 작성도 필요 없습니다.
Dace Willmott
Founder
NiceData aims to eliminate manual data entry from document workflows. We write about AI-powered document processing, data extraction best practices, and the tools that help teams move faster with cleaner data.