Textscope®
Doc Parser
Textscope®
Doc Parser
문서 레이아웃 분석 솔루션, Textscope® Doc Parser
다양한 형식의 문서에서 문단, 그림, 표 등 문서 요소를 검출하고, 문서에 존재하는 형태적∙구조적 정보와 비텍스트 정보를 100% 활용 가능한 정보로 변환해 문서 데이터 활용도를 극대화할 수 있는 문서 레이아웃 분석 솔루션입니다.
Doc Parser 핵심 기능
문서 및 표 구조 분석/추출
문서 및 표 구조 분석/추출
10종 이상의 레이아웃 요소 인식
10종 이상의 레이아웃 요소 인식
문서 제목, 섹션 소제목
문서 제목, 섹션 소제목
문서 제목, 섹션 소제목
텍스트 단락, 리스트, 수식
텍스트 단락, 리스트, 수식
텍스트 단락, 리스트, 수식
표,그림, 캡션
표,그림, 캡션
표,그림, 캡션
머리말, 꼬리말, 각주
머리말, 꼬리말, 각주
머리말, 꼬리말, 각주
자연스러운 읽기 순서 유지
자연스러운 읽기 순서 유지
폰트 크기, 이미지 크기와 위치 인식
폰트 크기, 이미지 크기와 위치 인식
그림, 표의 캡션 관계 인식
그림, 표의 캡션 관계 인식
표 구조 인식
표 구조 인식
문서 내 다양한 표 인식 가능
문서 내 다양한 표 인식 가능
<table> , <thead>, <th>, <td> 등 HTML에서 테이블을 표현하는 태그 사용 레이아웃 요소 인식
<table> , <thead>, <th>, <td> 등 HTML에서 테이블을 표현하는 태그 사용 레이아웃 요소 인식
표 캡션을 인식하여 <caption> 태그로 표현 가능
표 캡션을 인식하여 <caption> 태그로 표현 가능
병합된 셀 인식 가능
병합된 셀 인식 가능
헤더 정보 인식
헤더 정보 인식
Doc Parser 기타 주요 기능
이미지 파일 인식
이미지 파일 인식
스캔/팩스 문서 등 이미지 파일에서도 레이아웃, 텍스트, 표 등 문서 요소 인식
스캔/팩스 문서 등 이미지 파일에서도 레이아웃, 텍스트, 표 등 문서 요소 인식
그림자, 노이즈, 촬영각도 등 저화질 이미지에서도 동작
그림자, 노이즈, 촬영각도 등 저화질 이미지에서도 동작
높은 한글 필기체 인식률
높은 한글 필기체 인식률
머신러닝 기반 모델을 사용한 이미지 인식
머신러닝 기반 모델을 사용한 이미지 인식
다양한 입/출력 파일 포맷 지원
다양한 입/출력 파일 포맷 지원
입력
입력
오피스 문서: PDF, 한글(hwp, hwpx),워드(doc, docx), 파워포인트(ppt, pptx), 엑셀(xls, xlsx)
오피스 문서: PDF, 한글(hwp, hwpx),워드(doc, docx), 파워포인트(ppt, pptx), 엑셀(xls, xlsx)
이미지 문서: JPG, PNG, TIFF, BMP, GIF, PDF 등
이미지 문서: JPG, PNG, TIFF, BMP, GIF, PDF 등
출력
출력
HTML, Markdown, Text 등 텍스트 기반 형식으로 출력)
HTML, Markdown, Text 등 텍스트 기반 형식으로 출력)
추출된 표는 엑셀, CSV 파일로 export 가능
추출된 표는 엑셀, CSV 파일로 export 가능
추출된 이미지는 별도 파일로 저장 (jpg, png 등)
추출된 이미지는 별도 파일로 저장 (jpg, png 등)
LLM/RAG 서비스와 연계 지원
LLM/RAG 서비스와 연계 지원
Vector Embedding을 위한데이터 연계 기능
Vector Embedding을 위한데이터 연계 기능
LLM 성능 개선을 위한 프롬프트맞춤형 데이터 형식 지원
LLM 성능 개선을 위한 프롬프트맞춤형 데이터 형식 지원
Doc Parser 이렇게 사용할 수 있습니다.
Doc Parser 이렇게
사용할 수 있습니다.
01
01
문서 선택
문서 선택
오피스 문서 (PDF, 한글, 워드, 파워포인트, 엑셀 등)와 이미지 문서 (JPG, PNG, TIFF, BMP, GIF, PDF 등) 포맷을 지원합니다.
오피스 문서 (PDF, 한글, 워드, 파워포인트, 엑셀 등)와 이미지 문서 (JPG, PNG, TIFF, BMP, GIF, PDF 등) 포맷을 지원합니다.
02
02
Document Parsing
Document Parsing
텍스트, 그림, 표 등 문서 내 객체를 인식합니다.
텍스트, 그림, 표 등 문서 내 객체를 인식합니다.
03
03
결과물
결과물
인식 결과는 HTML, Markdown, Text 등 정형 데이터로 변환하고 추출 이미지는 별도 파일로 저장(jpg, png 등) 가능합니다.
인식 결과는 HTML, Markdown, Text 등 정형 데이터로 변환하고 추출 이미지는 별도 파일로 저장(jpg, png 등) 가능합니다.
04
04
활용
활용
Vector Embedding을 통한 RAG / LLM 서비스와 연동합니다. 또한, 문서의 내용을 파싱하고, 모바일이나 PC용 웹페이지(html)로 자동 변환하여, 문서에 포함된 정보를 웹을 통해 제공할 수도 있습니다.
Vector Embedding을 통한 RAG / LLM 서비스와 연동합니다. 또한, 문서의 내용을 파싱하고, 모바일이나 PC용 웹페이지(html)로 자동 변환하여, 문서에 포함된 정보를 웹을 통해 제공할 수도 있습니다.
Doc Parser
에 대해 더 자세한 정보가 궁금하신가요?
지금 바로 문의해주세요. 문서 데이터를 더욱 가치 있게 활용하실 수 있는 최상의 방법,
Document AI 전문 컨설턴트가 최대한 빠르고 자세하게 알려드리겠습니다.
Doc Parser
에 대해 더
자세한 정보가 궁금하신가요?
지금 바로 문의해주세요. 문서 데이터를 더욱
가치 있게 활용하실 수 있는 최상의 방법,
Document AI 전문 컨설턴트가 최대한 빠르고
자세하게 알려드리겠습니다.
서울시 서초구 방배천로2길 10 JBI빌딩 7층
Business
서울시 서초구 방배천로2길 10 JBI빌딩 7층