본문 바로가기
Python

[We-Co] opendataloader-pdf

by 위기의코딩맨 2025. 9. 24.
반응형

안녕하세요. 위기의 코딩맨입니다.

오늘은 한컴에서 오픈소스로 공개한 opendataloader-pdf에 대해서 알아보도록 하겠습니다.

요즘 RAG에도 관심이 많아, PDF Loader를 찾아보다가 한컴에서 상당한 성능을 발휘하는 소스를 공개했다고 하여 사용해봤습니다.

뉴스에서도 엄청 홍보를 많이하더라구요?!

 

소스는 깃허브에 공개되어있습니다.

아래 자세한 사항은 아래 페이지를 참고해주세요~!

 

GitHub - opendataloader-project/opendataloader-pdf: Safe, Open, High-Performance — PDF for AI

Safe, Open, High-Performance — PDF for AI. Contribute to opendataloader-project/opendataloader-pdf development by creating an account on GitHub.

github.com

[ opendataloader-pdf ]

다양한 코드로 제공되고 있지만,

저는 파이썬을 주로 사용하기에, 파이썬으로 사용해보도록 하겠습니다.

사용법은 아주 간단합니다!

먼저 아래 pip를 통해서 설치를 진행합니다.

!pip install -U opendataloader-pdf

 

 

깃허브에서도 간단하게 사용 설명과 인풋, 아웃풋에 대한 설명만 있었습니다.

저는 마크다운 형식을 사용하기에, True로 변경하고 진행했습니다.

 

코드는 아래와 같습니다~!

저는 코랩 환경에서 테스트를 진행했습니다.

import opendataloader_pdf

opendataloader_pdf.run(
    input_path="/content/ADATA.pdf",
    output_folder="/content/output",
    generate_markdown=True,
)

 

테스트로 Json, pdf 등등 여러 개를 사용했더니 여러 파일이 생성되었습니다.

위 코드를 실행하면 md 파일만 생성될 것 입니다.

이 파일이 마크다운 파일입니다.

데이터가 마크다운으로 잘 생성된 것이 확인되었습니다.

분석한 데이터와 일치한것 같은데,

필요 없는 데이터들이 좀 많이 섞여있어 정리가 필요할 것 같습니다~!

 

 

오늘은 간단하게 opendataloader-pdf 활용해서

PDF 파일을 마크다운으로 변환하는 방법에 대해서 살펴보았습니다~!

반응형