신용정보 제재 결과 분석 자동화 수집 :: 웹 크롤링, PDF 다운로드, OCR 활용

📚 프로젝트 개요

- (학습 목표) 이번 프로젝트의 주요 목표는 웹 크롤링과 PDF 데이터 추출을 통해 금융감독원에서 제공하는 검사결과 제재 정보를 자동으로 다운로드하고, OCR을 활용하여 텍스트를 추출하는 기술 학습

- (분석 과정) 금융감독원 웹사이트에서 "신용정보"에 관한 제재 정보를 검색하여, 관련된 PDF 파일을 다운로드한 후, 해당 파일에서 필요한 정보를 추출하여 엑셀 파일로 저장 [ 웹 크롤링 → PDF 처리 → OCR 활용 → 엑셀 저장]

💻 학습 내용

1. 설치 라이브러리

라이브러리	기능(상세 설명)	설치 코드	설치 확인 코드
requests	HTTP 요청을 보내고 응답을 처리하는 라이브러리. 주로 웹에서 데이터를 다운로드 받을 때 사용	pip install requests	import requests 를 통해 확인
pdfplumber	PDF에서 텍스트, 표 등 데이터를 추출하는 라이브러리. 텍스트를 쉽게 파싱할 수 있도록 도와줌	pip install pdfplumber	import pdfplumber 로 확인
pytesseract	OCR(Optical Character Recognition) 라이브러리로, 이미지를 텍스트로 변환. PDF에서 텍스트를 못 읽을 때 사용	pip install pytesseract	import pytesseract로 확인
pdf2image	PDF 파일을 이미지로 변환하는 라이브러리. OCR을 수행하기 위한 이미지 변환에 사용	pip install pdf2image	from pdf2image import convert_from_path로 확인
pillow	이미지 처리 라이브러리로, pdf2image의 변환된 이미지를 처리하기 위해 사용	pip install pillow	from PIL import Image로 확인
openpyxl	Excel 파일을 읽고 쓰기 위한 라이브러리. 데이터 추출 후 Excel로 저장하는 데 사용	pip install openpyxl	import openpyxl로 확인
beautifulsoup4	HTML, XML 문서를 파싱하고 웹 스크래핑을 하기 위한 라이브러리. PDF 링크 추출 및 크롤링에 사용	pip install beautifulsoup4	from bs4 import BeautifulSoup으로 확인

2. 크롬 드라이버 설치 및 설정

(1) Homebrew 설치

#bash

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

Homebrew 설치 확인

#bash

brew --version

Homebrew를 PATH에 추가(터미널에서 인식을 하지 못하는 상황)

#bash

echo 'eval "$(/opt/homebrew/bin/brew shellenv)"' >> ~/.zprofile
eval "$(/opt/homebrew/bin/brew shellenv)"

(2) ChromeDriver 설치

#bash

brew install chromedriver

ChromeDriver 설치 위치 확인

#bash

which chromedriver

macOS에서 ChromeDriver 실행 허용하기

1. 시스템 설정(시스템 환경설정) 열기
Apple 메뉴 → "시스템 설정" 또는 "시스템 환경설정" 클릭

2. 보안 및 개인정보 보호 메뉴로 이동
"개인정보 보호 및 보안" (또는 "보안 및 개인 정보 보호") 선택

3. 하단에 'chromedriver 차단됨' 메시지가 있는지 확인
"chromedriver"는 Apple에서 인증하지 않았기 때문에 실행할 수 없습니다. 메시지 옆에 있는 "실행 허용" 또는 "열기" 버튼 클릭

3. 코드 리뷰

오류 내용	원인 분석	해결 방법
검색창에서 "신용정보"를 검색할 수 없음	검색창 <input>이 <span class="keyword"> 안에 포함되어 있기 때문에, 검색창을 바로 조작하는 것이 아니라, 상위 요소(span.keyword)를 먼저 클릭해야 함	<span class="keyword"> 요소를 먼저 클릭해서 검색창을 활성화 EC.element_to_be_clickable((By.CLASS_NAME, "keyword")) keyword_span.click() 실행 검색창이 활성화되었으므로 input#query를 찾고 send_keys() 실행 EC.element_to_be_clickable((By.ID, "query")) search_box.send_keys("신용정보")
Selenium이 원하는 검색창(id="query")이 아니라 다른 검색창 (id="searchWrd")을 선택하는 문제가 발생	<form id="searchFrm"> 안에 있는 <input id="query" name="query">를 찾아야 함. id="query"를 가진 <input>을 정확히 searchFrm 내부에서 찾아야 함	searchFrm 내부에서 query를 찾도록 코드 변경 search_box = search_form.find_element(By.ID, "query") 이렇게 하면 잘못된 검색창(searchWrd)이 아니라 searchFrm 내부의 query 검색창만 찾을 수 있음. 검색창을 클릭한 후 검색 실행 일부 사이트에서는 click()을 먼저 해야 검색창이 활성화됨. search_box.click() 검색어 입력 후 ENTER 키 실행 search_box.send_keys("신용정보") search_box.send_keys(Keys.RETURN)
pdf 내의 표 데이터를 추출하지 못하는 현상	pdfplumber.extract_text() 방식으로는 표 안의 내용이나 서식을 인식하지 못하기 때문에 데이터가 제대로 추출되지 않음	pdfplumber.extract_table()을 사용하여 표(table) 데이터 추출 pdfplumber.extract_text()로 일반 텍스트 영역(금융회사명, 제재조치일, 제재대상사실) 추출 정규식(re)을 사용하여 데이터 정리 추출한 데이터를 엑셀 파일로 저장
pdf 데이터가 추출되지 않는 문제	pdfplumber.extract_text()를 먼저 실행하고, 내용이 없다면 OCR(문자인식) 사용 테이블을 extract_table()로 추출한 후, 좌표를 직접 지정해 개선 텍스트를 정규식으로 정제하여 필요한 정보만 추출	pytesseract 및 pdf2image 설치
pytesseract가 한국어 언어 파일을 찾지 못하는 문제	Tesseract에 한국어(kor.traineddata) 데이터가 설치되지 않음 Tesseract가 tessdata 경로를 찾지 못함 TESSDATA_PREFIX 환경 변수가 설정되지 않음	Tesseract 한국어 데이터 파일 설치 wget -P /opt/homebrew/share/tessdata/ https://github.com/tesseract-ocr/tessdata_best/raw/main/kor.traineddata
"신용정보"를 검색한 후 pdf 링크를 추출하지 못하는 오류	PDF 링크는 페이지에서 동적으로 로딩되고 있을 가능성 즉, 페이지의 HTML에 PDF 링크가 직접적으로 보이지 않을 수 있음	동적 콘텐츠 처리: 웹 페이지의 요소가 자바스크립트로 동적으로 로딩되므로 이를 처리하는 새로운 방법을 시도 PDF 다운로드 링크 추출 및 클릭: 링크를 직접 클릭하여 PDF 다운로드 시도 헤드리스 브라우저: 웹 페이지를 자동으로 처리하고 다운로드 대화상자 없이 파일을 다운로드할 수 있도록 설정
1페이지의 다운로드만 성공하고 2페이지부터는 크롤링이 실패함	javascript:fnSearch(2)와 같은 JavaScript 함수가 호출되는 방식으로 페이지가 로드되는 구조라면, 해당 JavaScript 함수를 트리거하기 위해서는 click() 대신 execute_script()를 사용하여 JavaScript를 실행할 필요	JavaScript 실행: 페이지 번호를 클릭할 때, driver.execute_script()를 사용하여 javascript:fnSearch(page_num)를 실행하도록 변경 페이지 번호 클릭: 각 페이지 번호를 클릭할 때 XPath에서 href="javascript:fnSearch(page_num)" 값을 사용하여 버튼 찾기
pdf에서 "제재대상사실"을 제대로 읽어오지 못하는 오류	현재 pdfplumber를 사용해서 텍스트를 추출하고 있지만, "제재대상사실" 이하의 텍스트가 제대로 나오는지 확인하고, 그 부분을 좀 더 구체적으로 추출하는 방법을 적용해야 함 현재 find 메소드를 사용하고 있는데, 텍스트가 여러 줄로 나뉘어 있을 수 있기 때문에 좀 더 정교한 방법으로 "제재대상사실"과 그 이후의 모든 텍스트를 추출하도록 수정할 필요	PDF에서 "제재대상사실" 아래의 텍스트를 제대로 추출할 수 있도록 violation_details 부분을 수정하여 "제재대상사실" 이후 모든 텍스트를 포함하도록 함

4. 최종 코드

import time
import os
import requests
import pdfplumber
import pandas as pd
import re
import pytesseract
from pdf2image import convert_from_path
from PIL import Image
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from bs4 import BeautifulSoup

# 📌 Chrome WebDriver 설정 (헤드리스 모드 제거)
chrome_driver_path = "/opt/homebrew/bin/chromedriver"  # 크롬 드라이버 경로
download_dir = "/Users/allzero/Downloads"  # 다운로드 폴더 경로 설정

# Chrome 옵션 설정
options = Options()
# options.add_argument("--headless")  # UI 없이 실행을 하지 않음, 브라우저 표시됨
options.add_argument("--disable-gpu")
options.add_argument(f"--window-size=1920x1080")
options.add_experimental_option("prefs", {
    "download.default_directory": download_dir,  # 다운로드 폴더 설정
    "download.prompt_for_download": False,  # 다운로드 대화상자 비활성화
    "download.directory_upgrade": True,  # 디렉토리 업그레이드
    "savefile.default_directory": download_dir,  # 저장 디렉토리 설정
    "plugins.always_open_pdf_externally": True  # PDF 파일 외부에서 열기
})

# 📌 브라우저 실행
service = Service(chrome_driver_path)
driver = webdriver.Chrome(service=service, options=options)

# 📌 금융감독원 검사결과제재 게시판 접속
URL = "https://www.fss.or.kr/fss/job/openInfo/searchList.do"
driver.get(URL)

# 📌 검색창 찾기 및 "신용정보" 입력
search_box = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "query")))
search_box.send_keys("신용정보")
search_box.send_keys(Keys.RETURN)

# 📌 "신용정보" 검색 후 3초 대기
print("✅ '신용정보' 검색 완료!")
time.sleep(3)  # 검색 결과가 로딩될 때까지 3초 대기

# 📌 1페이지 로딩 후 명확하게 로딩된 요소 확인
try:
    # 1페이지가 완전히 로드되었는지 확인
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "//ul[@class='list-desc']")))  # 리스트가 로드될 때까지 기다림
    print("✅ 1페이지 로딩 완료!")
except TimeoutException:
    print("⚠️ 1페이지 로딩 실패!")

# 📌 1페이지 PDF 링크 추출 및 다운로드
pdf_links = []

print(f"📑 1페이지 크롤링 중...")
soup = BeautifulSoup(driver.page_source, "html.parser")
for a_tag in soup.find_all("a", href=True):
    href = a_tag["href"]
    if ".pdf" in href:
        if href.startswith("/"):
            href = "https://www.fss.or.kr" + href
        pdf_links.append(href)

# 📌 각 PDF 링크를 다운로드
for index, pdf_url in enumerate(pdf_links):
    print(f"📥 {index+1}/{len(pdf_links)} - 다운로드 중: {pdf_url}")
    
    # PDF 다운로드 링크 클릭하여 다운로드 시도
    driver.get(pdf_url)  # PDF 다운로드 링크로 이동
    time.sleep(2)  # 다운로드 창 열릴 때까지 잠시 대기

print("✅ 1페이지 PDF 링크 다운로드 완료! '다운로드 폴더'에 저장되었습니다.")

# 📌 2페이지부터 8페이지까지 크롤링 (여기서는 페이지 크롤링과 PDF 다운로드)
for page_num in range(2, 9):
    print(f"📑 {page_num} 페이지 크롤링 중...")
    
    # 페이지 버튼 클릭 (페이지 번호 클릭)
    try:
        page_button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, f"//a[@data-pageindex='{page_num}']"))
        )
        page_button.click()
        time.sleep(3)  # 페이지가 로딩될 때까지 대기
        
        # 페이지 로딩 후 PDF 링크 수집
        soup = BeautifulSoup(driver.page_source, "html.parser")
        for a_tag in soup.find_all("a", href=True):
            href = a_tag["href"]
            if ".pdf" in href:
                if href.startswith("/"):
                    href = "https://www.fss.or.kr" + href
                pdf_links.append(href)
    except TimeoutException:
        print(f"⚠️ {page_num} 페이지 로딩 실패!")

# 📌 각 PDF 링크를 다운로드
for index, pdf_url in enumerate(pdf_links):
    print(f"📥 {index+1}/{len(pdf_links)} - 다운로드 중: {pdf_url}")
    
    # PDF 다운로드 링크 클릭하여 다운로드 시도
    driver.get(pdf_url)  # PDF 다운로드 링크로 이동
    time.sleep(2)  # 다운로드 창 열릴 때까지 잠시 대기

print("✅ PDF 링크 다운로드 완료! 파일이 '다운로드 폴더'에 저장되었습니다.")

# 📌 OCR을 활용한 PDF 데이터 추출 함수
def extract_info(pdf_path):
    with pdfplumber.open(pdf_path) as pdf:
        text = "\n".join([page.extract_text() for page in pdf.pages if page.extract_text()])
    
    # 🔹 1. 텍스트가 추출되지 않은 경우 OCR 사용
    if not text.strip():
        print("⚠️ 일반 텍스트 추출 실패! OCR 사용")
        images = convert_from_path(pdf_path)
        ocr_text = ""
        for image in images:
            ocr_text += pytesseract.image_to_string(image, lang="kor") + "\n"
        text = ocr_text.strip()

    # 🔹 2. 금융회사명 추출
    company_pattern = r"금융회사명\s*:\s*(.*)"
    financial_company = re.search(company_pattern, text)
    financial_company = financial_company.group(1).strip() if financial_company else "N/A"

    # 🔹 3. 제재조치일 추출
    date_pattern = r"제재조치일\s*:\s*([\d]{4}\.\s*[\d]{1,2}\.\s*[\d]{1,2})"
    action_date = re.search(date_pattern, text)
    action_date = action_date.group(1).strip() if action_date else "N/A"

    # 🔹 4. 제재조치내용(표) 추출
    action_content = []
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            tables = page.extract_table()
            if tables:
                for row in tables:
                    # None 값을 빈 문자열로 대체하여 처리
                    row = [str(cell) if cell is not None else "" for cell in row]
                    action_content.append(" | ".join(row))
    
    action_content = "\n".join(action_content) if action_content else "N/A"

    # 🔹 5. 제재대상사실 추출: "제재대상사실" 아래의 모든 텍스트를 추출
    violation_start = text.find("제재대상사실")
    if violation_start != -1:
        violation_details = text[violation_start:]  # "제재대상사실" 부터 끝까지
    else:
        violation_details = "N/A"

    return [financial_company, action_date, action_content, violation_details]

# 📌 데이터 추출 및 엑셀 저장
data_list = []

for index, pdf_url in enumerate(pdf_links):
    print(f"📥 {index+1}/{len(pdf_links)} - 다운로드 중: {pdf_url}")

    # PDF 다운로드
    pdf_response = requests.get(pdf_url)
    pdf_path = f"temp_{index}.pdf"

    with open(pdf_path, "wb") as f:
        f.write(pdf_response.content)

    # 데이터 추출
    extracted_data = extract_info(pdf_path)
    data_list.append(extracted_data)

    # 임시 파일 삭제
    os.remove(pdf_path)

print("✅ PDF 데이터 추출 완료! 엑셀 저장 시작...")

# 📌 표 형태로 변환 후 엑셀 저장
df = pd.DataFrame(data_list, columns=["금융회사명", "제재조치일", "제재조치내용", "제재대상사실"])
df.to_excel("금융감독원_신용정보_제재결과.xlsx", index=False, engine='openpyxl')

print("✅ 엑셀 저장 완료! '금융감독원_신용정보_제재결과.xlsx' 파일을 확인하세요.")

# 📌 브라우저 종료
driver.quit()

🔍 개선할 점 & 추가로 분석해볼 수 있는 사항

PDF에서 텍스트 추출 성능 향상 :
- pdfplumber와 pytesseract의 조합은 상당히 유용하지만, 복잡한 PDF 파일에서는 여전히 텍스트 추출이 어려운 경우가 있을 수 있음. PDF 구조 분석을 통해 더 나은 처리 방법을 고민
웹 크롤링 최적화 :
- 웹 페이지의 동적 요소가 많은 경우, selenium을 통해 로딩 대기 및 페이지 내 요소의 로딩 상태를 정확히 체크하는 것이 중요
  -> headless 모드 대신 일반 브라우저를 사용하여 크롤링의 효율성을 높일 수 있음
PDF 내용의 구조적 분석:
- 추출된 표 형태 데이터가 제대로 정리되지 않을 경우, 추가적인 데이터 클린징이 필요
  👉 추출된 데이터를 보다 정확한 형식으로 변환할 수 있는 방법을 추가 분석
고급 데이터 분석 및 시각화:
- 엑셀로 저장된 데이터를 기반으로 특정 금융회사에 대한 제재 이력을 분석하거나, 제재 조치가 많이 발생한 시점에 대한 시계열 분석

👩🏻‍💻 Data Analyst dayz