티스토리 뷰

카테고리 없음

파이썬 셀레니움으로 HTML 텍스트 추출하기

be-veloper 2023. 3. 7. 15:07

셀레니움을 사용하여 웹 페이지를 가져오면 driver.page_source 를 통해 해당 페이지의 HTML 코드를 얻을 수 있습니다. 그러나 이 HTML 코드에서 텍스트 내용만 추출하는 함수가 기본적으로 제공되지는 않습니다. 따라서 직접 함수를 구현해야 합니다.

아래는 셀레니움으로 가져온 HTML 코드에서 텍스트 내용만 추출하는 함수입니다. 이 함수를 사용하면 웹 페이지에서 필요한 텍스트를 쉽게 추출할 수 있습니다.

from bs4 import BeautifulSoup

def get_text_from_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    text = soup.get_text()
    return text

위 함수는 BeautifulSoup 라이브러리를 사용하여 HTML 코드에서 텍스트를 추출합니다. html 인자에는 driver.page_source 로 가져온 HTML 코드를 전달하면 됩니다. 함수가 반환하는 값은 해당 페이지에서 추출한 모든 텍스트입니다.

이렇게 추출한 텍스트를 파일로 저장하거나 다른 용도로 사용할 수 있습니다.

from bs4 import BeautifulSoup

def get_text_from_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    text = soup.get_text()
    return text