티스토리 뷰

목차



    반응형

    셀레니움을 사용하여 웹 페이지를 가져오면 driver.page_source 를 통해 해당 페이지의 HTML 코드를 얻을 수 있습니다. 그러나 이 HTML 코드에서 텍스트 내용만 추출하는 함수가 기본적으로 제공되지는 않습니다. 따라서 직접 함수를 구현해야 합니다.

    아래는 셀레니움으로 가져온 HTML 코드에서 텍스트 내용만 추출하는 함수입니다. 이 함수를 사용하면 웹 페이지에서 필요한 텍스트를 쉽게 추출할 수 있습니다.

    from bs4 import BeautifulSoup
    
    def get_text_from_html(html):
        soup = BeautifulSoup(html, 'html.parser')
        text = soup.get_text()
        return text
    
    

    위 함수는 BeautifulSoup 라이브러리를 사용하여 HTML 코드에서 텍스트를 추출합니다. html 인자에는 driver.page_source 로 가져온 HTML 코드를 전달하면 됩니다. 함수가 반환하는 값은 해당 페이지에서 추출한 모든 텍스트입니다.

    이렇게 추출한 텍스트를 파일로 저장하거나 다른 용도로 사용할 수 있습니다.

    from bs4 import BeautifulSoup
    
    def get_text_from_html(html):
        soup = BeautifulSoup(html, 'html.parser')
        text = soup.get_text()
        return text
    
    

     

    반응형