PythonのseleniumでHTMLのテキストだけ取得する方法

PythonのSeleniumを使用してHTMLのテキストだけを取得するには、ページからテキスト要素を選択し、それを抽出する方法があります。以下は、HTMLのテキストを取得する基本的なステップです。

  1. Seleniumをインストール:
    まだSeleniumをインストールしていない場合は、次のコマンドを使用してインストールします。

    pip install selenium
    
  2. WebDriverをダウンロード:
    Seleniumはブラウザを制御するためにWebDriverと呼ばれるドライバーを使用します。WebDriverは使用するブラウザに合わせて異なります。例えば、Google Chromeを使用する場合、ChromeDriverをダウンロードする必要があります。WebDriverはブラウザのバージョンに合わせて選択してください。

    ChromeDriverのダウンロードリンク: https://sites.google.com/chromium.org/driver/

  3. Seleniumスクリプトを作成:
    PythonのスクリプトでSeleniumを使用してHTMLのテキストを取得します。以下は、Google Chromeを使用してHTMLのテキストを取得する例です。

    python
    from selenium import webdriver
    
    # ChromeDriverのパスを指定してWebDriverを起動
    driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
    
    # ターゲットのURLを開く
    driver.get('https://example.com')
    
    # ページからテキスト要素を選択して取得
    text_element = driver.find_element_by_tag_name('body').text
    
    # ドライバーを閉じる
    driver.quit()
    
    # テキストを表示
    print(text_element)
    

このスクリプトでは、driver.find_element_by_tag_name('body').textを使用してページ内の<body>要素のテキストを取得しています。適切な要素を選択して、その要素の.text属性を使用してテキストを取得できます。

スクリプトを実行すると、ページから取得したテキストが表示されます。