PythonのseleniumでHTMLのテキストだけ取得する方法

2023年9月26日

PythonのSeleniumを使用してHTMLのテキストだけを取得するには、ページからテキスト要素を選択し、それを抽出する方法があります。以下は、HTMLのテキストを取得する基本的なステップです。

Seleniumをインストール:
まだSeleniumをインストールしていない場合は、次のコマンドを使用してインストールします。
```
pip install selenium
```
WebDriverをダウンロード:
Seleniumはブラウザを制御するためにWebDriverと呼ばれるドライバーを使用します。WebDriverは使用するブラウザに合わせて異なります。例えば、Google Chromeを使用する場合、ChromeDriverをダウンロードする必要があります。WebDriverはブラウザのバージョンに合わせて選択してください。

ChromeDriverのダウンロードリンク: https://sites.google.com/chromium.org/driver/

Seleniumスクリプトを作成:
PythonのスクリプトでSeleniumを使用してHTMLのテキストを取得します。以下は、Google Chromeを使用してHTMLのテキストを取得する例です。

python
from selenium import webdriver

# ChromeDriverのパスを指定してWebDriverを起動
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')

# ターゲットのURLを開く
driver.get('https://example.com')

# ページからテキスト要素を選択して取得
text_element = driver.find_element_by_tag_name('body').text

# ドライバーを閉じる
driver.quit()

# テキストを表示
print(text_element)

このスクリプトでは、driver.find_element_by_tag_name('body').textを使用してページ内の<body>要素のテキストを取得しています。適切な要素を選択して、その要素の.text属性を使用してテキストを取得できます。

スクリプトを実行すると、ページから取得したテキストが表示されます。

目的別,Python,プログラミング,selenium

Posted by ぼっち

Pythonでディレクトリを作る方法

Pythonのtimeメソッド　tzname

コメント一覧

まだ、コメントがありません