PythonのseleniumでHTMLのテキストだけ取得する方法
PythonのSeleniumを使用してHTMLのテキストだけを取得するには、ページからテキスト要素を選択し、それを抽出する方法があります。以下は、HTMLのテキストを取得する基本的なステップです。
-
Seleniumをインストール:
まだSeleniumをインストールしていない場合は、次のコマンドを使用してインストールします。pip install selenium
-
WebDriverをダウンロード:
Seleniumはブラウザを制御するためにWebDriverと呼ばれるドライバーを使用します。WebDriverは使用するブラウザに合わせて異なります。例えば、Google Chromeを使用する場合、ChromeDriverをダウンロードする必要があります。WebDriverはブラウザのバージョンに合わせて選択してください。ChromeDriverのダウンロードリンク: https://sites.google.com/chromium.org/driver/
-
Seleniumスクリプトを作成:
PythonのスクリプトでSeleniumを使用してHTMLのテキストを取得します。以下は、Google Chromeを使用してHTMLのテキストを取得する例です。python from selenium import webdriver # ChromeDriverのパスを指定してWebDriverを起動 driver = webdriver.Chrome(executable_path='/path/to/chromedriver') # ターゲットのURLを開く driver.get('https://example.com') # ページからテキスト要素を選択して取得 text_element = driver.find_element_by_tag_name('body').text # ドライバーを閉じる driver.quit() # テキストを表示 print(text_element)
このスクリプトでは、driver.find_element_by_tag_name('body').textを使用してページ内の<body>要素のテキストを取得しています。適切な要素を選択して、その要素の.text属性を使用してテキストを取得できます。
スクリプトを実行すると、ページから取得したテキストが表示されます。

ディスカッション
コメント一覧
まだ、コメントがありません