本記事ではSeleniumを使って、ローカルにあるhtmlファイルを読み込み解析する方法をご紹介していきます。
Seleniumの使う前の準備は、下記の記事をご覧ください。
【Python】Seleniumを使うときの準備内容まとめ - TomoGのごちゃまぜ倉庫
本記事で紹介する処理
本記事で紹介する処理は、下記となります。
- ローカル環境にhtmlファイルを用意
- Pythonで、そのhtmlファイルを読み込み
- 結果をCSVファイルに出力
まずローカル環境にしたいる理由は、サーバー環境が要因です。
正常に動くかどうかも分からないプログラムの開発なので、まずはローカル環境だけで済むように設定しました。
次に結果の出力をCSVファイルにしたいる理由ですが、これは後ほど色んなデータに変換しやすくするためです。
最初はExcelファイルに出力にしようと思ったのですが、htmlファイル読み込みと同時にExcelの設定を行うと長大なコードの上に、html読み込み時間+Excel書き込み時間と処理の時間が長くなるため避けました。
Seleniumを使った方法
gistfc9114da5aaaafe7fe7ac5490919773d
※
今回はローカル内だけの作業なので、処理の待機時間は必要ないと思われます。
ただ慣例として置いておいた方が、違うコードにコピペした時などに安全です。
※
上記のプログラムを実行すると、当たり前ですがGoogleChromeが起動します。
待機時間を置いていることもあり、読み込むデータ数によっては完了までに時間がかかるためご注意ください。
Seleniumを使わない方法
gist2270a7a2ff480491aedd746cb9d742e4
htmlファイルを取得する時に使用したソフト
本記事を執筆するにあたり、前もってhtmlファイルをローカル環境に落とし込んでおく必要があります。
いくつかのテストhtmlを用意すればいいのですが、別件で使用する機会があった「HTTrack」というソフトを使用しました。
ダウンロードしたhtmlファイルは、自身のブログとなります。
本記事の内容は以上となります。
Webスクレイピングはサーバーに負荷をかける可能性のある行為なので、可能な限りローカル環境でしっかり動かせるようになってから試すことをおすすめします。
本記事の内容は、そのローカル環境で動くかどうかのテストに使用していただければ幸いです。
本記事は以上です。お疲れさまでした。