スクレイピング事例(ブログからコンテンツを抽出)

BeautifulSoupを使ってブログをスクレイピングする事例をご紹介します。
ブログのメイン文章自体を抽出するのはそれほど難しくありません。

 

# conding:UTF-8
from urllib.request import urlopen
from bs4 import BeautifulSoup

#スクレイピングしたいページを取り込みます。urlはダミーです。
html = urlopen(“http://——–.net/——–.html”)

#BeautifulSoupオブジェクトにページを取り込みます。
bsHtml = BeautifulSoup(html,”html.parser”)

#<div class=”blog”>で囲まれるコンテンツを取り込みます。
bsBlog = bsHtml.find(“div”,{“class”: “blog”})

#<div class=”text”>で囲まれるコンテンツを取り込みます。
bsBlogText = bsBlog.find(“div”,{“class”: “text”})

変数bsBlogTextにブログのメイン文章を取り込むことができました。

開発としては変数bsBlogTextに格納したコンテンツを蓄積データとして活用しやすい様にCSV形式に整形する部分に手間かかりました。

コメントは受け付けていません。