pythonでのスクレイピングメモ

スクレイピングのメモ。

//Toolをpipでインストール
$ pip install reqests
$ pip install lxml
$ pip install cssselect
$ pip install feedparser
#サンプル
import requests
import lxml.html

#html取得
r = requests.get('{URL}')
html = r.text

#オブジェクト化
root = lxml.html.fromstring(html)

#xpath
elements = root.xpath("/html/{XPATH}")

#selecter
elements = root.cssselect("body h1")

#for
for tag in elements:
    print(tag.text) 
import feedparser
rss = feedparser.parse('https://www.shoeisha.co.jp/rss/index.xml')
print(rss)
print(rss.version)
print(rss['feed']['title'])
for content in rss['entries']:
    print(content['title'])