pythonでのスクレイピングメモ
スクレイピングのメモ。
//Toolをpipでインストール
$ pip install reqests
$ pip install lxml
$ pip install cssselect
$ pip install feedparser
#サンプル
import requests
import lxml.html
#html取得
r = requests.get('{URL}')
html = r.text
#オブジェクト化
root = lxml.html.fromstring(html)
#xpath
elements = root.xpath("/html/{XPATH}")
#selecter
elements = root.cssselect("body h1")
#for
for tag in elements:
print(tag.text)
import feedparser
rss = feedparser.parse('https://www.shoeisha.co.jp/rss/index.xml')
print(rss)
print(rss.version)
print(rss['feed']['title'])
for content in rss['entries']:
print(content['title'])