htmlのタグを指定して値を取り込む
先日書いた日記の改善事項について。
http://yuizho.hatenablog.com/entry/2013/04/07/005055
htmlを読み込んで、タグ内の値を取り込むときはlxml, Beautiful Soupなどのモジュールをしようするとうまくいく。
※あらかじめ、easy_installなどでモジュールを取り込んでおく
上記のモジュールを使用しない力技の例
html = f.read() titleIndex = html.find('<title>') + len(u'<title>') title = html[titleIndex:] title = title[:title.find('<')]
lxmlを使用した例
html = f.read() dom = lxml.html.fromstring(html.decode('utf-8')) #titleタグのinnerTextを取得 title = dom.xpath('//title')[0].text
dom.xpath('//title')
でhtml内の、titleタグの値をすべて取り込んでリストにセットしてるらしい。
参考:http://www.cafe-gentle.jp/challenge/tips/python_tips_001.html
非常に参考になりました。