htmlのタグを指定して値を取り込む

先日書いた日記の改善事項について。
http://yuizho.hatenablog.com/entry/2013/04/07/005055

htmlを読み込んで、タグ内の値を取り込むときはlxml, Beautiful Soupなどのモジュールをしようするとうまくいく。
※あらかじめ、easy_installなどでモジュールを取り込んでおく

上記のモジュールを使用しない力技の例

html = f.read()
titleIndex = html.find('<title>') + len(u'<title>')
title = html[titleIndex:]        
title = title[:title.find('<')]


lxmlを使用した例

html = f.read()
dom = lxml.html.fromstring(html.decode('utf-8'))
#titleタグのinnerTextを取得
title = dom.xpath('//title')[0].text

dom.xpath('//title')
でhtml内の、titleタグの値をすべて取り込んでリストにセットしてるらしい。

参考:http://www.cafe-gentle.jp/challenge/tips/python_tips_001.html
非常に参考になりました。