htmlのタグを指定して値を取り込む

htmlを読み込んで、タグ内の値を取り込むときはlxml, Beautiful Soupなどのモジュールをしようするとうまくいく。
※あらかじめ、easy_installなどでモジュールを取り込んでおく

上記のモジュールを使用しない力技の例

html = f.read()
titleIndex = html.find('<title>') + len(u'<title>')
title = html[titleIndex:]        
title = title[:title.find('<')]

lxmlを使用した例

html = f.read()
dom = lxml.html.fromstring(html.decode('utf-8'))
#titleタグのinnerTextを取得
title = dom.xpath('//title')[0].text

dom.xpath('//title')
でhtml内の、titleタグの値をすべて取り込んでリストにセットしてるらしい。