PythonでBeautiful Soupを試してみる。
PythonでHTMLの解析を行うのによさそうだったので、試してみることにした。
まず必要なのが、
BeautifulSoup
まずインストール(ってかファイルをPythonが読める場所にBeautifulSoup.pyを置くだけ。)
ここからダウンロードする。
それを今回は「site-packages」の下に置いてみた。
清水川Webを参考にさせてもらったためです。
やってみます。
>>> import urllib2
>>> opener = urllib2.build_opener()
>>> html = opener.open('http://kishi-r.com/2008/02/ubuntu_1.html').read()
>>> print html
ここでBeautifulSoupを使って「title」のみを解析してみます。
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup(html)
>>> soup.find('title',)
<title>kishi-r.com: Ubuntuをインストールしました。</title>
他にも「td」を検索してみる。
>>> soup.findAll('td',)
[<td>
</td>, <td>
</td>, <td>
</td>, <td>
</td>, <td>
</td>, <td><span class="today">
<a href="http://kishi-r.com/2008/02/01/">1</a>
</span></td>, <td><span class="calendar">
2</span></td>, <td><span class="calendar">
3</span></td>, <td><span class="calendar">
4</span></td>, <td><span class="calendar">
5</span></td>, <td><span class="calendar">
6</span></td>, <td><span class="calendar">
7</span></td>, <td><span class="calendar">
8</span></td>, <td><span class="calendar">
9</span></td>, <td><span class="calendar">
10</span></td>, <td><span class="calendar">
11</span></td>, <td><span class="calendar">
12</span></td>, <td><span class="calendar">
13</span></td>, <td><span class="calendar">
14</span></td>, <td><span class="calendar">
15</span></td>, <td><span class="calendar">
16</span></td>, <td><span class="calendar">
17</span></td>, <td><span class="calendar">
18</span></td>, <td><span class="calendar">
19</span></td>, <td><span class="calendar">
20</span></td>, <td><span class="calendar">
21</span></td>, <td><span class="calendar">
22</span></td>, <td><span class="calendar">
23</span></td>, <td><span class="calendar">
24</span></td>, <td><span class="calendar">
25</span></td>, <td><span class="calendar">
26</span></td>, <td><span class="calendar">
27</span></td>, <td><span class="calendar">
28</span></td>, <td><span class="calendar">
29</span></td>, <td>
</td>]
このBeautifulSoupを使った記事でおもしろそうだったのが、
Googleニュースで指定した単語を検索して、ヒット数を返すサンプルなどがありました。
とりあえず試してみようっと。
- Posted at:
- 2008/02/04 11:51:27
- 0 Comments
- 0 TrackBacks
- Tags:
- Python
- Trackback:
- http://kishi-r.com/2008/02/04/pythonbeautiful_soup/trackback/
TrackBacks
まだ登録されていません。


Comments
まだ登録されていません。