Create  Edit  Diff  FrontPage  Index  Search  Changes  History  RSS  Login

FrontPage

Ruby Scraping

RubyによるWeb Scrapingライブラリの情報をまとめるためのWikiです。

Nokogiri
HTMLをjQuery風に操作するライブラリ。Hpricotの書き直し版
Hpricot
HTMLを「Rubyらしく」扱うライブラリ
Mechanize
Webサイトへ自動でアクセスするためのライブラリ
scRUBYt!
DSLを使って簡単にスクレイピングを行うライブラリ
feedalizer
htmlからRSSフィードを作るのに役立つライブラリ
scrAPI
パーサを定義することでHTMLを解析するライブラリ

スクレイピングとは

ウェブサイトから必要なデータを抽出すること。(Scrape = 削り取る)

ライブラリによっては、受信したデータの解析だけでなくデータの送信にも対応している。

例:

  • Technology essays
  • RSSを配信していないウェブサイトのHTMLをスクレイピングして野良RSSを作る
  • Googleの検索結果をスクレイピングして自動でGoogle検索するスクリプトを書く
  • ブログの投稿ページを解析して、コマンドラインからブログに投稿するスクリプトを作る

などなど…。

Last modified:2010/02/08 07:05:40
Keyword(s):
References:[SideMenu]