HTML を RSS1, RSS2, Atom フィード化するツールを公開しました
URL: http://feedbyselectors.appspot.com/
FeedbySelectors は CSS セレクタを用いて HTML をスクレイピングするツールです。
CSS セレクタを使える為、規則的に書かれた HTML の更新内容を上手くフィード化できます。
使い方:
- CSS セレクタ(h3.title など)を指定します。
- 欲しいテキストの種類
- 要素についてある属性の値が欲しい場合は属性名(href など)を指定します。
- 属性値ではなく要素内容が欲しい場合は属性名は指定しません。
例えば
- セレクタ: head > meta
- 属性: content
と指定すると "text/html; charset=UTF-8" というテキストが得られたりします。
上記のようなセレクタと属性の設定をフィードの 「タイトル用」、「リンク用」、「概要用」、「日付用」 ごとに行えます。
一分ごとにフィード生成の巡回スクリプトが走るので、設定が適切であればフィードが作成されます。
ソースコードは Apache License 2.0 にて github に公開しています。
バグ、脆弱性や情報が漏洩しているなどが判明しら場合は報告をしていただけると助かります。
作るにあたり、助言や励ましてくれた方、また有用な情報をまとめてくださっている各ドキュメント、ブログのエントリーに感謝します。