搞个“爬虫”出来
今天用了下feed43,感觉挺不错的。
现在网上大多数网站、blog都会提供rss订阅,但也有一些提供信息的网站、网页不提供feed输出。不要紧,使用feed43将普通网页中自己关心的内容输出feed,然后在通过各种RSS阅读器,MSN、Gtalk订阅提醒等及时得到相关内容更新的讯息。
这也算是个伪“爬虫”吧,只不过是feed43帮我去爬,更新效率和稳定得看它的了,今天下午GoogleReader中就出现了不稳定的情况,刚刚注册了哪吒,打算用MSN机器人试一试看效果如何。
做这个尝试是因看了这个帖子,我自己今天试着把珠海视窗跳蚤市场上的租房信息和酷讯上的信息抓出来,挺有意思,下次找房子可以尝试下这招,效率应该会高不少~
目前网上提供这种服务的应用应该不少,不过都没怎么尝试。
当然了理想状态就是自己学着写个爬虫实现自己的定制。
看来要要努力学习学习了~
-------------效果风格线-------------------------
feed43抽取feed的时候的搜索条件的多少可能会影响feed的稳定性和效率。
有时候会出现如下错误:ERROR: One of search patterns is too heavy or malformed.
看来爬虫还是自己养的比较可靠~