见世界

爬行动物

上个项目用了一个模块化的php爬虫。
这次有机会一展所长,一周时间写了这个。抓取部分用了threads模块,效率还可以。

b2c_crawler.gif

 

 

 

 

搭配db服务,实现抓取/更新和统计。作为一个解决方案能够满足要求。
尽管我已经把不同网站间的变化尽力封装进data_picker,但还是觉得不够通用。
1.仍需要编写针对性的代码;2.得到数据在db层面
至多算是个程序员工具,甚至可能只是我的工具。
不知道那些发布自用爬虫出去的人是怎么构架的。

关于perl语言,至今没有通读骆驼书,缺一步查漏补缺的过程。基础不扎实,有时碰到问题,不免怀疑走了弯路。加了群,感觉氛围不是太好。
又有人推荐学python。我觉得py不如pl这么有人文气息,更重要的是pyer缺少pler这种二感啊。