最近研究新浪微博的爬虫,微博api申请繁琐,限制很多,另想办法。
爬微博,首先要登录,httpclient可以做,麻烦,而且微博的登录密码的加密方式不停的在变化,再找找,发现了这个开源htmlunit,完全在java下模拟浏览器行为,这个方便,用来写个登录小程序,几行代码就可以登录,并获取登录后的页面内容。简单方便。
先继续琢磨一下。
◆
【Work】
新浪微博爬虫之htmlunit
◈
评论 (0)
暂无评论,快来抢沙发~
发表评论