sponsored links

爬虫

【爬虫之路】A站文章围观量&B站视频播放量的简单爬虫想法

November 30
【爬虫之路】A站文章围观量&B站视频播放量的简单爬虫想法
众所周知,acfun与bilibili一直是国内受到广泛关注的宅社区以及二次元社区,一直以来我有一个想法,便是如何获知两个网站里最有意思的作品,仅仅依靠官方的推荐并不足以满足个人化的需求. 于是这只小爬虫便诞生了. 0.一开始的想法是抓取b站av8到av2000000+的近两百万个视频的播放量,然后降序排序. 但面临着两个问题,一是播放页并非静态网页,播放量来自于js自动生成,于是我们通过抓取一个视频的uid与aid来打开含有播放量的静态页面,从而达到目的. 二是某些投稿已被和谐,会出现404

Scrapy爬取jav图书馆人气女演员作品链接

November 30
Scrapy爬取jav图书馆人气女演员作品链接
jav图书馆是个多么神奇的地方这里不用多说,大家经常在此提升自己的姿势水平-而这个网站是不提供资源链接下载的,在使用的过程中,常常会有这样的感觉:疲于查看喜欢的演员作品更新,并去其他网站收集神秘代码.这样的工作重复且无聊,很费时间和精力,如果有一个东西能将现在top20的人气女演员的所有作品的资源链接一键下载到本地,那该多好啊!而这,并不是梦. 使用scrapy爬虫框架可以轻松做到这样的事情.这个爬虫,由top20页面始,分别进入各个演员的作品列表页面搜集神秘代码,以及相应的标题和出版时间信息,

新浪微博评论爬虫小DEMO

November 30
新浪微博评论爬虫小DEMO
微博模拟登陆(用户手动输入): (1) POST代理 (2) COOKIE登陆 http://www.cnblogs.com/EmilySun/p/6158147.html Chrome浏览器打开m.weibo.cn,右键点击检查-> Network->XHR 复制cookie 要爬取的评论网页URL(用户手动输入) Url rnd1487914749536">http://weibo.com/2033175114/EwQWIk54D?refer_flag=1001030106

百亿级全网舆情分析系统存储设计

November 30
百亿级全网舆情分析系统存储设计
摘要: 前言 在时下互联网信息的浪潮下,信息的传播速度远超我们的想象.微博里一条大V的帖子,朋友圈的一个状态更新,热门论坛的一条新闻,购物平台的购物评价,可能会产生数以万计的转发,关注,点赞.如果是一些非理性负面的评论会激发人们的负面感,甚至影响到消费者对企业品牌的认同,如果不能及时的采取正确的应对措施,会造成难以估计的损失. 前言 在时下互联网信息的浪潮下,信息的传播速度远超我们的想象.微博里一条大V的帖子,朋友圈的一个状态更新,热门论坛的一条新闻,购物平台的购物评价,可能会产生数以万计的转发