B站数据分析与挖掘(b站数据结构与算法 谁的好)


用我饿不来的英文理解下就是无服务器,反正就是省钱省力省心,还可以直接调用OBS的数据,我们现在把操作业得来的CS文件上传到OBS上面。这里还有一些字段要改一下,像这个长整数。整数之类的。好,这些数据都导入了。来看。这里我们的OBS数据就直接显示出来了,下面就是执行SQL语句的地方,不过单个队列价格有点肉疼,我们计划使用这个default公共队列不要钱,就是执行效率稍微差一点,当然数据量大的同学还是建议加钱获得更好体验。

B站数据分析与挖掘(b站数据结构与算法 谁的好)

刚才看了一下它自带的图表工具,又很简单。还只有单一结果。我又找到了一个工具,数据可视化div。它的功能就是大数据分析的结果,一个或多个以图表的形式呈现。好看也方便,根据支持数据源的多少以及对图表的炫酷程度要求,从基础版61年到专业版一千二百五十一个月不等。好的,那我们现在进到DRV创建一个数据大屏,如何从海量的数据里获取有价值的信息,其实是一门深奥的学问。那么在拥有了这一周的数据以后,我们比较关心的是科技区的哪些up主这这一周更受观众的喜爱,这我们就可以虚心的向他们操学习了。

那么怎样才算最受粉丝喜爱呢?这个评判可以有很多维度啊。这里我们选取的是B站最有代表性的一键三连,虽然每个稿件的三连数没法直接抓取到,但是我们通过一键三连的原理可以知道,一个一键三连必定是包含了一个点赞、两个投币和一个收藏的,那么取这个三者的最小值,我们就可以得到理论上这篇稿件得到了三年的最大数。当然,光有这个值是不公平的,因为可以预想到的是,播放量越高,获得的三年越多。所以我们拿这个三年的最大值再除以稿件的播放量,然后乘以1万,就得到了平每万次播放量可以获得多少次三年?我们执行这条语句。

说实话,这些up主一个都没见过,是发现了什么宝藏吗?并且好几个都是抽奖的。你点进去发现稿件都找不到了,是被B站封禁了吗?你不懂?我们意识到了一个问题啊,榜单前列的很多稿件播放量都极少,分母越少越占便宜啊,那我们来设置一下条件,过滤掉1万播放量以下的稿件,来看看结果,诶,这次结论就不一样了。大家对所写还是挺感兴趣的呀。我们再把门槛提高到10万,看看是个什么情况呢?哦,现在就是大佬的天下了,大部分名字大家应该都很熟啊,OK,我已经默默的把这些人记到了小本本上了。接下来我们还想了解一个情况,就是哪些up主的稿件获得了更高的互动。