数据量单位pb是多大


众所周知,算法、算力与数据共同推动着人工智能(AI)的发展,正如吴恩达等学者所言,数据驱动的AI已成为了现代科技的核心。近年来,数据量的激增无疑为AI的进步提供了强大的源动力。那么,我们常常听到的“大数据”,其规模究竟有多大呢?

意大利物理研究者 Luca Clissa 对此进行了探索,他调查了2021年多个知名大数据源(如谷歌搜索、、Netflix等)的规模,并将其与大型强子对撞机(LHC)的数据规模进行了对比。

毫无疑问,LHC 所处理的数据量是极其庞大的,高达 40k EB。但商业公司的数据量也同样惊人。例如,亚马逊S3存储的数据量已达到大约 500 EB,相当于谷歌搜索的 7530 倍。

流数据在大数据市场中也占据重要地位。Netflix等流媒体服务产生的数据量远超单纯的数据生产者。

接下来,让我们更深入地了解这些数据细节。

一、LHC 的数据量

在 Luca Clissa 的研究中,2021年各大数据源的规模大致如下:

图注:描绘2021年的大数据规模

右上角(灰色部分)代表欧洲核子研究(CERN)的大型强子对撞机(LHC)实验所收集的数据,其规模是最大的。

在LHC的上一次运行(2018年)中,每个主要实验(ATLAS、ALICE、CMS和LHCb)每秒都会产生大量的粒子碰撞数据。每次碰撞都会产生约 100 MB 的数据,因此预计年产数据量约为惊人的 40k EB。由于技术和预算限制,完全存储这些数据是不可能的。实际上,只有一小部分数据被保留。尽管如此,收集的数据通过全球LHC计算网络(WLCG)不断传输,2018年产生了 1.9k PB的年流量。

值得注意的是,CERN正在进行HL-LHC升级,预计升级后生成的数据量将增加五倍以上。到 2026 年,每年预计将产生 800 PB的新数据。

二、大厂数据量对比

大公司的数据量难以追踪且通常不会公开。Luca Clissa采用了费米估算法来推测这些数据。他将数据生产过程分解为原子部分,并基于合理假设进行估算。

例如,他估算了谷歌搜索、YouTube、等数据源的数据量:

谷歌搜索:据估计,Google搜索引擎包含数十亿个网页。假设年度平均页面大小为 2.15 MB,则Google搜索引擎的数据规模约为 62 PB。

YouTube:每天用户在YouTube上上传大量视频。假设平均视频大小为 1 GB,则YouTube的数据量约为 263 PB。

与Instagram:每分钟上传的图片数量巨大。假设平均图片大小为 2 MB,和Instagram的数据量也相当可观。

DropBox:虽然Dropbox不产生数据,但作为云存储解决方案,其托管的用户内容规模巨大。据估计,用户在 2020 年所需的存储量约为733 PB。

电子邮件:电子邮件产生的数据量同样巨大。据估计,电子邮件的总流量约为 5.7k PB。

Netflix:Netflix用户每天消耗的流媒体播放时间很长,产生的数据量也十分庞大。

亚马逊:亚马逊S3中存储的对象数量超过了一定规模。假设平均每桶对象大小为 5 MB ,那么S3中存储的文件总大小约为 500 EB。