`

大数据与传统数据

阅读更多

小编说:在这个人人都说大数据的时代,许多人对大数据的印象只是停留在仰望的阶段,其实大数据没人们说得那么神奇、玄乎或者是无所不能,今天我们就以传统数据作为比对,看看大数据究竟有什么特点让其处于时代的浪潮之巅。 
本文选自《从1开始——数据分析师成长之路》。

  大数据与传统数据相比的主要特点可以概括为:数据量“大”、数据类型“复杂”、数据价值“无限”。 
【图1】
  数据量大十分好理解,以前我们存储数据使用的单位是 KB,一个Excel表格也就几十到几百KB,现在我们经常说到GB甚至是TB乃至PB的数据量级,它们的数量关系如下所示。 
                       1MB=1024KB 
                       1GB=1024MB 
                       1TB=1024GB 
                       1PB=1024TB 
  更直观一点,1KB相当于512个汉字,1MB就相当于六本红楼梦的字数……而淘宝网在2015年3月每天大约能产生7TB的数据量,相当于4000万本红楼梦的数据量,而中国最大的图书馆中国国家图书馆的藏书量是3000万册。由此看来,我们的大数据着实是数据量巨大了。而只说能够产生如此大量数据的原因有哪些呢?我们不妨从数据获取的方式、数据传输的方式和数据存储的方式来探讨数据量大的这个问题。 
  数据获取方式的质变是大数据能够产生的核心要素。传统的数据获取方式多是以人工的方式获取数据,最大的特点是手动输入数据,曾有一段时间,超市是通过要求收银员键入用户特征来采集用户数据的,键盘的样子大体上会是如图3-3所示的造型。 
【图2】
  超市通过这样的方式来收集用户的数据,对收集的数据进行分析,来对用户画像与人群定位。试想在超市每天如此大的接待量情况下,收银员能否保证数据录入的准确性呢?与此同时,通过人工输入的方式每天能够采集多少数据呢?类似的这种键盘记录的方式还有许多人工录入数据的方式不再一一举例,传统记录数据的方式必定只能是小范围的,少量的和准确度欠佳的。而现在的数据获取方式大多是通过URL传输和API接口,大体上数据获取的方式有这样几类:爬虫抓取、用户留存、用户上传、数据交易和数据共享。 
【图3】
  自有数据与外部数据是数据获取的两个主要渠道。在自有数据中,我们可以通过一些爬虫软件有目的的定向爬取,比如爬取一批用户的微博关注数据,某汽车论坛的各型号汽车的报价等。用户留存多是用户使用了公司的产品或是业务,用户在使用产品或是业务中会留下一系列行为数据,这个构成了我们的数据库主体,通常的数据分析多基于用户留存的数据。用户上传数据诸如持证自拍照、通讯录、历史通话详单等需要用户主动授权提供的数据,这类数据往往是业务运作中的关键数据。相较于自有数据获取,外部数据的获取方式简单许多,绝大多数都是基于API接口的传输,也有少量的数据采用线下交易以表格或文件的形式线下传输。此类数据要么采用明码标价一条数据多少钱,或是进行数据共享,交易双方承诺数据共享,谋求共同发展。 
  至此,我们看到新时代的数据获取形式相较于传统数据获取的方式更加多元、更加高效。 
  同样的大数据与传统数据的传输方式也截然不同。传统数据要么以线下传统文件的方式,要么以邮件或是第三方软件进行传输,而随着API接口的成熟和普及就好像以前的手机充电接口,从千奇百怪、五花八门到今天的两大主要类别:iPhone系统与Android系统。API接口也随着时代的发展逐渐标准化、统一化,一个程序员只用两天的时间就能完成一个API接口开发,而API接口传输数据的效率更是能够达到毫秒级。 
  在数据存储方面,大数据的存储环境相较于传统数据的存储已经跃升了好几个数量级。犹记得十多年前软盘还非常高级,存储量达到20MB的软盘已然很贵,更别说U盘和移动硬盘了。 
  大数据与传统数据的另一个显著差异是数据类型的丰富。传统数据更注重于对象的描述,而大数据更倾向与对数据过程的记录。为了便于大家理解,下面简单的举个例子说明传统数据与大数据的记录方式有何区别。 
  传统数据的记录方式如下表。 
【图4】
  大数据的记录方式如下表。 
【图5】
  很明显地看到,传统数据和大数据记录数据的最大区别是大数据不仅对对象进行了描述,还加入了时间、地点等维度,这样的数据记录的是一个过程,从小明进入餐厅之前开始一直到小明离开餐厅,这整个过程都会被记录下来。而传统数据的记录方式更倾向于对结果的简单描述。 
  当然,大数据能记录的用户就餐数据远不局限于上述所列的字段,理想状况的大数据监控甚至会记录用户吃饭的方式、吃饭时的行为、吃饭时的面部表情等一系列数据,这些数据反映了用户对就餐环境的感受,对餐食口味的反应,进一步可以用来改进就餐环境、食物口味,给出点餐建议。 
  大数据与传统数据的核心差异在于其价值的不可估量。传统数据的价值体现在信息传递与表征,是对现象的描述与反馈,让人通过数据去了解数据。而大数据是对现象发生过程的全记录,通过数据不仅能够了解对象,还能分析对象,掌握对象运作的规律,挖掘对象内部的结构与特点,甚至能了解对象自己都不知道的信息。 
  诸如某百科对一个人的描述与概括,记录了这个人的身高、体重、出生年月、兴趣爱好、日常活动、亲朋好友等数据,这些算是传统数据,通过这些传统数据你能知道和认识这个人。如果用大数据的方式来记录一个人,那就可以详细到他几点起床、睡眠质量、身体状况、每个时间点在做什么事等一系列过程数据,通过这些过程数据我们不仅知道和认识这个人,还能知道他的习惯性格,甚至能挖掘出隐藏在生活习惯中的情绪与内心活动等信息。这些都是传统数据所无法体现的,也是大数据承载信息的丰富之处,在丰富的信息背后隐藏着巨大的价值,这些价值甚至能帮助人们达到“所思即所得”的境界。 
  大数据价值的特殊之处就在于它的可挖掘性,同样的一堆数据,不同的人能得到不同层次的东西。就好像同样见一个人,有些人只看他的外貌好不好看,有些人能从他的表情中读出心理活动,从眼神中看出阅历,从衣着打扮中读出品味,从鞋子上读出生活习惯。而这些深层次的非表象的内容需要技巧与实力去挖掘出来,这就是我们说的数据分析与数据挖掘。 
  本文选自《从1开始——数据分析师成长之路》,点此链接可在博文视点官网查看此书。 
                     图片描述

  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                  图片描述

分享到:
评论

相关推荐

    大数据时代的数据治理.pptx

    数据平台的发展 1981 1999 2003 2005 2007 2009 2011 2013 2019 1988 1992 1996 数据平台发展情况 第一个DW "数据仓库"概念提出 数据集市 传统数据仓库兴起 Hadoop项目诞生 大数据计算 大数据处理 新一代数据平台 ...

    大数据平台架构.doc

    巨杉软件SequoiaDB产品和案例介绍 v2》P14 "大数据与传统数据处理",说明处理模式的差异。 2 大数据平台总体框架 大数据平台总体技术框架分为数据源层、数据接口层、平台架构层、分析工具层和业 务应用层。如下图所...

    大数据导论课件,第一章什么是大数据

    课程目标:搭建起通向“大数据知识空间”的桥梁和纽带;构建知识体系、阐明基本原理...大数据与传统数据的对比) 大数据的关键技术 大数据的应用与挑战(大数据的影响; 大数据的应用; 大数据的应用案例; 大数据的挑战)

    大数据与互联网经济解读.pptx

    4 V 特征 种类多(Variety) 速度快(Velocity) 价值高(Value) 体量大(Volume) 大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;...

    大数据环境下的数据质量管理策略.docx

     大数据时代下的数据与传统数据呈现出了重大差别,直接影响到数据在流转环节中的各个方面,给数据存储处理分析性能、数据质量保障都带来了很大挑战。大数据与传统数据对比如表1所示。 大数据环境下的数据质量管理...

    大数据与大数据技术(1).pptx

    大数据平台计算框架 传统数仓功能 非结构化流式挖掘分析 大数据与大数据技术(1)全文共58页,当前为第13页。 软件架构 (举例) DATA PLATFORM(HDFS) 灵活数据准备 SQL in Hadoop 数据挖掘与预测 S Q L(ODBC、JDBC...

    大数据与数据挖掘.doc

    大数据时代的到来颠覆了 工业界、学术界对传统数据的认知,同时也引起了数据获取、存储、分析、挖掘以及可 视化等技术的变革。 根据大数据处理的生命周期,大数据的技术体系有大数据的采集与预处理、大 数据存储与...

    大数据时代传统广告公司业务战略转型研究.pdf

    大数据时代传统广告公司业务战略转型研究.pdf

    浅析大数据时代传统媒体与新媒体的融合.pdf

    浅析大数据时代传统媒体与新媒体的融合.pdf

    大数据应用场景-大数据预测.pptx

    大数据预测的优势 05 大数据预测则是基于大数据和预测模型去预测未来某件事情的概率,让分析从"面向已经发生的过去"转向"面向即将发生的未来"是大数据与传统数据分析的最大不同 大数据预测的优势体现在它把一个非常...

    基于Spark的工业大数据处理可视化平台应用研究

    分析了工业大数据与传统数据的不同点。简单介绍了如何利用Spark MLlib机器学习算法去分析工业大数据。分析介绍了在可视化平台搭建所要处理的一些技术问题,技术原理,制定了平台搭建的流程。最后对可视化平台进行了...

    大数据技术 数据仓库原理设计与应用 第5章 传统数据挖掘技术(共35页).ppt

    大数据技术 数据仓库原理设计与应用 第5章 传统数据挖掘技术(共35页).ppt 大数据技术 数据仓库原理设计与应用 第6章 现代数据挖掘技术与发展(共41页).ppt 大数据技术 数据仓库原理设计与应用 第7章 数据仓库应用...

    大数据时代的数据科学与数据驱动决策.docx

    大数据时代的数据科学与数据驱动决策全文共4页,当前为第1页。大数据时代的数据科学与数据驱动决策全文共4页,当前为第1页。大数据时代的数据科学与数据驱动决策 大数据时代的数据科学与数据驱动决策全文共4页,当前...

    大数据应用场景之-大数据预测.doc

    大数据应用场景之-大数据预测 大数据预测概述 l大数据预测则是基于大数据和预测模型去预测未来某件事情的概率,让分析从"面向 已经发生的过去"转向"面向即将发生的未来"是大数据与传统数据分析的最大不同 l大数据...

    大数据的简介及案例.pptx

    目录 大数据的概念 大数据与传统数据的区别? 大数据的典型特征(4V) 广义的大数据 大数据应用案例 2 大数据的简介及案例全文共36页,当前为第2页。 大数据的概念 大数据(Big Data)是指无法用现有的软件工具提取、...

    探析大数据下传统媒体与新媒体融合发展路径.pdf

    探析大数据下传统媒体与新媒体融合发展路径.pdf

    大数据的认知.pdf

    因此,由此可见大数据与传统数据不同,并为我们 展现出很高的应用价值。 从体量巨大、结构繁多的海量数据中,快速获得有价 值信息的能力,就是大数据技术。云计算在存储和计算上 都体现了数据为核心的理念。云计算为...

    大数据云计算.pptx

    最后一个特点是指数据真实性高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。 "大数据"是需要新处理模式才能具有更强的...

    大数据核心应用.docx

    让分析从"面向已经发生的过去"转向"面向即将发生的未来"是大数据与传统数据分析的最大不同。 大数据预测的逻辑基础是,每一种非常规的变化事前一定有征兆,每一件事情都有迹可循,如果找到了征兆与变化之间的规律,...

    大数据与大数据技术.pptx

    大数据平台计算框架 传统数仓功能 非结构化流式挖掘分析 大数据与大数据技术全文共59页,当前为第13页。 软件架构 (举例) DATA PLATFORM(HDFS) 灵活数据准备 SQL in Hadoop 数据挖掘与预测 S Q L(ODBC、JDBC、、...

Global site tag (gtag.js) - Google Analytics