你好,欢迎来到博今文化,中国最权威的职称论文投稿平台!

计算机技术学 大数据时期不同角度划分数据质量问题

博今文化 / 2020-02-06

  摘要:随着云时期的来历,大数据技术也越来越惹起人们的关注。大数据带来的宏大的技术和商业机遇使众多的企业趋之若鹜。大数据剖析发掘和应用将为企业带来宏大的商业价值,但随着数据范围的急剧剧增,数据体量宏大、数据类型繁多,数据的价值良莠不齐,在数据剖析时将招致剖析偏向。所以在大数据时期,数据的质量问题也是重中之重。经过剖析,数据的质量问题主要存在这六大方面的问题:精确性、完好性、分歧性、相关性、时效性、可信性和可解释性。

  关键词:大数据; 质量问题;

  1、从采集的角度划分质量问题

  1.1 精确性

  精确性是指数据能否正确的,数据存储在数据库中的值能否对应于真实世界的值。例如,某用户在运用支付宝绑定银行卡时,网站请求考证用户的真实姓名和身份证号码。假如用户提供的证件号码与实践号码分歧,那么该号码存储在数据库中的值就是正确的。

  数据的不精确由如下缘由形成:一是在搜集数据时,设备呈现毛病,招致数据存储的值呈现乱码。二是在数据输入时,人为的输入不精确的信息,或者计算机内部出错招致录入的信息有误,比方我们上网注册一些信息时,出于隐私思索,用户会成心输入不正确的信息,包括年龄、地址、手机号等。 三是在数据传输的过程中呈现错误。比方,超出了传输缓冲区的大小,数据会呈现截断等现象。最后一种是命名商定、数据代码、输入字段的格式不分歧招致出错。其中,最常见的是:不按格式输入招致出错,例如输入字段为日期时,多个用户输入日期的格式不分歧。

  1.2 完好性

  完好性是指信息具有一个实体描绘的一切必需的局部。在传统关系型数据库中,完好性通常与空值(NULL)有关。空值是指缺失或不晓得详细的值,可能是一条记载中的某个属性缺失,也可能是整条记载都丧失。

  不完好的数据对数据剖析会产生影响,比方思索结构一个预测交通事故发作率的模型。假如疏忽了驾驶员的年龄和性别信息,那么除非这些信息能够间接地经过其他属性得到,否则模型的精度可能是有限的。这种状况下,我们就需求尽量采集全面的数据信息。

  1.3 分歧性

  数据分歧性是指在数据库中,不同表中存储和运用的同一数据应当是等价的,表示数据有相等的值和相同的含义。

学生信息表

专业信息表

  比方表1描绘学生的根本信息,包括学号、姓名、性别、出华诞期和所在专业,而所在专业必需从专业信息表获取。表2描绘了专业的根本信息。从这两个表能够看到,表1中的学生李想所在的专业号并没有呈现在表2中,阐明该条记载的专业号有误,必需修正正确,才干保证两张表对应字段的正确性,这是数据的逻辑不分歧。 数据不分歧还表现在记载的不标准上,比方两个表中对日期的格式记载不分歧,如20100405和2019年4月5日这两种格式,会招致在数据集成中形成数据抵触。

  另外在数据呈现冗余的状况下,数据内容由于各种缘由比方并发控制不当,或程序毛病招致前后数据不一样也是形成数据不分歧的缘由。

  2、从应用的角度划分质量问题

  2.1 相关性

  数据的相关性是指数据与特定的应用和范畴有关。与数据相关的应用场景普通有,比方停止数据发掘或结构模型预测时,需求采集相关的数据。例如思索结构一个模型,预测交通事故发作率。假如疏忽了驾驶员的年龄和性别信息,那么除非这些信息能够间接地经过其他属性得到,否则模型的精度可能是有限的。这种状况下,我们就需求尽量采集全面的相关的数据信息。

  另外一个相关性的质量问题表如今相同的数据,在不同的应用范畴中,相关性也是不一样的。例如,关于某个公司的大型客户数据库,由于时间和统计的缘由,顾客地址列表的正确性为80%,其他地址可能过时或不正确。当市场剖析人员访问公司的数据库,获取顾客地址列表时,基于目的市场营销思索,市场剖析人员关于该数据库的精确性称心度较高。而当销售经理访问该数据库时,由于地址的缺失和过时,对该数据库的称心度较低。

  2.2 时效性

  数据的时效性是指有些数据会随时间而变化的,这些数据搜集后就开端老化,运用老化后的数据停止数据剖析、数据发掘,将会产生不同的剖析结果。 如商品引荐。顾客的当时购置行为或Web阅读行为称为快照,它只代表有限时间内的真实状况。假如数据曾经过时,则基于它的模型和形式也就曾经过时,所以停止商品引荐需求采集当前的数据停止剖析和引荐。在这种状况下,我们需求思索重新采集数据信息,及时对数据停止更新。

  另应用场景是城市的智能交通管理。以前没有智能手机和智能汽车,很多大城市固然有交管中心,但它们搜集的路况信息十分滞后。用户看到的,可能曾经是半小时前的路况了,那这样的信息就没有什么价值。但是,能定位的智能手机提高以后可就不同。很多用户开放了实时位置信息,做地图效劳的公司,就能实时得到人员活动信息,并且依据活动速度和所在位置,辨别步行的人群和汽车,然后提供实时的交通路况信息,给用户带来便利。这就是大数据的时效性带来的益处。

  3、从用户的角度划分质量问题

  3.1 可信性

  数据的可信性由三个要素决议:数据来源的权威性、数据的标准性、数据产生的时间。例如新浪微博某一用户发布的微博内容能否具有可信性,首先肯定数据来源能否具有权威性,假如是权威机构的数据,那么可信度比拟高。假如微博字数较长且叙说比拟细致,可信度也会增加。同时微博的发布时间能否接近实时,也影响数据的可信度。

  3.2 可解释性

  数据的可解释性,也称为可读性,是指数据被人了解的难易水平,假如数据具有解释性或包含有注释性信息,而且数据书写标准,则数据的可解释性越高。相反假如数据晦涩难懂就基本不具备剖析的条件。

  当我们在数据采集和处置时能处置好这六种数据质量问题,则在大数据剖析中,就会得到正确及适用的信息。