首页 > 实用文档 > 推荐 >

干货!做大数据什么最重要?

成考报名   发布时间:12-01    阅读:

干货:大数据时代不容忽视的优质数据来源
干货!做大数据什么最重要? 第一篇

干货:大数据时代不容忽视的优质数据来源

在做市场调研、行业分析的过程中我们经常需要各种数据来证明观点,或者从大数据中寻找规律,那么有哪些客观优质的数据来源呢?今天就给大家网罗献上一批,抛砖引玉,欢迎大家补充。

搜索指数

百度指数:以百度海量网民行为数据为基础的数据分享平台。在这里,你可以研究关键词搜索趋势、洞察网民需求变化、监测媒体舆情趋势、定位数字消费者特征;还可以从行业的角度,分析市场特点。

360搜索的大数据分享平台。通过指数查询,可掌握关键字热度趋势、理解用户真实需求、了解关键字搜索的人群属性。

谷歌趋势:是Google推出的一款基于搜索日志分析的应用产品,它通过分析Google全球数以十亿计的搜索结果,告诉用户某一搜索关键词各个时期下在Google被搜索的频率和相关统计数据。

媒体指数

微指数:微指数是新浪微博的数据分析工具,通过关键词的热议度,以及行业/类别的平均影响力,来反映微博舆情或账号的发展走势。

百度风云榜:以数亿网民的单日搜索行为作为数据基础,以关键词为统计对象建立权威全面的各类关键词排行榜,以榜单形式向用户呈现基于百度海量搜索数据的排行信息,线上覆盖十余个行业类别,一百多个榜单,发现和挖掘互联网最有价值的信息、资讯,直接、客观地反映网民的兴趣和需求。

国家数据统计网站

中国综合社会调查:始于2003年,是我国最早的全国性、综合性、连续性学术调查项目。CGSS系统、全面地收集社会、社区、家庭、个人多个层次的数据,总结社会变迁的趋势,探讨具有重大科学和现实意义的议题,推动国内科学研究的开放与共享,为国际比较研究提供数据资料,充当多学科的经济与社会数据采集平台。目前,CGSS数据已成为研究中国社会最主要的数据来源,广泛地应用于科研、教学、政府决策之中。

中国统计数据库:国家统计局在2008年创建的”中国统计数据库"基础上,于2013年建立了新版统计数据库。这里可以查询到国家统计局调查统计的各专业领域的主要指标时间序列数据,还可以按照个人需求制作个性化统计图表。

北京市宏观经济与社会发展基础数据库:是反映北京地区经济和社会发展总体情况各方面数据的共享资源数据库。北京宏观库中的数据可以分为进度数据、历史数据,以及各种普查数据和大型调查数据等等。

中国金融信息网数据: 中国金融信息网是新华社金融信息平台(新华08)主办的国家级专业财经网站。依托新华08庞大的结构化数据库,提供全球财经数据以及股票、基金、期货、债券、外汇、黄金等市场行情,整合新华社每日价格监测信息。

科技IT数据来源

和IT、电信、消费电子、应用软件领域有很深积累,每年都会发布全球市场智能手机、平板电脑、PC出货量,经常关注科技资讯的知友对它们应该很熟悉。除了科技产业,IDC和Gartner还会定期公开能源、健康、制造等的调研数据。进行相关领域研究时,可以将它们的数据作为一项参考。

媒体与营销数据来源

皮尤:独立民调机构,调查范围覆盖政治、社会趋势、宗教,媒体新闻、科技互联网,调查报告和数据可以免费查看。皮尤具有非常现代化的网页设计,体验好过大多数调研机构网站。 YouTube统计平台,可以提供不同频道的订阅数、排名、视频观看量等数据。VidStatsX数据的时间跨度很大,时效性也很强,可以观察一些爆款视频的数据变化。

国外综合性市场研究机构

购买行为等多项内容,有时还会提供具有代表性的案例研究。

好、品牌认知度等内容。Kantar对公众比较开放,网站上的数据和分析可以免费查看。

:一家在教育、能源、医疗领域均有研究的市场分析公司,但最擅长的领域还是媒体营销。comScore的数据通常涉及网站流量、流媒体视频消费、用户购买行为等,对美国本土市场的研究很深入。过去几年,comScore以每年一期的节奏发布美国应用市场报告,分析当年应用市场的现状和未来趋势。今年移动市场表现出非常明显的衰落迹象,comScore两年前就发现了。 NPD每年访问超过1200万顾客,服务范围覆盖服装、电气、汽车、消费电子、体育等多个领域。它能够提供产品销量预测、用户行为等数据。

大数据对于企业的重要价值是什么
干货!做大数据什么最重要? 第二篇

当网络已经迅速的融入到人们的工作和生活当中,企业的经营管理过程中也无法离开网络,尤其是随着大数据时代的到来,对于企业来说,经营管理已经不仅仅是人为控制的活动,更多的是大数据操控的经营理念问题。那么,大数据对于企业的重要价值到底是什么呢?下面,就让我们一起来了解一下吧。

第一、分清大数据的含义

当人们的工作和生活被“大数据”概念不断充斥的时候,企业则不能在这个概念问题上有误会,要分清楚大数据的含义。大数据并不等同于数据分析。禧 金大数据具有更为告诉、大规模、多样性的特点,企业能够利用大数据对各种经营管理过程中所产生的数据进行有效迅速的收集、处理和分析,对有价值的数据进行提取,从而能够获得对于企业的发展和经营更有助力和针对性的方案。

第二、大数据改变企业运作模式

在传统的企业管理过程中,管理通常都是由领导说了算,而随着大数据的发展,现代企业在经营管理过程中,侧重的更多是大数据所分析出来的结果。这样的模式,对于传统领导力是一种挑战,同时,也是企业能够在互联网络时代中得以继续发展和兴旺的基础。

第三、大数据的质量问题

对于企业来说,大数据的质量问题也是具有非常重要的价值。大数据的采集、整理和分析处理的基础,就是要保证大数据所得出的结论能够给企业带来足够的帮助,而不是提供一些毫无意义的建议。如果不能把控大数据的质量问题,企业内部则无法通过数据信息来获得实质性的决策帮助。

第四、大数据对决策的辅助作用

归根结底,大数据对于企业的经营管理中所存在的重要价值就是对于决策的辅助作用。通过大数据的有效分析,能够总结企业经营管理经验,对发展趋势做出预测。

通过以上内容的介绍,相信大家关于大数据对于企业的重要价值问题,就有了完整和明确的了解和认识了。

数据、大数据及其本质是什么?
干货!做大数据什么最重要? 第三篇

数据、大数据及其本质是什么?

最近几年,数据问题进入哲学视野。对于哲学家们探索的数据本质特征,我们可以从以下几个方面来把握。

数据与大数据

技术进步,主要是计算机、网络和各种类型的传感器以及云技术、分布式计算与存储等海量存储技术的广泛应用和运算能力极速进步,使得数据概念被大数据概念取代。数据量增加速度之快,大致可以这样描述:最近两年生成的数据量,相当于此前一切时代人类所生产的数据量的总和。

大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据的特征,除了巨大、快速、多样多变之外,没有其他。因此,大数据本质上还是数据。

在大数据的上述特征中,其多样多变性值得特别关注。它表现为所生成数据格式的多样,

文字、图片、视频等各有多种不同的格式,取决于生成数据的技术与设备,却反映出数据生产的时代性以及数据处理的能力与条件,也反映出被描摹自然和社会的多姿多彩。另外,随着技术发展和数据量急剧增长,新的数据格式还会层出不穷,多变和多样特征更加突出。 大数据既是一个技术概念,又是一个商业概念,它的出现,有其特定背景,即it领域的商业和渲染新技术的考量。大数据包揽了人类获取数据的所有途径,提示哲学研究一个全新时代的到来,这个时代的先声,很久远之前就已经响起,那时,它仅仅被称作数据。在我们的讨论中,主要考虑数据与哲学的关联。

数据与认识

这里的认识,指的是人的认识,是人对外部世界的认识。

大数据的出现和引起关注,使得一个事实得到确认,这就是,数据覆盖了人类对于外部世界的感知。感官及其所获得的经验退居到显示屏之后,退居到各种类型的技术装置之后,这些装置将自然和外部世界的映像“转译”成人类感官可以接受的图像、声音甚至触觉和嗅觉味觉。这既是技术发展的必然,又是始料未及的情况。如果说,此前,哲学还试图在技术系统生成的数据之外寻找世界的直观映像,到了大数据时代,这种人类的直接感知即使没有被完全取代,也失去了其传统意义上的优势。一言以蔽之,哲学,需要从数据中寻求对世界的认识,舍此即失去认识的来源。

这似乎是一个惊人的变故,其实不然。在影响人类认识的议题上,大数据带来的变化,只是数量和范围上的,并非根本意义上的改变。事实上,回顾历史,我们发现,我们的对外部世界的感知,从来都是依赖于某些技术装置的,也就是说,人的认识,其实是通过数据获得的。 最早的技术装置,可能是直尺,它用于测量长度,例如田亩;更早的述说技术装备,也许是绳结,它用来述说一件重要的事件。在我国,从河北泥河湾先民打造石器,到安阳殷墟龟甲上刻画的文字,都可以看作是某种“数据”,表达着人类对外部世界的某种认知。而面对着所有这些早期的承载数据的技术装备,人们获得对外部世界的某种最早的抽象认识。古代人先后发明过算筹、斗和称、漏刻、浑象仪、量角器等等,无不是用来产生认知外部世界的数据,人们也发明笔、纸张、雕版印刷术,也是用来记录和生产数据。依托所有这些,数据成为人们认识的依据,思考的源泉,表达的工具。

近代以来,西方的技术和科学异军突起,望远镜、显微镜、六分仪、光谱仪、质谱仪乃至加速器、射电望远镜相继出现,成为人类认识外部世界的有力工具。这些技术装备产生的数据成为近现代思想的新的依托。到了当代,伴随着电子计算机的强大数据处理能力的出现,各种延伸和阔展人类感官感知能力的器皿设备层出不穷,终于完全或接近于完全取代人类对外部世界的直接感知,通过把数据呈现给人类,成为人类认识的来源。这就是大数据的时代。 关键点在于,我们所知的世界,全部是数据表达的,其中一部分获得理解和解释,更多的只是数据,没有得到解释甚至没有得到关注,它只是像自在自然那样在那里,等待人们去搜索发现它,解释它,运用它。

数据与本体

根据上述认识,似乎可以通过观察数据的形成和生产,来理解哲学与科学的在解释客观自然议题上彼此消长。

在近代科学初兴时期,它并没有从传统哲学中分离出来,它被冠之以自然哲学。与之相并行不悖的,有哲学本体论和形而上学。后两者都是试图以某些观念描述和解释外部自然,寻求事物的本质,并在哲学领域合法存在。伽利略、牛顿等人推崇的使用先进观测和实验手段观察与调控自然,用数学述说自然过程。当这一切成为风气之后,哲学本体论逐渐衰退,哲学似乎放弃了对客观世界的描蓦和解释,让位于自然科学。

最后一位试图运用科学数据来解释自然的哲学家是康德,他研习了牛顿的运动力学和天体力学,提出宇宙演化学说。然而,拉普拉斯在康德基础上,用物理理论和数学表述了星云说,在无限时空中的恒星和星系演化学说。拉普拉斯之后,科学之描摹自然优越于传统哲学得到公认。

一般认为,在经典科学时代,哲学与科学在描摹自然方面的差异,在于是否运用数据和使用数学方法。今天我们发现,这并非全部问题所在。经典时代,直至大数据崛起的今天,自然科学的确在使用各种技术装备获得的数据方面占据优势地位,哲学则固守传统的概念分析和一般推理方法,这还是指的好的哲学。这与其说是哲学落后于科学,勿宁说人类获得数据的能力尚有不逮,给传统哲学留有施展余地。

大数据的出现,包围了人类认知世界的所有方面,情况发生变化。在科学界开始讨论并实施“计算一切”的时候,同时也给哲学重新回到讨论本体打开方便之门。这里发生的变化是,数据成为认知的源泉,思维的质料;我们对世界的解释转变为对数据的解读,舍此无他。大数据的出现,使得我们发现,我们所知的称作外部世界的东西,是通过数据来呈现的,当我们寻求世界的本质和意义时,我们实际上是在数据中徜徉;当我们觉得有所发现有所体悟时,实际上是自觉找到了一些数据之间的关联。

数据的物理学气质

所谓物理学气质,指的是思考事物的本质,从原理层面上对事物的本质进行探究,揭示出事物的基本规律。当前备受热议的数据和大数据是否具有揭示事物基本规律的功能,可能还有待于观察,但是,数据,就其现象而言,似乎已经展示出某种物理学气质,考察这一特性,既有利于认识数据的本质,也有利于深化对物理学的认识。

这里所说的物理学,主要指的是量子力学。

众所周知,量子力学无论在理论上还是在应用上都获得巨大成功,在场论、粒子物理和天体物理学研究上都扮演者基础角色,在固体物理、半导体物理以及超导物理等应用学科上都有极出色表现。量子力学与哲学的联系,比其他任何自然科学领域都要来得紧密,其中最重要的就是认识论问题。

量子力学发现,建立在测不准关系基础上的认识,受到基本物理原理的限制,客观世界原则上不可能真正被观察到,我们只能根据物理测量结果认识世界。而测量本身形成对客观世界的干扰,导致无法真正认清它的本来面目。所以,我们对于世界的认识,唯一来源就是测量的结果,即所谓经验。

量子力学的这一认识原则引发将近一百年的讨论,至今未能平息。

【干货!做大数据什么最重要?】

尼尔斯·玻尔认为我们必须接受量子力学给出的认识原则,承认和接受自然作出的安排,量子力学已经很好地描绘了自然;爱因斯坦则不愿接受玻尔的“绥靖哲学”,他觉得一定是量子力学本身的不完备造成,人对自然的认识应该是能够穷尽的,不可能也不应该像量子力学所描绘的那样。

当我们回顾前述数据与大数据的认识论与本体论含义时,就明白,一直以来有关量子力学问题的争论,本质上就是对于数据的意义的争论。显然,爱因斯坦不愿意接受数据给出的结果,以及对于数据的解释,而玻尔则认为数据揭示的自然正是自然本体,无论我们是不是喜欢它。 有趣的是,人们一直在争论量子力学的测量问题,此前却几乎从来没有人意识到测量的结果本身就是数据,而数据已经成为事实上的认识来源。离开数据,我们对于世界一无所知。 在这个大数据时代,当我们认识到,数据正是我们认识世界的源泉,所谓世界其实就是数据构成的,我们也会看到数据本身所具有的物理学气质,正像量子力学所强调的那样,世界隐藏在经验表象背后,我们所能谈论的,只是经验本身。

【编辑推荐】

大数据科技如何影响现代体育

为什么我们的数据还不够开放?

干货:业务对数据需求的四大层次

如何设计基于Hadoop、Spark、Storm的大数据风控架构? 《大数据时代》译者周涛:传统领域是大数据创业蓝海

6个公司的大数据岗位的面试经验
干货!做大数据什么最重要? 第四篇

6个公司的大数据岗位的面试经验

本人住在有人间天堂之称的城市,6年多开发经验,最近2年主要在做大数据相关的开发,最近考虑换工作,基本也只考虑大数据相关岗位。

作者:雪姬来源:36大数据|2016-11-10 09:26

收藏

分享

本人住在有人间天堂之称的城市,6年多开发经验,最近2年主要在做大数据相关的开发,最近考虑换工作,基本也只考虑大数据相关岗位。目前新工作已经找好,但想分享一下最近面试的失败一些经历(成功的那些就不讲了),吐槽吐槽,跟广大吃瓜群众分享一下过程中的经历心得,我的语文体育老师教的,还请大家莫怪。

1.公司:国内知名电信运营商,其下面的大数据研究院,面两轮

一面:技术人员面,先自我介绍,项目经验相关介绍,问比较细,问了一些Hadoop、HBase的问题,JAVA基础,JVM内存分配小于32G原因,G1和CMS对比,问关系型数据库事务级别,脏读、幻读意思。

问题回答情况:其中G1与CMS区别我只讲了G1比CMS更耗CPU,但回收更快效果更好,两者内存划分设计不同,G1更适合大内存等,具体原因及细节没讲清;脏读、幻读只回答出跟数据库事务有关,面试当时忘记了具体什么叫脏读,什么叫幻读,有点分不清。这两个好像都没有答好,然后面试官问了我待遇期望。

二面:隔了4天,打电话过来让我去二面,是部门经理面,其也是做技术的。上来让我自我介绍,然后就围绕我讲的开始问。讲到之前项目中通过hbase的coprocessor的endpoint方式在服务端通过jni调用c++写的算法库实现数据计算过滤功能,然后这位经理就问为什么你们图像识别相关的CV算法不用JAVA写,要用C++?

我感觉有点懵逼,惊叹怎么会有这么小白的问题,但面上不能表现出来,简单回答说现在大部分算法都是通过C/C++写的,JAVA因为JAVA是完全面向对象的特性及jvm的关系,不适合做这么底层的事情,性能会有损耗。但似乎对方没有理解和听懂,表情带着不理解和质疑,半天从他嘴里吐出一个结论:你们不用JAVA写算法是因为你们公司搞算法那帮人只用C/C++去搞。

我当时有点无语,不知道该怎么跟这种对CV算法一无所知的人解释(或许我该说很多算法库都是C/C++写的,让你用JAVA调用cuda的库你累不累),但对方又接着问下一个问题,你怎么看待大数据领域接下来的发展趋势?

这个问题我从来也没想过,脑袋里突然冒出前阵子参加的云栖大会有个分会上讲得一些片段,糊里糊涂的瞎说了几句,说spark很热,使用的人非常多,后续也会集成流处理技术的一些新特性,另外说现在很多集群完全部署在云上,将来网络瓶颈解决有可能会往云上和云下自己管理的集群结合的这种方式发展。

这个答得的确不好,有点以偏概全了,对方显然对我这个回答很不满意,又问你认为磁盘IO性能会是瓶颈吗?

我回复说这个是目前大数据领域集群的主要瓶颈,但这个问题还好,应该会被克服改善(我想说可以把冷、热数据分离,热数据用速度快的SSD之类存储,但我没说出来)。

对方的目光有点嘲弄的感觉,不是很友好,后来就是问一些期望待遇及让我提问之类的环节。

【干货!做大数据什么最重要?】

结果:over,好吧,无所谓了,安慰自己,本来就不是很想去那边,因为自己偏实干型怕活太少(有点自虐),大概了解到的是对方的员工都过得偏安逸。

2.公司:某跨境电商企业,为一些国家和地区的特色产品做电商服务。

先跟他们HR聊,HR人不错,说话比较客气礼貌。

接着是技术面,一共4个面试官,分4轮面。

第1个哥们人挺逗,先让我自我介绍,看我简历上写着对CV相关算法有一定了解,好像跑了题似开始不断问我CV相关问题,我跟他说我工作早几年自己研究过一段时间这方面的东西,但不是很擅长,很长时间也没研究了,只是相比没接触过这方面的人来说要厉害一些,我也没有研究过Spark MLLib。不知道他哪根筋不对,问我你们公司深度学习相关的程序你有没有研究过,我说没,他又问我通常图像识别的一些流程,我大概说了一下,说得不是很细,他不停的惋惜的说道,哎呀,你这相比其他人没有特别的优势呀,你要是精通算法这方面再加上大数据就有亮点。我非常纳闷,心想难道你们公司是传说中人工智能和大数据结合的非常好的公司吗,莫非还是把无监督机器学习自我优化集成到你们的大数据系统中了吗?不应该呀,看你们的样子好像还没有那么NB,再说现在搞大数据的有几个会深度学习算法的,大多还是偏框架数据采集存储挖掘方面的。

第2个哥们,是搞大数据相关的,不过他基本不像是在面试我,反而是在跟我吐槽他们公司,说自己也是刚来了3个月,公司哪里流程不对,自己意愿无法左右其他团队等,不过就简单跟我说了这么一通就完了。

第3个哥们,具体是负责哪方面技术不是很清楚,感觉有点偏算法,就问了我一个题目,像是脑筋急转弯的编程题,题目是N个人围成一圈,从第1个人开始报数,第一个人报1,第二个人报2,依次下去,报到数字X的人退出圈子,下面的人继续报,请写个程序问最后留下的哪个人。我说这好像有一个便捷的方法或公式能计算最后一个人,不过我脑子想不出来,只能想一个简单的递归函数去实现,他说行,然后我就写了一个,写得马马虎虎。

第4个,是他们CTO面,这人阴沉板着一副脸,还没说话就感觉气氛不对,估计他觉得我看着比较年轻竟敢要那么高薪水,这种人的表情我也没少见。语气有点冷,先让我自我介绍,我介绍的比较简单,然后又说了一些项目中的情况,产品数据流之类的。

我们的产品的数据源是从ORACLE数据库里面定时去拿的,这个模块叫数据获取服务,流程很简单,就是定时读取数据后交给另一个模块,然后他说问怎么把这个数据获取服务拆分成两个模块,我很无语,说这个就是这么简单的去拿数据,没有可以再拆分的,他说就是要拆分成2个模块,我表示不知道他脑袋里怎么想的,说不知道。

然后问了我做的一些架构经验,我说自己设计写过过一个分布式实时计算框架,是借助了一个RPC中间件去实现的,整体各模块有点类似Hadoop MapReduce,但更像Impala,不需要每次创建启动Job。我跟他简单说了一下这个RPC中间件,说了一些优缺点,例如它的消息发布订阅机制没有像Kafka那样有很好的持久化机制,程序退出了,这些消息就没了。

他一脸的质疑,说怎么可能没有持久化,他问我那个中间件的名字,然后百度去搜,搜出来某个帖子上有人说的那个中间件的一些特性,讲到一个模块是专门做持久化的,然后他就拿来阴沉着脸质疑我说,你看,这不是持久化吗?我看他那样表情,不想再多解释什么,想说艹尼玛,有点常识好不,那帖子讲得完全不是一个东西,那个持久化不是指消息发布订阅的持久化,这中间件我好歹也用了小半年,你这么百度一搜就敢理直气壮质疑我,这水平真是CTO?

【干货!做大数据什么最重要?】

结果:他们HR后来还打电话问我跟CTO聊完感觉怎么样,我感觉自己脾气太好了,没有抨击一下那个CTO,就说他不太清楚我做的东西。HR把我的期望压得很低问我愿不愿意去,我直接说不去了。见过这么奇葩的CTO,就算加薪让我去,我还得重新考虑。

3.公司:某视频监控安防行业的知名公司,面试其下的大数据研究院的一个大数据开发岗位。

面试我的是他们的一个技术主管和另外一个技术人员,上来先自我介绍,详细问了一些项目相关的信息,然后问了很多Hadoop、HBase的一些原理,项目中rowkey和分区设计,问了spark streaming 并发度、createDirectStream和createDStream的区别,一段时间内分别生成了几个RDD,问了Kafka分区各副本是如何在集群各台机器上分布的等。

有好几个问题没回答清楚,感觉自己表现和准备不是很好。

结果:等通知。后来隔了好多天通知我去HR面,鉴于我当时已经收到其他offer,而且面试情况不是很好,估计会被压offer,就委婉放弃了。

4.公司:国内知名互联网公司,Hadoop研发工程师岗位。

电话面试:面试了25分钟左右,问了很多大数据的基础的技术问题。如Map Reduce相关,Reduce时如何Sort,HBase优缺点,LSM相关,前面基本上全部答出来了,但是最后问到有没有做过用Map Reduce处理数据join,因为我之前做【干货!做大数据什么最重要?】

的项目大数据框架比较简单,没有多表关联的查询,当时对join概念也有点反应不过来,就说没做过,然后又问Map Reduce join有几种方式,也没答出来。

结果:电面没过,就因为最后两个跟join有关的没答出来,就over了,尽管回去后恶补了这方面的知识。

5.公司:某做数据营销广告大数据服务的公司,大数据研发岗位。

面试我是的他们做大数据架构团队的主管,先自我介绍,讲了一些项目的东西,然后对方觉得我之前做得项目大数据架构比较简单,态度比较桀骜,然后又问了一些JAVA基础的东西,比如BIO与NIO特点与区别,问我有没有用过,我答得不是很好,但应该还过得去,然后又问Concurrent包下面有哪些类,ConcurrentHashMap与HashMap区别等等。我感觉他有点轻视我,不是一个公正的眼光在问我。然后又问我Linux命令熟不熟,吧唧吧唧问了好一些,我基本都答出来了。

最后他冒出一句,我们现在这边大数据开发的岗位都基本招满了,还缺一个大数据运维的,除了部署维护大数据集群,还要写一下oracle的udf。我问他这跟开发工作关系密切吗,他说关系非常密切,只是他们大数据的研发都偏向于写代码,不愿干这活。感情他是在逗我,QTMD。

结果:然后就没有然后了。

6.公司:某车贷互联网金融公司,大数据研发岗位。

先是电话面试:面试了25分钟左右,问了Hadoop Map Reduce资源配置、ElasticSearch原理的一些问题,问得比较简单,基本都没问题,问道Lucence如何实现对一个字段索引的时候,其实只要答倒排索引就好了,我比较二,把倒排索引怎么实现的大概讲了一下,细节还讲得不是很好。

过了几天,然后是直接面试,这次面的内容还是比较简单,面试官人感觉不错,就是有点二,怎么说呢,理解能力不太好,比如问我HBase 不同colomn family跟关系型数据库中的列的区别,我答说colomn family在物理上是独立的store file,可以只查询某个

column faimily,而关系型数据库一条记录是整行数据,查询的时候,需要整行数据都读出来,然后吧唧吧唧又扯出好多。结果你猜怎么着,他说我还是没有回答到点上,说

column family是面向列的。我有点无语,我都把它怎么是面向列的底层存储结构都讲出来了,你竟然还说我没答出来。问了很多问题都基本答出来了,就是面试官总觉得我没有答到点上,说自己貌似明白我的意思了,问我是不是平常很少沟通问题。这种人真是活久见,明明一个意思,我答得更详细清楚,他非说我没答出那个标准答案名称,面试这么多次,这种情况真是第一次碰到。最后问了Hive相关的,问我有没有用过,我说没用过,但这种跟基本SQL差不多,问Hadoop Stream相关,我也说没怎么用过。问得问题都比较浅,没有什么深入的问题。

结果:后来HR通知我说面试官觉得我技术深度不够,哎,有点搞笑的,其他几个面试下来要这么说我完全没意见,但是这位面试官问得那些问题我基本都答出来,而且他自己没怎么问我深入的问题。算了,奇葩总是有的。

其他一些经历就不啰嗦讲了,个人总结有几点如下:

1.现在做大数据相关的公司和人还不是很多,相比常见的如JAVA岗位面试官的水平明显要差很多,除了接触的几个知名点的大公司问题环节比较规范,不过这种现象应该接下来几年会有所改善。

2.有些时候不是你技术不行,而是你的谈吐表达能力给他们的印象,像我自己表达语言组织能力只能算中等可能还偏差,表达条理不好容易被pass。

3.感觉工作经历跳槽少的并不比频繁跳槽的受待见,像我6年只在2家公司待过,大家都知道,在一家公司工资是很难涨上去的,而对方人力往往以你当前薪资作为重要参考,就算你的水平比相同工作时间的人强很多,但对方公司不可能马上了解到,你想要跟这些相同工作年限人相同水平的薪资可能都比较困难,对方人力往往以此打压你开太高期望涨幅过大。

【编辑推荐】

1.【干货!做大数据什么最重要?】

2.

3.【干货!做大数据什么最重要?】

4.

5. 不容错过的干货分享:企业大数据的实时分析之路 透析国家安全视野中的大数据发展问题 四大银行的CIO们如何看待大数据 透析国家安全视野中的大数据发展问题 深度解析制约大数据发展的三大因素

忘掉你的大数据,数据思维才最重要!
干货!做大数据什么最重要? 第五篇

忘掉你的大数据,数据思维才最重要!

“坦白讲如果没有拥有数据思维,那即使拥有了很多数据,而且不管这些数据有多大,都不能说你在做大数据,所以大数据的核心其实是要拥有数据思维。”

1、数据思维

利用数据解决问题 什么是数据思维?数据思维的最核心是利用数据解决问题,利用数据解决问题的最核心是要深度了解需求,了解真正要解决什么样的问题,解决问题背后的真实目的是什么。在解决问题的过程中我们使用数据的方法,通常可以叫量化的方法。

所谓量化的方法,就是解决问题的过程要可衡量、可评估,有非常明确的定义,这点在车老师书里有一篇就介绍了他的几个定义,即“PIMA”,这四个字母分别代表了解决问题时要考虑的几个纬度。

需要有明确的目的(P); 在达到目的的过程中需要有清晰的定义(I); 在解决问题的过程中所使用的手段是可量化的(M); 对问题、解决问题的全过程可评估(A)。

所以不管是财务、人事、还是生产或销售的每一个环节都是可量化的,可以通过数据解决问题的。

通过量化的数据解决问题,就是我们所谓的数据思维。举明略在金融行业的实际案例来看:我们先思考一下,金融行业里银行、保险

或证券公司经营的目的是什么?这是核心。车老师在书里也介绍了,考虑大数据也好,考虑数据思维也好,首先是要分析出所做事情的真正目的是什么?然后再进行量化分析。

实际上,金融行业企业最核心的是风险控制问题。银行获取存款的过程做一个最基本的存款操作就行了,是没有任何风险的。但当银行想盈利的时候,存款业务因为要支付储户利息成为非赚钱手段,想赚钱要通过贷款实现。银行把收过来的存款贷出去,两者之间的利差是银行的利润。 所以对于银行来讲,真正的核心诉求是如何在贷款过程中降低风险,尽量减少贷款个体或企业不还款的风险。这个风险越低,银行的利润空间就越大。因为整个贷款利差并不高,可能只有几个点,最多也不会超过十个点,即便是现在的小贷,也不会超过十个点。但一般一个贷款人还不了款的话,银行利润就会被大打折扣。现在整个市场上的风险率或坏账率有时会高达百分之三、百分之五,即便比较低的时候可能在很多银行有百分之一点几、百分之二点几。所以如何有效的控制这个风险对银行很重要。

所以对于银行来讲,他需要了解贷款人的还款能力。而且还款能力从他贷款到还款过程中也在时时发生变化,有消费者在贷款瞬间是有还款能力的,但在还款之前的整个周期里他经历的状况其实在不断发生变化。企业更是这样子,每个企业在经营过程中的状态是瞬息万变的。所以对于银行来讲了解消费者或企业的整个经营状况、资产状况、风险状况是非常关键的,中间的每个环节都可能造成贷款人最后

无法还款,银行需要评估这里面的每一个因素与最后能否发签证的关系。

在传统金融行业里,很多银行只会考虑发贷款或者发信用卡之前的风控分析。很多银行到人民银行拿到一些个人消费者征信报告,这些数据包含了消费者以前其他的贷款、每个月工资情况等等这样一些最基本的信息。银行根据信息打分,然后这个分数之上的消费者可以获批贷款,在分数之下的就不会获批。这整个过程是成本较高的,因为任何一个报告都是要花钱去买。第二点是很多情况下需要面访,现场进行风险考察,然而这个考察过程中数据的真实性和有效性也是值得商榷的。

比如我们的一个客户——邮政储蓄银行。向他们贷款的很多客户是农民,他们在种植或者养殖生产中需要资金支持,比如用来投资买种子或者购买种植养殖的基本设施。但是当面谈的时候他或许假装家里有一头牛,我将来可以卖掉这个牛还款,但这个牛有可能是从他的邻居家拉过来的。所以真正证明贷款申请人信用的数据真实性和有效性是解决这个问题过程中非常核心的问题。数据是否是真实有效的、数据是否跟最后结果有关系,这就是我们在数据思维决策过程中需要考虑的两个非常核心的问题。 “ 其实我是有一点近视眼的,我看很远处的一个广告牌,上面的文字有时我看得不是很清楚,但我的大脑是能够猜出来文字大概是讲什么的。本质上是因为在我的大脑是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是大数据公

司里面非常核心的能力。"

2、数据治理

还原推测到“高分辨率” 我接下来就给大家讲讲处理数据里面最核心的两个工作。第一个工作我们称之为数据清洗或是叫数据治理。

很多公司拥有大量的数据,但如果这些数据没有办法整合到一起,没办法清洗、在线化,没办法让使用者方便取用,那即便数据量再大也不能说这个公司有大数据。所以清洗和整合数据是非常重要的。通常在技术领域有一个概念叫“ETL”,ETL其实只把数据抽取到一起,进行数据格式统一化,最后再加载到一个可应用的平台上,这是整个数据治理行业里面最核心的几个环节。但在大数据概念出来之后,跟传统ETL有一个挺大的区别在于数据格式跟以前相比更加复杂。通常我们所谓的大数据、我们处理的数据除了包括以前的结构化数据,还包括新的非结构化数据。

非结构化数据是指数据里每一条记录之间的格式并不统一,甚至很多数据都是脏数据。大家可以想象银行的很多数据,比如消费者注册信息:姓名、年龄、手机号、身份证号,包括月收入可能都要求填,但很多情况下大家填信息的时候格式都不一定统一,比如说手机号可能有一些人填没有加“86”,再比如说身份证号有人填的是18位的,有人填的是15位的,这些信息是否是统一格式对于未来的数据应用非常关键。

今天很多互联网公司都是拥有大量数据的,中国最大的三巨头

BAT都拥有海量消费者网名数据。百度云每天一个人搜索数据,阿里拥有每个人每天购物的浏览数据和下单采购数据,腾讯就不用说了,他有我们每个人的聊天记录、通信记录。他们拥有的数据都是非常可怕的。这些数据有一个很主要的工作在清洗过程中,就是需要把数据的唯一用户标识进行统一,因为很多的数据是散落在不同的子平台上的,在不同的平台上的可能会有不同的唯一标识,在有的情况下一个网名是处于登陆状态,而有些情况下是处于没有登录的情况。如何把不同的数据都打到同一个标签上是很多公司正在做的事情。

像我最近在跟几个阿里包括车老师,还有腾讯的人聊,他们自己内部都有一个类似于叫自然人计划的项目,这是公司的核心项目。这个项目工作就是把整个集团下属的所有公司的数据收集到一起,把这些数据连到一块儿,把消费者行为最后标到一个真正的可以看出来的一个自然人身上。比如说像我在阿里体系里不仅是有购物行为,还有在高德地图上的浏览的行为,而且我在高德地图上是没有登录的,那在阿里体系里面他就需要通过一些算法的猜测,而这个人使用地图的具体行为可能正好也就是这个人使用的支付宝账号的信息,他们通过一个算法是可以关联起来的。实际上这个关联并不难,因为我这两个行为都是落在同一个手机上的,他可以通过手机的ID就可以把我的行为连起来了,最后得出结论就是吴明辉的。 所以前面我也反复提到过好多次,数据实际上是每一个人、每一个个体、每个机器、每天日常的各种人的行为的一些记录。因为程序的能力,可以把数据及行为记录下来,这就产生数据。但是任何一个

●【往下看,下一篇更精彩】●

下一篇: 婚前承诺

最新成考报名

  • 党员个人问题清单及整改措施范文(通...
  • 对照新时代合格党员的标准方面存在的...
  • 2023年党支部组织生活会征求意见四篇
  • 最美退役军人先进事迹材料3000字(通用8篇)
  • 对党支部的批评意见八篇
  • 党员民主评议个人对照检查材料【6篇】
  • 党支部班子对照检查材料范文五篇
  • 组织生活互评批评意见50条范文(精选3篇)