数据科学与大数据技术专业属于交叉学科:以统计学、数学、计算机为三大支撑性学科;生物、医学、环境科学、经济学、社会学、管理学为应用拓展性学科。此外还需学习数据采集、分析、处理软件,学习数学建模软件及计算机编程语言等,知识结构是二专多能复合的跨界人才(有专业知识、有数据思维)。
大数据工程技术人员职业定义
职业定义:
从事大数据采集、清洗、分析、治理、挖掘等技术研究,并加以利用、管理、维护和服务的工程技术人员。
个性定义:
负责数据采集、存储及管理、分析及挖掘人员
职业其他名称:
大数据工程师、大数据运维工程师、数据分析师、大数据销售工程师
相关职业:
Hadoop工程师、数据挖掘工程师、大数据可视化工程师、数据采集工程师
大数据工程技术人员任务职责
工作内容概述:
大数据工程工程技术人员工作任务职责取决于工作在数据流的哪一个环节。从数据上游到数据下游,大致工作内容就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现数据采集- 数据清洗-数据存储-数据分析统计-数据可视化等几个方面的功能。
1、数据采集:
数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。数据包括 RFID 数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。
2、数据清洗:
一些字段可能会有异常取值,即脏数据。为了保证数据下游的”数据分析统计”能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填;一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息;.一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。
3、数据存储:
清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的”数据分析统计”对实时性要求比较高,则可以把日志记录入到kafka。
4、数据分析统计:
数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。
5、数据可视化:
用数据表格、数据图等直观的形式展示上游”数据分析统计”的数据。
工作任务职责:
大数据平台(如CDH、FusionInsight等)搭建与维护,也是大数据工程技术人员工作内容。总的来说,大数据工程技术人员任务职责如下:
1.研究和开发大数据采集、清洗、存储及管理、分析及挖掘、展现及应用等有关技术;
2.研究、应用大数据平台体系架构、技术和标准;
3.设计、开发、集成、测试大数据软硬件系统;
4.大数据采集、清洗、建模与分析;
5.管理、维护并保障大数据系统稳定运行;
6.监控、管理和保障大数据安全;
7.提供大数据的技术咨询和技术服务。
工作考核要求:
1) 工作态度+考勤(部分公司无具体要求);
2) 完成效率(含工作量),主要依据测试用例覆盖率、文档完善程度、BUG提交情况等定性或定量数据评定工作的考核结果;
3) 完成质量(客户反馈项目落地情况),各项产品、活动自研按期交付率、线上系统无故障(天)、健全项目管理、软件版本、技术质量、产品规范、系统运维制度、确保IT生产设施稳定运行,全年无重大事故。
大数据工程技术人员知识背景
学历要求:
学历基本限定在本科及以上,部分岗位要求硕士及博士行业知识背景:
较强的文字和口头沟通能力,分析能力,对业务原理的基本理解,具有相关的项目开发经验,有强烈的责任感和良好的团队合作精神;以挖掘、分析为主,以搭建、工具使用为辅,紧密面向行业应用, 其方向有大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。
专业知识背景:
大数据专业人员可以有不同的专业背景,如经济学、物理学、生物统计学、计算机科学、应用数学、市场营销、电子商务等。
开发人员通常必须熟悉编程,有一定的数学、计算机背景,市场人员要求懂业务、懂管理,可从事数据分析相关工作。
大数据运维工程师、大数据研发工程师、大数据架构工程师等高级职位,通常要在数据处理领域取得相当多的经验和专业知识后才能获得。
专业要求:计算机科学与技术 数学与应用数学 信息与计算科学 统计学 市场营销 电子商务
大数据工程技术人员大学课程
重要的大学课程:
数学分析、程序设计导论、程序设计实践、概率与统计、算法分析与设计、数据计算智能、数据库系统概论、并行体系结构与编程、抽样技术、统计学。
重要未开设的大学课程:海量数据集的挖掘、计算机图形学、非结构化大数据分析等加强数据科学与领域知识高度融合的课程。
大数据工程技术人员职业技能
通用技能:
1、具备与客户良好的沟通能力,将客户的需求及时进行反馈;
2、具有对数据采集、清洗、分析、治理、挖掘;等,能熟练使用相关软件;
3、具备良好的协调能力,协调整个项目小组的工作;
4、具备相应的时间观念。
硬性条件:
熟练掌握java、R、Python、HTML、Javscript、C/C++、SQL以及一些主流的软件开发IED,如VS、Eclipse;对软件架构设计、数据库架构设计能够熟练掌握;
数据分析师角色/任务:收集,处理和执行统计数据分析;
必备语言:java、R、Python、HTML、Javscript、C/C++、SQL等;
技能和特长:电子表格工具(例如Excel),数据库系统(SQL和基于NOSQL),通信可视化,数学,统计,计算机,机器学习等软性条件:
懂业务:从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析就没有太大的使用价值。
懂管理:一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行;另一方面的作用是针对数据分析结论提出有指导意义的分析建议。
懂分析:指掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效的开展数据分析。基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
懂工具:指掌握数据分析相关的常用工具。数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,不能依靠计算器进行分析,必须依靠强大的数据分析工具帮我们完成数据分析工作。
懂设计:懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。
岗位能力级别定义:
1. 初级:具备基本的大数据技术的基础知识,可以将其视为大数据认证的初学或者入门等级。
2. 高级:大数据认证的高级或者熟练等级,表明该人才具备大数据某一专业方向的基本知识和熟练技能。
3. 专家:具有业界公认的专业大数据技术知识和丰富工作经验。
大数据工程技术人员从业资格
必要项:
具有一定实际开发能力和大规模的数据处理能力,熟练java、C 、Python中的任何一种语言。 熟练掌握Hadoop、Spark、Storm等主流大数据平台的核心框架。
大数据工程技术人员常用工具
Linux系统,是开源软件,其可靠性得到肯定,是当今举世瞩目、发展最快、应用最广的主流软件之一。在服务器平台、嵌入式系统和云计算系统所运行的操作系统中,Linux占很大比重。
Eclipse,是一个开放源代码的、基于 Java 的可扩展开发平台。Eclipse只是一个框架和一组服务,用于通过插件组件构建开发环境。
MySQL,是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,目前属于Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统(RDBMS)之一。
Python,是一种跨平台的计算机程序设计语言。 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。
Hadoop,是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
大数据工程技术人员薪酬待遇
薪酬结构:薪酬=底薪 + 津贴补助 + 季度奖 + 年终奖 + 公司各项福利 + 商业保险
满意度:4(薪酬满意度评分:1点~5点,分别代表“非常不满意”~“非常满意”)
福利制度:法定福利+其他福利
大数据工程技术人员工作环境
工作环境比较舒适,适合讨论问题,环境宜人,位置附近交通便利,与众多互联网公司具有一定的共性。
工作场所内有健身房、茶水室;格子间,开放式环境。
大数据工程技术人员发展前景
行业发展前景:
大数据迅速成为行业和市场的热点,更多的企业无论是对人才的招聘还是在培训都成了刚需,这促使大数据人才的薪资在同岗位中是最高的;大数据的就业领域很宽广,不管是科技领域,还是食品产业,零售业等,都需要大数据人才进行大数据的处理,以提供更好的用户体验,以及优化库存,降低成本,预测需求。
职业就业趋势:
职业发展主要分为3个方向:
1、大数据开发方向,所涉及的职业岗位为:大数据工程师、大数据维护工程师、大数据研发工程师、大数据架构师等;
2、数据挖掘、数据分析和机器学习方向,所涉及的职业岗位为:大数据分析师、大数据高级工程师、大数据分析师专家、大数据挖掘师、大数据算法师等;
3、大数据运维和云计算方向,对应岗位:大数据运维工程师。
个人发展路径:
在职业发展路径上,由于大数据人才数量较少,因此大多数公司的数据部门一般都是扁平化的层级模式,大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队,而在小公司则需要身兼数职。这个职位的大部分人会往研究方向发展,成为重要数据战略人才。另一方面,大数据工程师对商业和产品的理解,并不亚于业务部门员工,因此也可转向产品部或市场部,乃至上升为公司的高级管理层。
大数据工程技术人员职业道德
1.应当对公司商业机密进行保密,不得泄露公司代码。
2.高度的责任感,与公司荣辱与共。
3.对于工作要始终饱含激情,愿意和自己的同事交流分享,实现共同的成长。
4.廉洁自律,不做任何违反国家相关法律条款的事。