智库首页>峰瑞资本
深扒一个独角兽公司标配,但仍被低估的岗位
2016-12-29 10:31:33 来源:峰瑞资本

在和国内外顶尖公司交流的过程中,我发现他们多数都很骄傲有一支极其专业的数据团队。这些公司花了大量的时间和精力把数据工程这件事情做到了极致,有不小规模的工程师团队,开源了大量数据技术。Linkedin 有 kafka, samza, Facebook 有 hive, presto, Airbnb有airflow, superset,我所熟悉的 Yelp 也有 mrjob…… 这些公司在数据领域的精益求精,为后来的大步前进奠定了基石。

今天推荐的这篇文章《美国数据工程现状》,从多个维度阐释了数据工程和数据工程师在美国的发展状况。或许你和我一样,都会有一些意想不到的发现。

我常觉得数据工程之于企业的意义,就好像马斯洛需求理论之于人的意义,从低到高进阶满足,企业对于数据工程的应用应该遵循这个三角原则。

第一层,企业要注意到公司发展过程中,最普世最基础的需求:即让数据可见可得。这需要我们重视数据工程这件事,这是企业做大做强安身立命的根本;

第二层,进阶需求。有了数据意识,招来了数据工程师,拉开架势开始干吧。这时候企业就需要开始从语义(semantic)的角度去理解跑起来的数据流了。实现从数据到企业战略指导再回到数据;

第三层,是目前看起来最接近塔尖也是最高级的需求:即建模、更完善的预测性算法、更漂亮的数据可视化、深度学习、AI 等等……

这些更高级的更贴近金字塔尖,也是现在创业的风口。我偶尔也会被风吹的精神抖擞,但吹完风,静下来想想,一个企业没有好的数据工程、数据基础架构逻辑、没有构建数据流的能力,这些金塔尖上的需求是非常难被满足的,很难取得好的结果,也无法实现真正的价值。

是的,我又被风打下来了,开始站在地上思考问题了。

当然,对于创业公司来说,打造完整的数据工程、严密数据架构、高效的数据流是件 “正确但不容易的事情”。不好做、效果不直观,但很重要。

最后,我想引用 Kafka 技术的缔造者 (Kafka,被誉为 LinkedIn 的 “中枢神经系统”),现 Confluent 的 CEO Jay Kreps 的一句话:Without a reliable and complete data flow, a Hadoop cluster is little more than a very expensive and difficult-to-assemble space heater。如果你的公司没有一个完整可靠的数据流,那么你的 Hadoop 集群其实就像非常贵而且很难组装的暖气片而已。

我是贴心的文章要点

  • 6500 人在 LinkedIn (领英)上称自己是数据工程师。

  • 2013 到 2015 年,数据工程师的数量至少翻了一倍。

  • 50% 的数据工程师都在美国。

  • 42% 的数据工程师都是软件工程出身。

  • 数据工程师主要供职于信息科技与服务产业。

  • 数据工程师前 5 项主要技能是:SQL, Java, Python, Hadoop, 和Linux。R语言甚至都没进前 20。

↓ 下文详解 ↓

美国数据工程概况

来源 / Stitch Data

译者 / 黄谦、徐勇、王小佛、张耕、王心田、王挺、Raymond Yang

编辑 / 张潇冉

目前,LinkedIn 上有 6500 人称自己是数据工程师。而仅在旧金山,就有 6600 个这样的工作机会虚位以待。去年,数据工程师的数量翻了一倍,但工程主管们却仍觉得人才匮乏。

数据人才的旺盛需求源自一个根本性的变化:科技公司现如今都成了数据公司。

像 Uber、Airbnb、Spotify 这些公司都在大力发展数据产品,结果便造成数据系统开发和维护人才的激烈争夺。

Josh Wills 是 Slack 的数据工程师,在 2016 数据工程大会(DataEngConf 2016)上半开玩笑地说:“我的数据工程师都在会场了,请你们别挖墙角。” 即使 Slack 这样当红的硅谷企业,也在担忧如何留住这些宝贵人才。

我们的研究着重于说明以下几个方面:

  • 目前市场上数据工程师的数量;

  • 数据工程师的背景和核心技能 —— 这些信息对于主管们研究如何将软件工程转换至特别有用(编者按:以缓解招聘师的压力);

*文章为作者独立观点,不代表中国经营网立场。