专访神策数据 CEO 桑文锋:在数据私有化领域,如何做...

专访神策数据 CEO 桑文锋:在数据私有化领域,如何做到“特立独行”?_36氪 发表时间:2017-08-13 12:21

点上方绿标即可收听朗读音频

双击文章内容从指定位置处朗读

编者按本文来自于“互联网数据官”(微信号internetcdo)36氪经授权发布互联网数据官(iCDO)推出了一款与中国最优秀的互联网数据公司的掌门人对话的栏目分享行业的观点、对数据的理解、对客户的观察以及对增长的思辨本次采访的是神策数据的创始人兼CEO桑文锋先生

关于神策数据的“特立独行”

iCDO: 之前你是百度的技术高手一直在为百度的底层数据提供技术服务什么原因要从百度离开并进而创立了自己的大数据公司呢?

桑文锋我在百度工作八年从2007年进入百度到2015年离开这八年里有七年多的时间都是在做数据这块的工作所以对数据非常有激情也很有感情更有“感觉”任何老百度人在选择离开百度的时候一定是非常纠结的我也不例外毕竟是百度给了我们一切不过最终考虑离开百度有两个原因一是仍然希望能够有机会去尝试不同的事情希望能在不同的领域去发掘自己的技术能量和潜力另一个原因是我始终认为数据是最有价值的资产所以觉得自己何不做一些能够让数据直接产生价值的东西

其实最初还是想利用数据做一些2C的事情并不是一开始就想做2B因为觉得2B主要是靠关系去拿客户我们做技术的哪儿有关系呀所以一开始完全考虑的是做2C这块

正好那个时候我的一个发小给我打电话问我要不要一起做一个相亲网站他看好相亲这个事情因为今天“光棍”和“剩女”确实很多我从数据的角度上想相亲也不错呀做一个相亲大数据用数据技术解决匹配问题是一个不错的方向

不过后来仔细想这个市场不够大就算我做得很成功做成TOP1又能怎么样估值也不过1.5亿左右不是一个大事感觉

包括创业过程中和一些投资人碰撞和我们几个小伙伴碰撞决定还是要做一个能够让数据直接带来效果的产品我们经过了非常多的论证也研究了各种可能性最终归结到一点我们决心做一个可以私有化部署的数据产品一个可以私有化部署的互联网用户行为采集和分析产品或者可以简单的理解为我想做一个私有化部署的Google Analytics

为什么这么定位?因为GA毕竟是统计分析领域做的最好的市场份额至少是最高的但为什么我们跟GA不一样我们要强调私有化部署呢那是因为2014年我在百度的时候曾经做了一个项目就是要把百度的这种大数据能力输出到外面的一些企业去但在沟通的过程中我发现我们想让这个客户把它的数据放到百度的平台里面其实很难说得动比如有一些银行啊还有一些大企业都不愿意将自己的数据纳入第三方那时我就想如果我以后出去创业一定要支持私有化部署

iCDO: 私有化部署很显然是神策数据与其他同行的一个显著性的差异点互联网数据官的读者朋友们也有人专门建议我问文锋你们跟其他类似厂商(比如GrowingIO诸葛IO等这样的公司)有什么显著的区别很显然你的答案肯定会是私有化部署不过私有化部署并不是大家的共同选项反而是神策的一个“特立独行”之举企业数据系统的私有化部署其实是有很多困难的比如部署本身很难此外部署之后的维护、升级用户的灵活性等都有很多难关要克服神策为什么有“勇气”瞄准私有化部署领域呢?

桑文锋是的私有化部署并不是一个普遍选项所以我们才更要选择这么做当然我们不是意气用事我们做了很多分析而且也结合了我们自己的很多优势

14年底15年初SaaS是非常火的因为它有两个明显的好处维护成本低、掌握企业数据但我对这个的看法不同首先维护成本是能用技术手段来解决的包括如何更好的维护分布式这种复杂的系统并让其健康的运行这些对我和我们这个团队来说不是一个大的问题其次就掌握客户的数据这点来说在国内大家对数据安全还是比较顾虑的你拿到客户的数据客户难道就不知道很重要吗?我们还是要从客户的需求出发提供私有化部署客户不用担心我会出卖他们的数据因为我们不会获取其用户的数据

我们从成立以来定位就是做私有化部署私有化部署的客户在我们客户里面占2/3像中邮消费金融、聚美优品、秒拍、小黄车等等都是我们私有部署的客户其实这些标杆类的客户一般选私有化比较多

iCDO: 有没有友商跟进呢?如果他们也在做私有化部署呢?

桑文锋我是这么看这个问题的就是一个策略如果有效对手不可能不跟但是私有化部署对技术的挑战还是很大的举个例子SaaS方式就像依山建一所房子然后客户要求在平地上再建一套房子怎么办?你直接把那依山而建的搬过来最后可能就是个缺胳膊少腿的房子这里的问题是维护代价就比较大所以对原本只做SaaS要转成私有化部署的情况下技术上本身的挑战就很大而神策因为一开始定位就是私有化部署从开始就建了帐篷不管在山上搭还是在哪里搭都可以很好地去支撑

所以从这一点上来说即使有竞争对手也去支持私有化部署我觉得跟我们这种方案的成熟度一定不同比如部署周期我们部署周期会比较短单机版远程部署仅需30分钟左右集群版也仅是1~3个小时另外维护其实是一个更大的环节我们部署方案出问题的概率非常低即使出了问题我们也有完善的处理方式所以看似简单的一个私有化部署想要真正把它玩转要把这些分布式的服务做好这本身就是神策的一个优势

iCDO: 但关于私有化部署争议是很多的所以您是否也认同业界所说的私有化部署的弱点?

桑文锋私有化部署总体来说维护成本会比SaaS高但我觉得最后是要看投入产出比的你只要能够划得来就可以了同时我们神策数据不追求低价我们更认同711便利店的理念就是在相应价格上的物有所值其次私有化部署无法拿到客户的数据但是这一点对神策的定位来说并不是问题因为我们立足帮助客户打造数据根基而非获取客户数据

iCDO可是私有化部署毕竟比SaaS要复杂这是物理决定的你得在客户的环境中一个一个去做很难规模化你们有什么更好的方法去解决这个问题?

桑文锋是有更好的办法的这里包含两点一是产品和部署环境要标准化如果你去部署的每家都是独立的一套并且有很多定制化的需求那你处理起来每一个都是独立的样本维护代价就非常大所以我们要求产品和环境的标准化后续的维护就可以标准化的处理

二是我们本身系统里面有专门的自动化运维系统是中间很重要的一个环节其实对于大数据系统很多时候大家仅关注数据“如何采怎么传怎么存怎么查怎么可视化”这五层但实际仅有这五层还不行额外还得有三块监控、元数据、调度器要把这些东西结合起来才能稳定地运行比如某一块是数据采集出了问题还是传输出了问题还是查询出了问题并且它有问题的时候可以自动恢复等等所以这些东西真正做好才是维护性比较强的

iCDO: 每个企业的生产环境和营销环境可能都不尽相同既然要做私有部署那么意味着肯定存在相当繁重的定制化工作吧?

桑文锋这里面就是定制化的问题首先我不相信一个SaaS类的软件或是一个分析工具能够解决你所有的问题我甚至觉得SaaS类和分析工具仅能解决一少部分问题还有许多是需要个性化独立处理的神策提供的是PaaS+SaaS模式的服务我们将数据底层建好后客户可以在此基础上做二次开发并且我们面向的客户大都是互联网公司本身就有开发能力做二次开发并不难这也就很好的解决了个性化需求的问题了

神策希望帮助客户建立数据根基用windows做类比来说windows作为一个操作系统做了两件事情一是对各种硬件、CPU、内存、磁盘、网络等的管理二是它提供了一层API可以让第三层应用层开发QQ、outlook等应用

对比神策来说首先是把各种各样的数据源采集回来建好底层其次提供PaaS平台方便用户二次开发第三层就是各种应用了大家普遍看到的神策分析的部分只是一种应用基于这个PaaS平台同样可以去做推荐去做推送去做风控或是做其他挖掘都是可以做的从这三层去考虑对于windows做类比的话就更能清楚神策这个价值了

iCDO: 为了能够实现这种私有化部署及定制神策肯定需要深入客户的业务对客户的业务进行梳理之后才能进行定制吧?如果是这样这种深入业务进行梳理工作的一般周期大约会是多久?

桑文锋是的肯定要对客户的业务进行深入了解和梳理时间周期一般在半天到两天左右因为互联网产品还是会垂直分类的比如互联网金融是一类电商是一类等等每个类别下都是有共性的如果没有共性每一个都是独特的那这个代价实在是太大了一旦掌握了这种共性我们能对每一家都是独特的但对我们自己来说是可以更高效的去解决问题

所以进一步说如果每一家都建自己的数据团队然后去摸索其实我认为并没有发挥出团队的威力这也是我去年的时候写过一篇文章就是在大数据时代每家都需要一个大数据部门吗?其实是不需要的这就好比在电气时代每家都要做个发电厂吗?其实也不需要你可能更多的时候需要的是能够把电用好的一个人就可以了

关于行业和客户

iCDO: 你怎们看待今天的企业在数据使用上的痛点?比如大家现在对于数据普遍比较重视但是实际上你会发现很少有企业真正很好的利用起来了数据

桑文锋这里需要从互联网公司和传统公司两个角度去看互联网公司一是采集数据的方法有问题对数据源的重要性意识不够比如我们最开始的时候不管数据源头是怎么样的然后通过在中间做复杂的ETL再建立数据质量管理等我们做了几年之后发现这种思路有问题不管怎么做就做不好所以我们痛定思痛这也是我在百度很重要的一个心得——就是数据源很重要我们需要从源头尽量让数据规范标准起来比如之前我在百度做的数据采集审核系统每次变更一个字段或变更一个什么东西都能去审核管理起来从源头去结构化让源头不放水源头放水了后面就很难做这是第一个数据源的问题

二是数据采集的优先级问题数据工作在团队内的优先级不高数据团队推不动工程团队比如数据采集需要工程团队和数据团队打配合往往工程团队忙着迭代功能数据的优先级就会被弱化或是应付了事所以我们现在跟一些客户去沟通的时候一般尽量找那个能够调动工程团队资源的人因为只有他认可才能把这个事情做好

从传统企业来说同样归结为两个问题一是IT化程度不够IT化是数据化的前提条件数据没有采集的温床也就没有根基二是数据意识不强虽然认识到了数据的重要性但在实际工作中仍然凭感觉做事

iCDO: 所以是不是其实客户可以分成两类?一类就是他已经意识到数据的重要性也懂得利用数据去提升效率和效果但是缺少好的解决方法即意识已经到位能力有所欠缺另外一类是可能连意识都还没有到位希望通过大数据解决所有问题并希望尽快看到高收益高回报?

桑文锋我是这么看的越初级的客户越会是第二类认知比较浅的话要的东西就会越飘越要求高大上就像现在人工智能比较火越是不懂的可能要的越是天花乱坠懂行的更清楚如何可行的看某一个问题部分利用人工智能部分利用正常的IT系统按人配合去把它做好所以从这点上来说我觉得如果一个客户他要的很荒唐这也是需要我们这样的数据从业者去引导他们的地方我们不能被客户牵着走我们本身是需要普及整个数据化进程的中国这种数据化进程是一步步往前走的但是现阶段底子还是很差所以这也是我们为什么将“建立数据根基”作为神策定位的原因

iCDO: 神策现有的客户中哪些会比较接受数据驱动运营的理念?

桑文锋目前的客户可以分成三类公司一类是BAT还有硅谷回来创业的公司这种公司就是在挑工具只要工具能够解决问题就可以不需要讲理念第二类是其他类型的创业者之前没有数据驱动的理念这个时候就需要我们去灌输整个体系了包括他在实际工作中应该关心哪些指标应该如何做分析等等第三类就是互联网+企业这些企业许多时候是高层站得很高但是一线员工的意识和能力比较有限这个时候我看到的这种特征是自上而下来push的所以导致的结果就是执行周期比较长当我们遇到这样的客户会进行更多的培训进而培育市场

iCDO: 现在很多用户会认为分析不能解决实际问题中国现在更需要能够落地要执行甚至帮你执行的解决方案您怎么看?

桑文锋这个问题特别好其实这是一个恶性循环分析不能解决实际问题的最主要原因就是数据采集没做好那后面的环节就都受影响了许多公司在做数据分析时的一个很大的问题就是靠需求驱动比如老板要一个数据分析人员就处理一个数据下次要了另一个数据就再单独处理根本没有数据体系的建设

我们可以从四个方面来考虑这个问题首先我们要做好数据采集这是根基其次是做好数据建模比如神策一直强调的一个模型就是event-user模型其实就是最重要的两张表一张表记录用户做了什么另一张表记录用户有什么属性三是各种分析方法比如漏斗分析等界面上点选几下就可以实现而不是让工程师花数周时间专门开发最后是指标体系围绕产品从拉新、留存、变现等各个角度来看我们需要关心哪些指标所以我觉得真正去建好一个数据体系应该分成四层即“采集、建模、分析方法、指标体系”

iCDO: 您一直提到神策的愿景是帮助企业建立数据根基这里其实很大程度上是对数据源的有效把控但数据源在采集的时候该采什么数据或者哪些数据是对公司有用的这些问题神策是怎么考量和解决的呢?

桑文锋我对数据有一个看法数据这个事情想要做好是需要经验的没有经验真的是很难做好因为会不断的踩坑比如哪些字段要采集哪些不要采然后该用什么系统涉及哪些系统组件其实都是一个一个坑即使你想好了然后推动业务部门去配合你工程部门配合你开发业务部门配合去用其实这里面都是一系列的坑

这也是神策的一个价值神策是一个80%产品+20%咨询我们有一个强大的分析师团队还有一个客户成功团队基本上就是分析师团队在部署之前会帮助客户去梳理他的业务然后围绕业务里面有哪些关键的行为事件事件里面涉及哪些关键的维度再去决定部署只有这样的话才能把这个底子打好否则你凭空产出分析或工具去用可能也只有10%的功能客户会埋单

iCDO: 中国人很着急花钱买了你神策的东西或是Adobe的东西(比如AdobeOmniture等)就希望能够立即看到效果——能够马上看到企业组织在工作流程或方式上的改变另外一种心态则是我花了5万元买了你的产品你的产品必须给我带来超过50万额外的销售作为回报否则你的产品就是“忽悠我的钱”您怎么看这个问题?

桑文锋我是这样看的中国确实有一个大的背景就是中国的人力便宜在这种情况下大家许多时候能用人顶上干嘛还要用你这个第三方工具呢还得额外花费成本然后大家就不愿意为效率付费这是一个问题另外一个问题是流量很便宜许多时候获取流量太容易了粗放型的也能活得很好

但现在我觉得这两个条件都不具备了已经被打破了首先人力变得越来越贵就拿咱们数据分析这个领域来说招人非常困难很难招到合适的人选其次流量红利没了做广告带来的收入又不是纯利亏多少就是一个问题所以从这些因素就逼迫着互联网企业要精耕细作要挖掘好已有的用户群并想办法把它利用好

所以在我看来互联网统计分析其实经历了三个阶段最开始是流量阶段这个阶段大家只关注访问量就够了到了第二个阶段是用户阶段我们开始关心DAU、MAU等一类指标但仍然不需要深挖而现在我觉得已经是第三个阶段就是订单阶段我们要关心一个用户怎么转化进来的来了之后怎么去盘活他所以整体数据分析的需求都变强了

同时确实如你所说我们希望尽快看到效果这也是一种趋势而且我觉得最后按效果付费会占到很大的比例虽然这个过程比较着急但我觉得一定会进入这个阶段可能还需要3~5年的时间

iCDO: 目前Sensors Analytics采集的数据主要是用户行为数据其他类型的数据也可以采集吗?比如业务数据线下数据等?

桑文锋都是可以采集的比如客户的业务数据线下数据服务端数据等这些数据都能采集过来从我们的理念上来说大数据总结成四个字就是“大”、“全”、“细”、“时”这里面的“大”主要指宏观的大实际采集上我们并不用关注它“时”指高实效实时的数据这个我们一般也忽略它我们更多的是考虑一个“全”一个“细”其中“全”就是指多种数据源不管是客户端的、服务端的、线上线下的、或是各种设备的将数据全量采集其次“细”就是强调多维度采集过来用户一个提交按钮用户一次浏览他相关的维度“who、when、wherehow、what”信息也采集起来这才能建立一个好的数据底子之后的分析也会变得容易很多了

另一方面这个数据不一定是来自于APP或是服务器模块也有可能来自各种各样的传感器、视频、麦克风等等未来是一个传感器时代或者叫物联网时代不管是虚拟的还是物理的这些数据我们都应该去做采集这个阶段一定会到来

其实这也是为什么神策数据的英文名字是“SensorsData”就是传感器数据嘛我们认为未来一定是传感器的世界神策也在采集传感器数据方面做更多的工作

iCDO: 会不会存在客户不需要你去采集数据他采集好的数据提供给你们然后你们来为他们做预处理?

桑文锋我认为未来会有的因为数据采集手段是多种多样的我觉得以后通上电的这种设备各种各样的传感设备都能采集到数据比如就像我们看这个灯泡其实它是在60赫兹以及相关条件等作用下在闪烁这里面也会涉及数据以后也可以采集到而如果客户已经有了这些数据交给我们的就是如何建好数据仓库这一块即使到了一个新的阶段对于神策的定位来说我们还是要帮我们的客户把数据根基建好

iCDO: 有一些企业比如说像Martech(Marketing Technology)这个领域他们会直接把数据输入到应用场景中去用机器规则来实现一些业务上的操作、管理和应用神策有准备做这个吗?

桑文锋神策是处理数据流的不会做流程与控制但是神策是能够给这些系统提供弹药的比如神策有用户分群的分析功能我们可以把满足某些条件的用户抽取出来并提供到对应的营销系统里面去使用它所以这些公司其实跟神策去结合起来是可以事半功倍的

iCDO: 中国的商业环境是这样大家更重视应用层面会轻视后台的作用您怎么看这个问题?

桑文锋我相信其实美国也是一步步迭代出来的我们现在看到美国互联网环境很开放接口很开放大家都是组件式的但我觉得在六七十年代美国刚使用这种大型机的时候他们也是做全套系统的但是后来竞争越来越激烈就会要求你做好某一块儿这是我比较认同百度的一个理念把事情做到极致你可以少做一点但是要把它做到最好我觉得开放只是时间问题可能就这3~5年的时间到那个时候后台的作用大家不仅不会轻视反而一定会成为刚需

iCDO: 预测下五年后的神策您希望是什么样?

桑文锋五年后的神策我希望完成了愿景的70%神策的愿景是希望花十年的时间重构中国互联网的数据根基现在神策做了两年了服务300多家客户离目标还远但这个速度是指数级增长是会越来越快的

iCDO: 希望神策早日达到自己的目标感谢文锋

桑文锋谢谢!

亲,眼睛太累了,关注exread(睿读吧)微信号,用耳朵“阅读”微信。

您可以将文章的链接或收藏的微信发送到睿读吧微信号中,我们会帮您转换成音频来听读,让您的眼睛休息一下吧!
查看来源 违规举报