作者:Matt Turck @ FirstMark

原文:The Power of Data Network Effects

核心观点:

  • 数据网络效应不同于网络效应,两者也可能同时存在一家公司内
  • 工具和技术的成熟让数据网络效应变得普遍,在2C和2B场景广泛存在
  • 形成数据网络效应前要面临数据冷启动,可能需要各种手段和“数据陷阱”的帮助
  • 寻找跟有数据公司合作的方式,用别人的数据学习

在竞争激烈的科技创业公司世界里,优秀的企业家往往会在同一时间想出类似的点子,而“热门赛道”很快就会挤满资金充足的候选人,竞争的护城河显得尤为重要。理想情况是,随着你的创业规模扩大,你不仅要能够保护自己不受竞争对手的攻击,还能发现越来越容易摆脱他们,使你的业务越来越不容易攻破,并进入一个“赢家通吃”的状态。这听起来很简单,但实际上,许多成长中的创业公司,包括一些知名的创业公司,所经历的恰恰相反(竞争加剧带来更高的获客成本,核心技术被竞争对手复制和改进,以及后发优势——从你早期的错误中吸取教训,等等)。

虽然有各种类型的竞争护城河,如一个强大的品牌(苹果)或规模经济(甲骨文),网络效应特别有效地创造了这种赢家通吃的动态,并与互联网行业历史上一些最大的成功故事联系在一起。

网络效应有不同的形式,今天我想谈谈一种特殊的类型,这种类型是我作为VC个人投资主题的核心,源于我对数据和机器学习世界的浓厚兴趣:数据网络效应。

网络效应与数据网络效应

通用的网络效应的概念现在已经被很好地理解了:一种飞轮效应,当更多的人使用某种商品或服务时,这种商品或服务会变得更有价值。从电话系统(如果每个人都有一部手机,手机的价值就会增加)到Facebook,再到许多市场(后者有一些细微差别)。

虽然它们产生了许多相同的好处,但是数据网络效应更加微妙,通常人们对它们的了解也更少。如果你的产品通常由机器学习提供动力,当它从用户那里获得更多数据时,数据网络效应就会发生。换句话说:用户使用你的产品越多,他们贡献的数据就越多;贡献的数据越多,你的产品就变得越聪明(从核心性能改进到预测、推荐、个性化等等);你的产品越聪明,它就越能为用户提供更好的服务,他们就越有可能经常回来贡献更多的数据等等。随着时间的推移,你的业务变得越来越根深蒂固,因为没有人能够这样好的为用户服务。

数据网络效应至少需要一定程度的自动化学习。当然,大多数运营良好的企业以某种方式从数据中“学习”,但这通常是通过分析来完成的,人力分析师做了大量的工作,然后再有一个单独的过程来对产品或服务进行洞察。在循环中构建的自动化程度越高,你就越有可能获得飞轮效应。

谷歌就是一个典型的数据网络效应的例子:人们搜索的越多,他们提供的数据就越多,这使得谷歌能够不断完善和提高其核心性能,以及个性化的用户体验。现在是谷歌公司的Waze是另一个很好的例子,它本质上是一个建立在数据网络效应上的互助数据库。

在功能层面(而非核心业务层面)也有大量数据网络效应的例子:例如,推荐引擎现在无处不在,从亚马逊(你想购买的产品)到Netflix(你想看的电影)到LinkedIn(你想联系的人),并且随着更多的用户/数据不断变得更好。

注意,“标准”网络效果和数据网络效果也可以在同一家公司找到。优步的魔力部分在于,它的核心使命是从两者中受益:标准的网络效应(随着越来越多的司机和顾客“加入”这项服务,优步对每个人来说都变得更有价值)和数据网络效应(更多的数据使优步能够不断改进其路由算法,以尽快为顾客提供一辆车,并确保司机能够获得尽可能多的工作,让每个人都感到满意,更有可能成为网络的长期成员)。类似地,Facebook既受益于“标准”网络效应(Facebook用户越多,每个人的体验就越有趣),也受益于数据网络效应,例如,新闻源通过大量的数据学习循环,不断变得更加个性化。

现在每个人都可以使用了吗?

到目前为止提到的很多例子都是关于大公司的,而且正如我们将在下面看到的,这些大公司有一个关键的优势(更多的数据)。

然而,由于大数据工具(处理大量数据的成本更低、速度更快的基础设施)和机器学习/人工智能(用于自动分析和学习大量数据的现成工具和算法越来越多)的民主化,数据网络效应现在正成为更广泛的公司群体的一种可能性。在这样一个世界里,你可以使用类似谷歌的、受谷歌启发的技术,从Hadoop到CockroachDB再到TensorFlow,你不需要成为谷歌就可以建立核心基础设施和学习循环,从而从数据网络效应中获益。[披露:FirstMark是Cockroach Labs的投资者]

数据网络效应在消费者环境(学习产品的所有用户)和企业环境(学习跨所有客户,形成事实上的网络)中同样有效,跨多个行业。

以我自己投资组合中的不同行业为例:

  • 生产力:随着越来越多的用户使用由x.AI开发的人工智能调度助手amy/andrew,系统收集了越来越多的电子邮件数据,这使得人工智能更加智能,从而提高了用户体验(例如在响应时间方面),并使系统更具可扩展性(因此可以服务更多的用户),带来更多的使用和更多的数据;
  • 企业软件:HyperScience(面向企业的人工智能)和ActionIQ(大数据营销平台)都建立了系统,这些系统能够(或者说将会)更加智能地应对每一个新的企业客户(这两家公司基本不怎么公开);
  • 物联网:数据网络效应与物联网公司的长期防御能力密切相关,包括我投资组合中的Helium(企业物联网)和Kinsa(健康/消费者物联网)。硬件经常会被复制,有时会被商品化。然而,如果你把每个设备看作一个提供数据的网络中的一个节点,物联网公司就有机会从每个客户那里建立洞察力/学习力,而这些洞察力/学习力将越来越难以复制——真正的价值是在软件和数据层面建立起来的;
  • 健康:基因检测公司Recombine建立了一个合作诊所网络,负责管理其检测;每次新检测,Recombine收集更多的DNA数据,这些数据(经适当同意)可以运行机器学习,以改进其检测,并灵活地开发新检测(因此收集更多数据);
  • API/开发者业务:Sense360正在开发一个API,使移动开发商能够轻松地将传感器智能集成到他们的应用程序中,并且能够从其客户网络中的大量数据(GPS、加速计、陀螺仪、气压计等)中学习。

冷启动问题与“数据陷阱”

数据网络效应通常不会“自然发生”。首先,他们需要创业公司的决心,从根本上成为一个数据公司,有一个明确的目标,建立数据反馈循环的产品,首先手动,然后自动。这包括构建正确类型的数据基础设施(使用现代大数据平台和工具)和数据团队(数据工程师、数据科学家等)。

构建数据网络效应的另一个关键要求是......嗯,数据。有时候,这需要大量的数据。虽然你可以用少量的数据做很多事情,但是一些更强大的机器学习算法(比如深度学习)特别需要数据。

这里有一个有趣的“先有鸡还是先有蛋”的问题——你是从尽可能多地积累数据开始,然后再建立数据团队/基础设施,还是反过来?

那些致力于在功能层面建立数据网络效应的公司(例如,建立了个性化客户体验的推荐系统的公司)可以做前者,并逐步建立他们的数据团队/基础设施——看看Birchox或Bonobos(数据科学和工程团队成立于2007年5年后的2012年)在我们的每月活动Data Driven NYC上的演讲。

对于纯粹的数据/机器学习创业公司来说,建立数据团队自然是第一位的,首先从创始人自己开始。另外缺少对大型数据集的访问是一个真正的问题,在某种程度上,它为大型互联网公司提供了实实在在的优势(“为什么Google不这么做呢?”这个问题变得更困难了,不仅仅是工程师数量的问题,还有获取大量数据集的问题)。更重要的是,根据定义,没有数据或数据有限,在很大程度上阻碍了在构建数据驱动产品方面取得重大进展——这是一个真正的“冷启动”问题。

冷启动问题可能或多或少比较严重。在某些情况下,由于创业公司关注的领域相对狭窄,它可以相当迅速地被超越。X.ai就是一个很好的例子:尽管产品的数据越来越多,但该公司能够非常迅速地开始自动化日程安排过程的大部分内容,这在很大程度上是因为它解决了一系列有限的问题(安排会议涉及的场景有限),并且需要特定类型的数据(与安排会议相关的电子邮件)。

在大多数情况下,你需要一个数据采集策略来克服冷启动问题。我已经见过太多的数据创业公司用一种方法去面向客户,这种方法通常相当于“给我们你的数据,我们将用它来微调我们的算法,然后美好的事情就会发生”。如果没有预先提供真正的价值,这通常是行不通的。

我见过的许多成功的早期数据采集策略大多属于“骗局”范畴——这是创始人为了让公司有机会扩大规模而做一些无法扩大规模的事情的典型例子。一些策略的例子:

  • 抓取网页(例如训练实体识别算法)
  • 在暗网上寻找数据集(似乎是合法的)
  • 将数据捕获sdk放入第三方应用程序(需要最终用户同意并向应用程序收取费用),做一些手工工作来模拟该软件最终将做的事情,通过对公司进行小规模收购来获取特别相关的数据集

我特别喜欢的一种方法是构建一个“数据陷阱”。他们的想法是从一开始就为用户提供真实的、有形的价值,并鼓励他们开始贡献自己的数据。例如,我见过开发人员/企业创业公司开发有趣(和免费)的小程序,通常针对消费者,以开始收集数据。有时候,“数据陷阱”本身可能就是一桩真正的生意——我前面提到的基因检测公司Recombine通过销售其生育前测试产生了8位数的年收入,考虑到它通过这些测试收集的数据本身就具有高度的价值,这是一笔令人吃惊的收入。

从别人的数据中学习

如果你没有这些数据怎么办?无论是否受到监管,这个问题都适用于消费者和企业。数据隐私问题值得一个完全不同的文章,但这里的最佳实践是从一开始就将隐私建立在产品的核心DNA中。披露,同意,用户控制是必不可少的。

在企业环境中,问题出现得早且频繁。 一个典型的场景是: 一家拥有高科技的小型企业软件初创公司接洽一家大公司,承诺处理和分析大量客户数据,同样希望为了这个客户(以及最终所有其他客户)的利益微调其算法,以建立数据网络效应。 大公司非常保护自己的数据,所有事情都需要在私有部署里(而不是在云中)完成,安全部门会屏蔽任何不理解或无法控制的内容。 这可能是一个艰难的谈话。

解决这一问题的一些可能办法:

  • 谈判的前期和充分披露,虽然数据将严格保持属于客户的财产,学习到的数据将属于供应商
  • 客户需要加入”客户学习网络”才能受益于产品从其他客户学习到的东西
  • 分层定价,如果客户决定不加入“客户学习网络” ,他们将支付更多费用

在创业初期,将创业公司定位为潜在客户,因为他们对这些问题的态度往往更加积极。

总结

没什么事情是容易的,并且获得数据网络效应需要时间、精力和大量的数据。 但这种潜力是令人兴奋的。 你应该从这篇文章中得出的结论可能不是你应该在你的下一个VC推销中强制安装一个“数据网络效应”幻灯片 ,除非它在那里真的合理。 而我相信这是一个关于如何建立企业的非常有趣的思考方式,不仅是对于纯数据 / 机器学习的创业公司来说,也对那些本质上就是数据公司的普通互联网和技术创业公司也是相关的。值得在创业初期做技术设施和团队决策时就开始考虑。