文:科技商业 于洪涛
采访崔运凯,是在台风“烟花”登陆前的一个下午。那天的上海,天空虽然有些阴沉,风却不大,典型的台风来临前的宁静。
作为90后的创业者,崔运凯也是一脸的风轻云淡,如同他创办的AI数据基础设施公司格物钛一样的行事风格。在有些浮躁的国内AI市场上,这颇有些不易。
为了让消费者和投资者看得到,为了让自己的业务显得“性感”,绝大多数的AI创业公司都选择从事那些最终消费者能够看到的顶层应用业务,比如人脸识别、智能语音之类的。
与他们不同,格物钛却选择了打造下一代AI数据平台,去帮助千行百业的AI应用开发降低难度、提升效率。在此过程中,格物钛扮演一个铺路石的角色,专心打造AI的底层数据基础设施,成为AI市场的隐形英雄。
立下“让AI触手可及”的愿景
崔运凯先后毕业于上海交通大学与美国宾西法尼亚大学,2015年作为早期员工加入到Uber的无人驾驶部门,从事人工智能研究和产品化工作,后来成为该部门最年轻的Tech Lead 。
在Uber,灌满100PB(1PB=1024TB)的数据池可能只需要几个月的时间,这是硅谷其他以处理结构化数据为主的公司不可能遇到的。这相当于让崔运凯提前5-6年看到了AI落地面临的问题。
当时,Uber 除了在印度有很大的数据生产团队外,还将部分数据需求外包给位于西雅图的创业公司,除了要承受昂贵的价格(当时的定价是1张图片5美金),冗长的等待时间(5000张图片大概需要做4个月),还要解决数据的对接、跨境分发、检索、整理及真值数据的保存和使用等一系列难题。而对于无人驾驶来说,训练至少要亿级图片,这无异于把问题难度又放大了数万倍。
2018年,崔运凯回国创业,担任一家高精度地图公司的合伙人。在研发过程中,需要收集海量数据来进行模型训练。为了管理和使用这些数据,崔运凯需要一个合适的数据平台,却苦于找不到一家能够满足需求的公司。
这时的他深刻意识到,无论是国内还是国外,人工智能的整个工具链都非常早期和不完善,如果再做一家AI公司,还会遇到同样的工具问题,还得花大代价把这些问题再解决一遍。
为此,崔运凯干脆决定自己来搭建这样一个平台,通过打造AI的数据基础设施,去系统性地解决问题,使得前东家这样的AI应用开发,难度更低、效率更高。
从创业的靠前天起,崔运凯就给格物钛制定了明确的企业愿景:“让AI触手可及”。格物钛服务的对象是AI开发者,他希望通过努力降低AI应用开发门槛,降低高质量数据获取、存储和处理成本,让普通开发者能更好地把时间和资源投入到业务创新上。
帮助AI开发者打牢高质量数据基础
秉持“让AI触手可及”的理念,崔运凯和他的格物钛开始了在国内AI数据基础设施领域的创业步伐,很快获得了红杉、真格等一线投资机构的青睐。
统计数据显示,全球AI市场都在快速增长,我国的AI产业规模早已突破千亿元,正在向万亿级迈进。然而,在众多创业公司和各类行业用户都在积极拥抱AI的同时,另一项调查显示,只有8%的数据专业人士认为他们的组织正在使用AI,未能成功实施人工智能和机器学习的主要原因则是数据质量问题。
人工智能和机器学习的基础就是数据,没有数据也就不会有ML或AI,所谓的机器学习就是机器输入并学习数据,从而输出正确的编码,而不好的数据比没有数据更糟糕。
数据质量差,对于AI应用来说很可能是致命的。比如在自动驾驶场景中,如果原始图像数据中的婴儿车或者自行车没有被准确标注出来,很可能导致车辆在实际道路驾驶时,无法准确识别进而引发交通事故。
“Garbage in, garbage out”, 显然高质量的训练数据,对于模型训练效果至关重要,但对于绝大多数的算法工程师来说,这是一项巨大挑战。
崔运凯说,像Uber这样的大公司尚有能力搭建数据基础设施,而创业公司和小规模企业,需要把时间和精力放在自己的产品打磨上,这些数据基础工作理应交给格物钛这样的专业公司来做。这种精细化的分工,在传统IT和云服务领域早已如此,在AI领域也是大势所趋。
为AI开发者而生的格物钛,专注于解决AI开发中的数据痛点,目前主要从事两大业务,一是面向机器学习的非结构化数据管理SaaS——TensorBay,二是构建以AI开发者为核心的海量公开数据集社区——Open Datasets。
开启以数据为中心的AI时代
崔运凯介绍说,在国内还没有与格物钛从事类似业务的公司。从全球来看,格物钛的业务模式与Scale AI很像。2016年由两位华裔创办的Scale AI,估值超73亿美金,去年营收上亿,是有史以来最快突破1亿美元的公司之一。
Scale AI从数据标注业务做起,客户已经遍及多个行业,业务范围也逐步拓宽。与Scale AI类似,格物钛为客户提供的也不仅仅是数据标注服务。
崔运凯表示,格物钛 提供的是以数据为中心的解决方案,数据标注是 其中很重要又最容易理解的一个环节,但并不是全部。
格物钛的核心产品TensorBay,是一款非结构化数据管理平台 。 之所以瞄准非结构化数据,是因为其在整体数据的占比越来越高。
IDC报告显示,未来非结构化数据将会占据数据总量的80%,其中就包括AI训练经常要用到的视频、图像、语音等类型数据。比如我国每年销售的摄像头达到上亿个,产生的数据则可以达到十几ZB(1ZB=1万亿GB),由于数量过于庞大,这些数据未能得到很好的保存和利用。
崔运凯更愿意把格物钛的产品放在MLOps工具链去理解。
早前,机器学习一贯以模型为中心,更强调构建模型、调整超参数或选择正确架构,来提升AI模型效果。AI/ML最权威学者之一吴恩达上半年发布了课程《MLOps:从以模型为中心到以数据为中心的AI》,他认为“以数据为中心”的时代已然来临。
格物钛的设计理念,也更偏向于以数据为中心的AI策略,用工具链和系统化的方法来提升数据质量,通过不断地喂给数据,让模型保持轻微调整,这会使模型的效果批量提升成为可能。对于规模精简的算法团队而言,显然以数据为中心的策略相比于以模型为中心的策略更具可操作性。
打造全球最大的公开数据集
格物钛除了通过TensorBay提供非结构化数据的管理、查询、协同、可视化和版本控制功能以外,也在积极构建公开数据集社区Open Datasets,为全球AI开发者提供高质量的开源数据集。
我们都知道,AI应用需要依赖大量的数据进行模型训练。然而,可用的数据集一直都是市场上的稀缺资源,尤其是随着AI应用向千行百业的逐步渗透,对数据集尤其是高质量数据集的需求越来越大。找数据难、买数据贵,成为全球AI开发者普遍面临的问题。
与此同时,秉承开源的思想,也有一些数据的拥有者,希望能够分享自己的数据集,使其价值能够得到充分释放。格物钛的Open Datasets可以被简单理解为是“GitHub for Data”,目标是打造成全国乃至全球最大的公开数据集社区,与AI开发者和行业合作伙伴一起,打破数据孤岛、共建开源数据生态。
比起“数据是新石油”这个说法,崔运凯更倾向于认为“数据是用之不竭的阳光”,因为数据是非竞争性的,可以被任意数量的公司或个人同时使用和重复使用,而不会发生减损。
格物钛为此专门发布了“寻集令”生态合作伙伴招募计划,面向全球市场吸纳优质公开数据集合作伙伴。据了解,目前Open Datasets已有1200+个优质数据集,涵盖了各行各业,用户可以免费上传和开源下载,并支持云端读取。
为提升用户的使用体验,Open Datasets 提供了在线数据可视化功能,无需下载处理,即可在数据集详情页查看标注情况及标签分布。同时,对于数据集发布方,Open Datasets 自身丰富的流量及讨论功能也为连接用户提供渠道。
甘当铺路石的隐形英雄
在奥运赛场上,吸引眼球的都是那些光鲜亮丽的金牌获得者,而不是那些为选手们提供幕后服务的人和机构。在国际网坛,人人都熟知德约、纳达尔、费德勒、穆雷这四大巨头,却很少有人知道位于佛罗里达小城的IMG ,很多知名网球选手都是在那里训练成长起来的。
默默无闻,不等于没有价值。恰恰相反,这些甘当铺路石的隐形英雄,不仅正在发挥越来越重要的作用,其市场价值也在不断提升。正如硅谷教父彼得·蒂尔所言:“在激烈的竞争中,AI公司们会出现又消失,但是Scale会一直存在,因为它提供的是整个AI/ML行业的基础设施,数据是这个行业最重要的东西。“
崔运凯说,虽然现在人人都在谈AI,但真正用到AI的公司还不是很多。目前AI在国内发挥的作用仍然只是冰山一角,许多应用还没有落地。未来当AI像云一样普及时,格物钛希望能够成为云市场的亚马逊。
当然,对于成立仅仅两年的格物钛来说,梦想才刚刚开始,前面的道路还很长。在为AI市场铺路的同时,格物钛今天所做的一切,也是在其未来的雄心壮志铺路。
那一天,应该不会很远。