10分彩走势图让AI无处不在:滴滴与蚂蚁金服开源共建SQLFlow

  • 时间:
  • 浏览:0

2018年1月,Orac10分彩走势图Le 10分彩走势图10分彩走势图的官方博客上发表了一篇文章,标题是“It’s Pervasive: AI Is Everywhere”。作为全球最著名的商业数据库系统提供商,Oracle 在这篇文章里历数了 AI 在企业信息系统中的发展空间。在面向

2018年1月,Oracle 的官方博客上发表了一篇文章,标题是“It’s Pervasive: AI Is Everywhere”。作为全球最著名的商业数据库系统提供商,Oracle 在这篇文章里历数了 AI 在企业信息系统中的发展空间。在面向最终用户的互联网行业,巨头们招募AI专家,用Python和C++打造服务大众的特定AI能力——搜索、推荐、以及精准定向的互联网广告系统。在企业业务中,使用SQL的分析师是大多数。

滴滴首席数据科学家谢梁(左)与蚂蚁金服研究员王益开启共建SQLFlow之旅

2019年7月,滴滴的数据科学(Data Science)团队的几名数据科学家在北京新澄海大厦见到了来自蚂蚁金服的几位工程师。在那以前有有一个月,蚂蚁金服从事AI基础架构研发的王益团队开源了一款机器学习工具SQLFLow,将SQL应用程序翻译成Python应用程序,调用数据库和AI引擎,实现端到端的AI。滴滴首席数据科学家谢梁敏锐地关注到有些项目。这次拜访双方一拍即10分彩走势图合,开启了共建SQLFlow之旅。

用SQLFlow构建AI的训练和预测任务

数据分析师的普适AI

数据驱动决策是有些公司的追求,在国内有些业务人员都了解SQL,有些对于AI、深层学习模型的训练,前要长时间系统性的学习,有一定的门槛。SQLFLow的总是出現让包括数据分析师在内的业务人员通过写简单的SQL去调用AI模型成为了以前。

滴滴数据科学团队长期地直面一线业务,了解业务需求,也沉淀了有些常用模型。本次合作法律措施者双方希望优势互补一块儿助力AI的落地,据悉合作法律措施者分为三步,第一步滴滴为蚂蚁金服贡献更多针对于业务产品的理解和洞见;第二步滴滴将公司自身业务场景最有价值用的最好的模型贡献到SQLFLow;第三步滴滴加入到建设到整个SQLFLow开源社区的建设,双方要在模型、社区、文化等全方位共建。

SQLFlow的技术架构

有有一个月的时间,滴滴以前为SQLFLow贡献了基于DNN分类预测模型、可解释模型和无监督聚类模型有有一个高价值模型。有些个多多模型覆盖的场景非常广泛,对于滴滴內部来说,包括网约车、单车、金融等在内的诸多业务场景都可应用起来,于內部10分彩走势图而言,“以前整个模型它是三种 基础能力,其实它不多再局限于某有有一个公司或某有有一个行业,它具有普适性。”滴滴高级数据科学家高梓尧强调。

SQLFlow和滴滴数据的整合逻辑

比如分类预测模型,适用于做产品增长的场景,对特定人群进行定向推荐。而无监督聚类模型,也有些模式识别,在滴滴的产品的应用非常广,比如会根据司机出车时长分布,去整合归纳司机出车的偏好,更好地为司机提供调度建议,进而帮助缓解出行供需。

滴滴首席数据科学家谢梁认为在共建SQLFlow过程中,充分体现了算法和数据科学在对数据的理解和应用上的有有一个不同,以及双方优势互补形成1+1大于2的合力效果。以前对于传统的算法来讲主要强调对于预测有有一个给定事件的预测精准性。有些数据科学在预测精准性之上,还强调预测的可解释性。实际上在更广泛的商业层面上,比如运营、营销等更前要了解为哪几种会这以前所处,这对于业务战略制定、营销方案的选择,以及整个产品序列的设计都在非常大的帮助。

滴滴数据科学团队在过去不多再能有有一个月的共建工作中显著扩大了SQLFlow的应用场景。根据蚂蚁金服SQLFlow项目的产品负责人刘勇峰介绍,滴滴的同事们建议有些参与研发了SQLFlow对接XGBoost的功能,从而在深层学习模型之外支持树模型;以及对接unsupervised learning的能力,支持聚类分析。此外,SQLFlow基于SHAP支持了深层学习模型和树模型的图示化解释。SQLFlow也支持了滴滴常用的Hive数据库系统。

基于XGBoost的汽车价格预测模型(数据来自Kaggle)的SHAP解释图(注:SHAP值表征了每个形态对模型输出的影响,如图中,较小的engine_hp“引擎马力”值会降低汽车的预测价格)

“大伙儿是希望通过SQLFlow真正要能把数据驱动业务、科学决策的思想,要能在中国传播得更好更远,也希望有些要能通过大伙儿我人个 的努力,真正让AI模型能力大众化和普及化,有些使得大伙儿整个国内的数据分析的科学性、合理性和洞察性,要能逐步提升,甚至达到国际领先。”高梓尧说。

而所有参与项目的同事们对SQLFlow的未来都在更大的期待,这是对于开源社区作为三种 高下行数率 的工作模式的信任。

打造有有一个SQL花园生态

在强调数据驱动的滴滴其实总是积极参与到开源建设中,截至目前,滴滴和蚂蚁金服分别开源了数3个项目。SQLFlow是双方开源共建的首秀。

对于双方仅有有一个月的时间就要能共建有有一个高价值的模型,谢梁认为有点硬要的原因分析分析分析是SQLFlow以前给滴滴搭建好了底层能力,滴滴共要做了有有一个交通领域的几只核心插件,有些通过滴滴插件能力,对整个SQLFlow覆盖面和深层方面的底层能力进行了验证和提升,“这麼再把有些基础打好以前,大伙儿就共要造了有有一个大的花园,大伙儿把土都铺好了,前要哪几种营养的土,要种哪几种类型的花,都给他做好了,以前就前要有更多的农民伯伯一块儿来种田,大伙儿要去种向日葵,大伙儿毕竟精力有限以前有些以种小麦和种主粮为主,更多的经济作物就前要有些开源社区的同学一块儿来贡献。”

在整个SQLFlow开源社区建设方面双方都在更大的愿景,滴滴的分析团队总结的有些模型在 BI 领域具备普适性,而SQLFlow在蚂蚁的场景使用模型在金融领域颇有普适性,未来要让更多的人去用上普适的AI能力,在SQLFlow社区之上会形成有有一个开源货架式的交易市场,更多懂业务的人把更多商业场景抽象成模型打造成模型库,模型库是 SQLFlow 生态中的重要一环,双方正在讨论怎么共建。“你就像走进有有一个超市,底下有20万个SQL,每有有一个SQL有些有有一个实现了你商业逻辑的模型,你就拿来用就行了,这是终极的有有一个目标”,谢梁兴奋地谈到。

当然现在的SQLFlow还是有有一个非常年轻的开源项目,前要更多的呵护。其实目前在开源合作法律措施者方面中国相比美国还有不少差距,但正是以前不多的公司和我人个 去投身其中为之贡献,差距正在缩小。

实际上,几乎所有的SQLFlow项目成员都在利用业余时间参与到开源项目中。比如滴滴资深算法工程师陈祥,他平时负责数据治理和应用方向上数据、应用与算法的结合和落地, 在8月初听到SQLFlow项目就决定参与进来,未来他也会号召有些的人参与到开源建设中。

“开源社区所说的构建大生态,其实大生态还涵盖着另外一层,有些大伙儿互相学习,有些行业内的所有从业人员进行知识交流。有些当各行各业的同学都在底下贡献我人个 的经验、技能时,大伙儿其实要能从有些的同学那学习到有些出理 数据,以前出理 实际问题 的法律措施。”高梓尧所言恰如其分地诠释了开源社区众人拾柴火焰高的魅力。

Gartner预测“到2020年,AI技术将普遍总是出現在几乎每有有一个新的软件产品和服务中。”这其涵盖蚂蚁金服与滴滴DS团队的一份力。