摘要:
2018年9月19日下午,阿里巴巴集团副总裁周、高级技术专家兼阿里巴巴负责人徐盛、研究员兼阿里巴巴负责人管涛、研究员兼实时计算负责人蒋、研究员兼阿里巴巴PAI平台负责人林伟共同对阿里新一代计算引擎进行了描述。
近年来,随着分布式计算能力、网络、存储等能力的极大提高,大规模数据采集和高效处理成为可能;随着机器学习和深度学习技术的发展,大量全面准确的数据已经成为几乎所有商业或科学决策的重要前提。
海量的数据存储、准确的数据采集、丰富的数据类型、高效的机器智能算法和匹配的超大规模计算能力,直接决定着科技企业的水平和前景,也影响着科技企业对整个经济赋能的效率和效果。
2018年9月19日下午,阿里巴巴集团副总裁周、高级技术专家兼阿里巴巴负责人徐盛、研究员兼阿里巴巴负责人管涛、研究员兼实时计算负责人蒋、研究员兼阿里巴巴PAI平台负责人林伟共同对阿里新一代计算引擎进行了描述。
新一代计算平台的五大要素
周静说,基于新一代计算引擎,有五个要素,即:
1.海量数据规模下经济高效的离线和实时计算能力
2.实时离线任务的综合R&D能力
3.实时离线异构数据湖的交互查询能力
4.超大规模机器学习和深度学习的异构计算能力
5.云端大数据一站式端到端智能研发能力
阿里巴巴副总裁周
海量数据吞吐量易于处理
阿里巴巴从2008年和2009年开始做大数据和云计算。之前是支持核心电商业务。随着阿里巴巴的业务,大数据平台发展迅速,是阿里巴巴的前身。
是阿里巴巴自主研发的大数据计算引擎,拥有多项国家专利技术。在稳定性、高并发、吞吐量等方面,解决了行业内的难题,经受住了大规模计算的考验。作为阿里巴巴集团计算平台的新一代计算引擎,支持整个阿里经济90%以上的结构化和非结构化数据的存储、交换和控制,数据规模已经超过EB水平。
世界上恐怕没有哪个国家能创造出和阿里双11同样数量级的数据吞吐量。阿里集团无疑是双11海量数据大规模并行计算中最耀眼的明星之一。
阿里巴巴研究员、Maxcompute总裁管涛
在2015年的SortBenchMark排名赛中,一举打破四项世界纪录,奠定了阿里巴巴集团大数据线下计算引擎的地位。面对海量数据,MaxCompute可以轻松处理。
实时离线任务眨眼很方便
眨眼是从弗林克诞生的。Flink的设计理念是基于流计算的,相比其他产品更能满足阿里既有对流计算又有批量计算的理念。
Blink作为阿里巴巴集团最新一代实时计算引擎,提供流数据计算能力,可以支持百万吞吐量的操作,计算延迟可达秒。关键指标超过开源Storm 6到8倍的性能,计算成本远低于开源软件。
从2017年开始,Blink成为阿里巴巴集团最重要的实时计算引擎,在双11进行了实时业务数据复杂分析的研究生学习。
阿里巴巴研究员、实时计算主管蒋
PAI提升模型培训的规模
随着大数据计算引擎的发展和R&D平台的建立,计算能力和数据量进一步爆发。随着数据的积累,机器学习训练的模型的有效性有了很大的提高,甚至突破了人类的水平,机器智能在各行各业得到了广泛的应用。
PAI是一个机器学习平台,与强大的计算引擎和大数据研发平台无缝对接,为用户提供从数据处理、特征工程、算法训练和算法评估到离线和在线预测的全套机器学习解决方案。该平台提供数百种经典的机器学习算法和典型的数据处理能力,兼容所有主流深度学习框架,支持在线学习、深度学习、增强学习和迁移学习。
深度优化的机器学习引擎通过一个易用的应用平台,向广大算法开发者提供阿里巴巴集团超大规模稀疏模型的CPU系统级优化方案、大规模图像、语音和文本领域的GPU系统级优化方案、模型压缩等在线推理加速需求的核心能力,大大提高了分布式模型训练的规模,降低了建模和模型服务的成本。
阿里巴巴研究员、PAI平台负责人林伟
万能战士数据工程全球认可
如果把大数据计算引擎比作一台PC的CPU、GPU、SSD等硬件设备,那么DataWork就是这台大数据P阿里巴巴大数据最新动态C的Windows操作系统。
DataWorks将计算引擎封装为一个整体,以租户、计费、计量、计费、调度、运维、监控、安全等功能为大数据操作系统的核心,以可视化的方式为用户提供云开发平台、任务调度平台、运维管理平台、数据服务平台等产品化服务。
特别是在大规模任务调度方面,DataWorks拥有多项国家专利技术,为依赖高度并发任务的大型复杂分支的调度提供了强大的稳定性保障(阿里经济中平均每天调度任务数百万)。
2009年,数据工程项目启动,数据工程成为阿里集团数据开发的标准平台。联合大数据计算引擎MaxCompute已经支撑了整个阿里经济90%以上的数据规模,已经超过了EB水平。支持阿里集团,蚂蚁金服,
菜鸟、优酷、高德等所有事业部的数据开发任务。自2013年随阿里云进入公共云市场以来,DataWorks系列产品在全世界16个国家和地区均已部署可用,包括新加坡、悉尼、香港、德国、马来西亚、日本、美国等,已经成为国际知名的一体化数据研发平台品牌。
随着DataWorks在公共云和专有云的输出,在国内和国际上获得了众多奖项:
1.2017年,以DataWorks为主体的阿里云数加,获得了国际软博会金奖
2.2018年,DataWorks名列国家大数据博览会十佳产品,荣获最佳案例实践奖
3.同样在2018国际权威评测机构Forrester公布的CloudDataWarehouseQ1的榜单上,代表阿里云,携手MaxCompute,从众多世界级厂商中脱颖而出,与AWS,MicrosoftAzure,GoogleCloud一起杀入第一阵营,是唯一上榜的国内厂商,奠定了世界级大数据研发平台的地位。
阿里巴巴资深技术专家、Dataworks负责人升龙徐晟
携手Blink+MaxCompute+PAI,Dataworks使命召唤
在2018年,DataWorks将携手阿里计算引擎双子星,致力于解决业界关注的DataLakes查询,大数据Interactive查询,流批一体化查询等难题。
同时携手阿里机器学习平台PAI,加入智能元素,提供云上进行深度学习和模型算法迭代训练的能力,覆盖从数据计算,模型训练,线上数据服务。
一直到应用搭建的一站式云上大数据解决方案,并在全新架构的云上编程环境CloudIDW上,提供从Sql、python,甚至于Java开发的能力,提供全套的云上开发解决方案,让您在云端几百行代码就能构建独属于自己的数据智能产品。
实战演练:云上编程
近期,阿里巴巴计算平台举办的大数据戎码生涯云上编程大赛中,利用新一代计算引擎,通过编程竞赛,进行了实战演练:
第一阶段,历史数据导入,预处理和机器学习训练
选手将气象中心的历史数据通过数据集成导入到MaxCompute表,然后在DataWorks编写离线SQL进行数据预处理,处理后的数据在PAI机器学习平台通过引用内置的各种算法/模板进行建模、训练,并最终一键发布到EAS提供预测服务,
第二阶段,实时数据接入和加工
将实时采集的气象数据通过数据集成导入到DataHub,然后在DataWorks编写实时SQL进行数据加工,加工后的实时数据和离线基础数据拖过简单拖拽就可以装载到Lightning引擎进行异构数据整合,并提供实时交互式查询服务。
第三阶段,利用历史数据和实时数据,完成App用户应用开发
在数据服务中,按照引导可快速的打通EAS服务和Lightning引擎并生成高性能的在线API,同时在AppStudio中可无缝对接数据服务API,利用可视化组件模板,简单几步配置就可以完成云上Web应用开发,另外AppStudio也提供了在线IDE环境可支持Java在线开发、编译、调试、运行、版本管理、多用户协同编辑等功能。
dataphin怎么样 dataworks
近日,阿里数据打造的智能数据建设与管理在阿里巴巴云-公有云上线,智能R&D版公有云beta上线!在此之前,以独立部署模式导出和服务线下客户,帮助很多大客户高效、自动构建企业数据中心,不仅大大提高了大数据的研发效率,实现了数据资产的规范化管理,还通过数据服务系统让数据智能驱动业务。
智能数据建设和管理是企业构建数据平台必不可少的核心组件,是阿里巴巴大数据能力的产物。主要针对各行各业大数据建设、管理和应用的需求,提供从数据访问到数据消费的智能数据建设和管理一站式大数据能力。
经过半年的准备期,今年4月正式登陆阿里巴巴云公有云。在此之前,它以独立部署的方式导出和服务离线客户,帮助许多行业的大客户高效、自动化地构建企业数据中心,不仅大大提高了大数据的研发效率,实现了数据资产的规范化管理,而且通过数据服务系统使数据智能驱动业务。
:来自阿里巴巴多年的大数据实际沉淀
是阿里巴巴多年大数据建设的实际沉淀,重点解决阿里巴巴集团内部数据建设过程中遇到的各种问题,如:
(1)数据不一致:标准规范难,命名不一致,定义不一致,计算逻辑不一致,业务响应慢;
(2)数据未开放:孤岛现象严重,融资不足,价值挖掘不足;
(3)维护困难:源系统或业务变化与数据不同步,数据质量难以保证;
(4)时效性差:重复构建导致任务链冗长,任务众多,计算资源不足,数据批量计算较晚,实时性不足,范围狭窄,即时查询结果返回缓慢。
针对上述问题,阿里数据作为阿里巴巴内部大数据团队进行了探索和实践,将经验沉淀为方法论和工具,并立足于实际场景,不断迭代,逐步形成了一套阿里巴巴大数据能力框架,从而推动了阿里巴巴数据中间站的建设。其中,阿里巴巴大数据能力的框架已经成为今天的。
数据链核心价值:确保业务数据标准化和标准化生产
Dataphin的核心价值在于数据规范的定义,完全消除了数据的模糊性,保证了业务数据的标准化和标准化生产。具体来说:
(1)提高数据研发效率,规范数据仓库建设,系统自动产生代码和调度任务;
(2)发现并提升数据的价值,在整个环节中直观地跟踪分析数据资产;
(3)所见即所得数据,自动聚合话题数据可以大大简化查询和分析代码。
数据链:帮助企业智能数据建设和管理
作为PaaS层工具产品,Dataphin可以进行可视化数据建模、自动代码生成、自动数据资产图生成,——通过可视化配置搭建数据模型,提交后系统自动生成代码。同时,有一个直观的可视化资产图来揭示数据关系,并便于确定数据使用情况。作为阿里大数据能力的主人,——Dataphin还继承了阿里数据的领先技术优势:
(1)代码自动生成能力新颖、通用。
阿里数据团队打磨了8年的OneData数据智能黑盒技术,通过智能计算和存储算法,轻松实现一站式数据仓库建设。数据模型信息在产品端简单操作输入后,一键提交即可获得稳定的数据生产代码和任务,计算和存储最优。
(2)降低企业仓库建设的复杂度。
Dataphin可以有效地帮助降低构建几个仓库的复杂性。通过数据链,数据建模,R&D,设计和开发可以以一种集成的方式完成,这大大提高了
去年,行业领先的餐饮连锁企业海底捞在阿里开发的数据中心和商务中心的帮助下,通过重构其CRM系统,成功实现了业务数字化重构。和大多数公司一样,海底捞有针对多个客户的线上线下接入渠道。随着自身业务的快速扩张,门店数量和客户成员迅速增加,传统的数据处理和管理能力已经无法匹配海底捞的业务发展。
基于数据链,我们可以快速构建企业数据的数据,并通过QuickBI进一步实现成员数据的分析和挖掘。海底捞终于实现了业务上千人的个性化推荐。这种系统的商业数字重建只用了不到3个月的时间。
在海底捞建立自己的数据中心的过程中,Dataphin帮助海底捞实现了:
(1)云上多源异构数据:将各种渠道、各类业务数据库中的数据同步到云上,最大限度地浓缩和丰富源数据;
(2)数据规范定义和数据仓库研发:通过成员等学科逻辑模型的可视化、标准化配置,自动生成物理模型和代码脚本,保证数据标准化,提高数据研发效率;
(3)标签系统快速构建:结合QuickBI完成标签设计、制作、分析和展示,以及偏好标签的自助构建和消费;
(4)数据资产管理和元数据查询:构建基于标准化的沉淀型优质数据资产,如成员主题数据,可视化分析和管理数据资产,快速便捷地查询元数据细节和使用数据。
对于企业来说,Dataphin是企业数据平台建设的核心组件。IT可以满足以数据智能带动业务的需求,包括IT端的数据湖、数据仓库、消费者数据平台(CDP)等系统建设,通过系统构建数据中间平台系统,全方位帮助业务。
>目前,Dataphin已经应用于零售、传媒、地产、金融等行业。现在,Dataphin已上线阿里云官网,支持公共云客户订购使用。未来,Dataphin将持续不断将阿里中台体系的最佳实践转化为产品能力,快速迭代升级,坚持致力于协助各行各业的企业完成数字化转型,开启数据智能的新时代。相关阅读
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除
标签: #阿里巴巴大数据最新动态