Slailab 动态

数据狂欢节丨Slailab携手Intel畅游数据世界


主办方:Slailab & Intel & 示说网


「Slailab导读」1.03日下午1点30分“上海Spark+AI”第十五次聚会在COCOSPACE漕河泾创新中心顺利举办,本次活动由Slailab携手Intel共同主办。出席嘉宾主要有:Intel 资深首席工程师、大数据技术全球CTO戴金权,Intel大数据团队利智超、黄凯、徐铖,Microsoft高级工程师徐辰,百度高级研发工程师叶先进。




本次活动共有四个议题,议题一:Analytics Zoo: Unifying Big Data Analytics and AI for Apache Spark;议题二:微软Azure平台利用Intel Analytics Zoo/BigDL 构建AI客服支持实践;议题三:MapReduce作业大规模迁移Apache Spark在百度的实践;议题四:使用Intel Optane DC Persistent Memory加速Apache Spark计算。每位导师在议题演讲结束后采取现场问答方式进行互动,气氛十分好不热闹。



嘉宾分享


利智超:来自于Intel大数据技术团队,专注于大数据分析领域, Spark contributor。他致力于在Apache Spark平台上开发分布式机器学习算法,以满足大数据背景下的机器学习需求。他还为这些分布式机器学习算法在Intel平台上进行优化,以及帮助Intel的客户为他们的业务开发大数据分析程序。

Analytics-Zoo是基于Apache Spark以及BigDL的开源分布式深度学习框架(https://github.com/intel-analytics/analytics-zoo)。它为Spark提供了深入学习功能的原生支持,同时为现成的使用单节点志强Xeon CPU的开源深度学习框架(如Caffe和Torch)带来了数量级的性能速度提升,并为它们提供了基于Spark架构的对深度学习任务的高效的水平扩展的能力;此外,它还允许数据科学家使用熟悉的工具(包括Python和Notebook等)来对大数据进行分布式深度学习分析。在这次演讲中,演示了大数据用户和数据科学家如何使用Analytics-Zoo以分布式方式对海量数据进行深度学习分析(如图像识别、对象检测、NLP等)。这可以让他们使用已有的大数据集群(例如Apache Hadoop和Spark)来作为数据存储、数据处理和挖掘、特征工程、传统的(非深度)机器学习和深度学习工作负载的统一数据分析平台。


黄凯:来自于Intel大数据技术团队,负责开发Intel基于Spark和BigDL的统一大数据分析和AI平台 Analytics Zoo,同时支持Intel客户在大数据平台上实现深度学习的应用程序。
徐辰:Microsoft高级工程师,来自于Microsoft C+AI 团队,负责Support Chatbot项目的产品架构。

客户支持服务平台已被广泛使用在售前和售后,为客户提供技术和业务支持。传统客户支持服务平台,通常仅仅是一个简单的沟通工具,实际服务和问题解答需要大量的人工客服直接参与客户互动。随着人工智能和自动化技术的进步,越来越多的商家开始为客服系统添加人工智能模块,以节省成本并提升顾客体验。微软Azure的智能客服平台,是一个基于客户在线对话文字,搜索预先训练计算的模型、索引,并计算权重,实时反馈客户提问的智能交互式问答系统,它极大的减少了客户主动寻求转人工帮助机会。其文本分类和问答排序模块设计中,实验性地引进了Intel Analytics Zoo工具包,目前的实验结果呈现出了不俗的成绩。本次分享介绍了Azure智能客服平台使用Intel Analytics Zoo的实践经验。


 叶先进百度智能云技术二部, 高级研发工程师, 目前专注于分布式计算方向. 参与 Baidu 内部的 MR/Spark 的计算引擎研发, 是 Spark 社区的开源贡献者。


Baidu 拥有世界领先规模的 Hadoop/Spark 集群, 目前 MR 集群在厂内仍有日均过 50P 级别的输入数据处理量. 但随着架构的变迁和 Spark 生态的不断成熟, MR 在内部正在逐渐被 Spark 生态替换. 本分享介绍了计算团队推动 MR 迁移 Spark 的一些背景, 实践和展望。


徐铖:来自于Intel大数据技术团队,专注于大数据分析领域, Apache Spark, Parquet contributor, Apache Hive/Commons/ORC committer。他致力于在大数据核心组件上基于Intel平台进行优化以及帮助Intel的客户为他们的业务提供大数据解决方案。

在大数据领域,随着处理的数据规模日益增长,分析任务需要越来越多的内存来计算或存储中间数据。而对于内存消耗型的任务,用户很多时候不得不选择横向扩展计算集群或者以存储介质来补充内存的不足(如固态硬盘)以满足计算任务的需求。对于横向扩展计算集群,额外节点如果不能充分利用CPU,所引入的操作成本,管理成本和维护成本将降低整体的性价比。而考虑到内存和存储间的数据迁移成本(如序列化,压缩,内存拷贝),以存储作为内存补充的方案也带来了额外的性能损耗。为了填补传统内存/存储分层结构的不足,Intel推出了Intel Optane DC Persistent Memory产品。相比于内存,它能够提供更大的容量同时又能够提供比传统存储介质更快的IO吞吐和更小的IO延迟。在本次演讲中,介绍了如何使用Optane DC Persistent Memory结合OAP(https://github.com/Intel-bigdata/OAP) IO cache来加速Spark SQL处理IO密集型任务的性能并与内存的性能做比较,同时也介绍了如何利用RDD cache使用Intel Optane DC Persistent Memory来加速迭代式K-means算法的案例。


活动现场