数据狂欢节丨Slailab携手Intel畅游数据世界
主办方:Slailab & Intel & 示说网
「Slailab导读」1.03日下午1点30分“上海Spark+AI”第十五次聚会在COCOSPACE漕河泾创新中心顺利举办,本次活动由Slailab携手Intel共同主办。出席嘉宾主要有:Intel 资深首席工程师、大数据技术全球CTO戴金权,Intel大数据团队利智超、黄凯、徐铖,Microsoft高级工程师徐辰,百度高级研发工程师叶先进。
本次活动共有四个议题,议题一:Analytics Zoo: Unifying Big Data Analytics and AI for Apache Spark;议题二:微软Azure平台利用Intel Analytics Zoo/BigDL 构建AI客服支持实践;议题三:MapReduce作业大规模迁移Apache Spark在百度的实践;议题四:使用Intel Optane DC Persistent Memory加速Apache Spark计算。每位导师在议题演讲结束后采取现场问答方式进行互动,气氛十分好不热闹。
嘉宾分享
客户支持服务平台已被广泛使用在售前和售后,为客户提供技术和业务支持。传统客户支持服务平台,通常仅仅是一个简单的沟通工具,实际服务和问题解答需要大量的人工客服直接参与客户互动。随着人工智能和自动化技术的进步,越来越多的商家开始为客服系统添加人工智能模块,以节省成本并提升顾客体验。微软Azure的智能客服平台,是一个基于客户在线对话文字,搜索预先训练计算的模型、索引,并计算权重,实时反馈客户提问的智能交互式问答系统,它极大的减少了客户主动寻求转人工帮助机会。其文本分类和问答排序模块设计中,实验性地引进了Intel Analytics Zoo工具包,目前的实验结果呈现出了不俗的成绩。本次分享介绍了Azure智能客服平台使用Intel Analytics Zoo的实践经验。
Baidu 拥有世界领先规模的 Hadoop/Spark 集群, 目前 MR 集群在厂内仍有日均过 50P 级别的输入数据处理量. 但随着架构的变迁和 Spark 生态的不断成熟, MR 在内部正在逐渐被 Spark 生态替换. 本分享介绍了计算团队推动 MR 迁移 Spark 的一些背景, 实践和展望。
徐铖:来自于Intel大数据技术团队,专注于大数据分析领域, Apache Spark, Parquet contributor, Apache Hive/Commons/ORC committer。他致力于在大数据核心组件上基于Intel平台进行优化以及帮助Intel的客户为他们的业务提供大数据解决方案。
在大数据领域,随着处理的数据规模日益增长,分析任务需要越来越多的内存来计算或存储中间数据。而对于内存消耗型的任务,用户很多时候不得不选择横向扩展计算集群或者以存储介质来补充内存的不足(如固态硬盘)以满足计算任务的需求。对于横向扩展计算集群,额外节点如果不能充分利用CPU,所引入的操作成本,管理成本和维护成本将降低整体的性价比。而考虑到内存和存储间的数据迁移成本(如序列化,压缩,内存拷贝),以存储作为内存补充的方案也带来了额外的性能损耗。为了填补传统内存/存储分层结构的不足,Intel推出了Intel Optane DC Persistent Memory产品。相比于内存,它能够提供更大的容量同时又能够提供比传统存储介质更快的IO吞吐和更小的IO延迟。在本次演讲中,介绍了如何使用Optane DC Persistent Memory结合OAP(https://github.com/Intel-bigdata/OAP) IO cache来加速Spark SQL处理IO密集型任务的性能并与内存的性能做比较,同时也介绍了如何利用RDD cache使用Intel Optane DC Persistent Memory来加速迭代式K-means算法的案例。
活动现场