北京 [ 更换 ]
热门城市
北京上海广州深圳成都杭州南京武汉天津西安重庆青岛沈阳长沙大连厦门无锡福州济南宁波昆明苏州郑州长春合肥南昌哈尔滨常州烟台南宁温州石家庄太原珠海南通扬州贵阳东莞徐州大庆佛山威海洛阳淮安呼和浩特镇江潍坊桂林中山临沂咸阳包头嘉兴惠州泉州三亚赣州九江金华泰安榆林许昌新乡舟山慈溪南阳聊城海口东营淄博漳州保定沧州丹东宜兴绍兴唐山湖州揭阳江阴营口衡阳郴州鄂尔多斯泰州义乌汕头宜昌大同鞍山湘潭盐城马鞍山襄樊长治日照常熟安庆吉林乌鲁木齐兰州秦皇岛肇庆西宁介休滨州台州廊坊邢台株洲德阳绵阳双流平顶山龙岩银川芜湖晋江连云港张家港锦州岳阳长沙县济宁邯郸江门齐齐哈尔昆山柳州绍兴县运城齐河衢州太仓张家口湛江眉山常德盘锦枣庄资阳宜宾赤峰余姚清远蚌埠宁德德州宝鸡牡丹江阜阳莆田诸暨黄石吉安延安拉萨海宁通辽黄山长乐安阳增城桐乡上虞辽阳遵义韶关泸州南平滁州温岭南充景德镇抚顺乌海荆门阳江曲靖邵阳宿迁荆州焦作丹阳丽水延吉茂名梅州渭南葫芦岛娄底滕州上饶富阳内江三明淮南孝感溧阳乐山临汾攀枝花阳泉长葛汉中四平六盘水安顺新余晋城自贡三门峡本溪防城港铁岭随州广安广元天水遂宁萍乡西双版纳绥化鹤壁湘西松原阜新酒泉张家界黔西南保山昭通河池来宾玉溪梧州鹰潭钦州云浮佳木斯克拉玛依呼伦贝尔贺州通化朝阳百色毕节贵港丽江安康德宏朔州伊犁文山楚雄嘉峪关凉山雅安西藏四川广东河北山西辽宁黑龙江江苏浙江安徽福建江西山东河南湖北湖南海南贵州云南陕西甘肃青海台湾内蒙古广西宁夏香港澳门
培训资讯网 - 为兴趣爱好者提供专业的职业培训资讯知识

干货满满!360李振炜分享SparkSQL海量数据库设计实现

分享 干货满满 数据 海量

5月11日,第八届中国数据库技术大会(DTCC 2017)在北京国际会议中心盛大开幕。本届DTCC大会以“数据驱动·价值发现”为主题,作为国内最受关注,规模最大的数据库技术大会,已吸引近5000名IT人士到会交流。到13日,会议已经持续了3天,但现场热度仍然不减,参会嘉宾依旧兴致盎然。笔者曾听一友人说,常沉下心来搞技术的人,也许看似木讷,但心中总会燃着一股不灭的火焰。今日一见,果然如此。

13日下午的“Hadoop生态系统”分会场上,来自奇虎360系统部大数据团队的李振炜先生向大家分享了如何去完成基于SparkSQL的海量数据仓库设计与实践。

▲奇虎360系统部大数据团队李振炜

奇虎360系统部大数据团队是早期把Spark应用到生产环境的团队之一,目前维护集群的总结点数超过8k,单集群最大节点3k+。每天支撑稳定运行的Spark任务,包括SparkSQL, Spark MLLib, Spark Streaming 超过10w。该团队扩展了SparkSQL大量的语法,并且优化执行过程,提高查询效率。并且对现有Spark MLLib算法性能做了优化,并根据业务需求实现大量新算法。同样完成了Spark对TensorFlow,Mxnet,Caffe等深度学习框架的集成。

SparkSQL近年来以更强的性能优势正逐渐取代Hive在数据仓库领域强势地位,360公司内部完成了hive作业向Spark迁移,修复了大量的Bug,优化了内核,显著提升执行效率,每天可支撑5万SQL作业的稳定运行。

Spark多数据源整合

在演讲中,李振炜先生向大家展示了多数据源整合架构,并介绍了其优势:1、在一个SQL中同时对不同的数据源中的数据分析;2、同一个表不同的SQL自动选择合适的数据源;3、分析结构写入合适的数据源。

SparkSQL海量数据即席查询的实现

张振炜指出,目前想要实现SparkSQL海量数据即席查询,面临着一些痛点。如数据量越来越大,但是即席分析的需求越来越强烈;数据既有全表扫描的需求(机器学习),又有随机读的需求(ad-hoc);为了充分利用现有开源平台提高查询性能,数据常常需要存储多份,增加存储成本,同时也增加了平台的运维成本;同一份数据需要在不同的数据源保持同步;随着数据量的增大,一些平台的扩展遇到了瓶颈,影响了查询性能。

此即席查询的实现,目标是为数据建立一套外部索引。但前提是不能引入新的存储格式,而且必须兼容现有的业务逻辑。清洗后的数据以Parquet格式写入HDFS,用Spark对每个Parquet 文件批量建Lucene索引。SQL查询转化为Spark任务,每个Executor由所处理Parquet 文件,得到对应索引文件所在DataNode的地址,向其IndexServer发起查询请求并得到命中的索引。根据索引读取对应的Page,返回查询结果。

  • 如何进行入库优化。Parquet中每一个RowGroup中的数据按列存储,每列以Page为压缩和存储单位。为了保证同一行中的数据在每列中Page的序号一致,我们把按字节大小划分Page改为了按行数划分,同时把每列Page ID以及对应Page在整个Parquet文件的offset记录在Parquet的元信息中。

每个RowGroup中都记录每列值最大值和最小值,可以作为一个粗粒度的索引。在此基础上,我们对数值列做了进一步改进:计算出均值和方差,对应列数值做如下处理:

把均值和方差以及由y0y1…yN-1yN组成的Byte数组写入到RowGroup元信息中。为整个Parquet文件也建立改进后的索引。

  • 建立索引。对于一个表是否建索引以及哪些列建索引,可以在建表时指定,并写到元数据库中。每行作为Lucene的一个Doc, 同时需要索引的列作为Filed。每个Parquet文件建立一个Lucene文件。为减少索引文件的大小,对所有Field只索引而不存储,同时删减掉一些不需要的Lucene功能,大大减少Lucene的体积。

  • SparkSQL转化。把Parquet文件整体作为输入,略过计算SplitSize 的过程。Spark Driver端缓存必要的元信息,避免频繁请求元数据库和NameNode。合并Spark Task,缩短调度的时间。可以支持复杂的Filter,并且支持字符串的匹配查找。

  • SparkSQL执行查询。索引查询策略:固定数据,移动查询。在所有的DataNode部署IndexServer,Executor根据索引文件副本所在的节点,向IndexServer发起查询,使得计算和存储完全本地化,避免网络传输,加快查询。索引文件是多副本,Executor可以同时向多个IndexServer 发起查询,最先返回的作为结果,避免查询长尾的出现,保证查询的稳定性。索引文件的管理全部依赖于Hdfs,具有极强扩展能力,同时减少运维压力。IndexServer 是无中心,无状态独立服务,依托于多副本,自动实现容错。

▲每个Task根据索引查询结果自动选择是执行Scan还是Seek.

▲SparkSQL读取数据

  • 性能分析。利用文件级别,RowGroup级别改进后的索引,以极小代价判断是否可以跳过当前的文件或RowGroup。Executor查询索引结果为未命中的代价50-ms;查询命中并获取到数据的平均代价为200ms。对于万亿规模的数据,生成20w个Parquet文件,每个文件约500万条记录,包括一个RowGroup,每个Page包含2000行记录,一共有2500个Page;Spark启动125个Executor,每个Executor 是4个cores。如果命中5%的数据,Skip相应文件的代价为(1-5%)*20w*50ms/125/4=19s,Seek相应文件的代价为5%*20w*200ms/125/4=4s。整个查询可以在30s内完成。

根据张振炜先生的介绍,我们也可以看出此方案拥有很多明显的优势。将数据和索引分离,可完全兼容现有的业务,同时数据和索引存储于Hdfs,可以支持海量的数据。IndexServer无中心,无状态,容错及负载均衡天然与Hdfs绑定,运维成本低。查询找数据,避免了数据的网络传输。顺序读和随机读可以根据具体的执行逻辑,自动切换,并且代价很低。对于不再使用的索引,可以单独删除,节约空间。

关于奇虎360:360公司作为中国领先的互联网络安全企业,汇聚了国内规模领先的高水平安全技术团队,积累了接近万件原创技术和核心技术的专利,并在此基础上开发出拥有数亿用户的360安全卫士、360手机卫士等安全产品,同时为上百万家国家机关和企事业单位提供包括安全咨询、安全运维、安全培训等全方位安全服务。

除此之外,360公司利用大数据、云计算及人工智能技术,通过技术创新、产品创新,打造了包括360手机、360儿童智能手表、360智能摄像机、360行车记录仪及360安全路由器等一系列智能硬件产品,致力于通过智能手机、智能穿戴、智能家居及车联网等智能产品为用户解决信息安全、出行安全、家居安全等网络安全问题。

同时,依托于大数据、云计算平台,360还为广大用户提供包括搜索、直播、游戏、影视、金融、新闻等在内的其他互联网服务。

相关内容

“病宝宝”插画发酵,设计师吴勇身份曝光:清美毕业生,实力强劲

本文内容来自于网络,若与实际情况不相符或存在侵权行为,请联系删除。吴勇和吴勇工作室最近登上热搜:数学教材2013年人民教育版人物插画,特色面孔和面部表情看起来又歪又歪,很奇怪,不是正常孩子该有的样子。乍一看,他确实有唐氏综合症的迹象!课本插···

德国动画设计专业留学攻略及院校介绍

近年动画一直处于一个上升期,不论是观众的接受度还是动画市场的大环境都处在一个良好的状态,越来越多的同学想加入动画设计行业并出国深造。我就是其中一个,从大一开始就开始想去德国读动画设计专业,也是那会开始开始学习德语,在网上联系了高凡的老师,老···

脑机接口:人工智能下一站?

随着人工智能的发展,脑机接口也逐渐从科幻走进现实。有人希望以此造就“超人”,更多的人则希望能够解决实际问题——让盲人复明、让瘫痪在床的患者重新走路、让阿尔兹海默症患者找回曾经的记忆……但也有人持有怀疑态度:脑机接口会不会让别人控制自己的大脑···

AI人进军畜牧业,用人工智能技术给二师兄量体温

#头条创作挑战赛#本文来自35斗公众号,作者陈欣雨。作为时下科技的前沿技术,人工智能已经渗入到各行各业之中。当下,人工智能已为工业生产、医疗服务、智慧生活等带来一系列可喜的变化,其在农业中的应用也逐渐趋于成熟。在信息科技不断发展的今天,将先···

号称学三天就接单 商业插画班究竟有多坑

“学完就能接单!”“开启第二副业!”近日,记者从多个平台发现,信息流广告开始推荐大量配音、插画等泛职业培训类课程。以插画课为例,宣传课程的机构往往先用低价体验课吸引受众,然后在学员上过几节直播课后推销大容量课包,并承诺可提供接单服务,吸引学···

大学生参加嵌入式培训班好就业吗?

嵌入式系统可以说是当前热门、有发展前景的IT应用领域之一,包括手机、电子字典、可视电话、数字相机、数字摄像机、机顶盒、智能玩具医疗仪器和航空航天设备等都是典型的嵌入式系统,国内的嵌入式人才极度匮乏,据权威部门统计,我国目前嵌入式软件人才缺口···

嵌入式培训机构要不要去?

嵌入式培训机构要不要去?适合谁去大部分的新人、毕业生或者想转行到互联网行业的人群,面临的第一个迷茫就是选择入门的途径问题。这个话题以前也有写过,因为后续来了很多新的小伙伴,加上现在又是特殊时期,正是学习的好时候,那么今天再来谈下。一、培训机···

参加嵌入式软件开发培训的费用贵吗?

  目前it行业的迅速发展,大家也都是看在眼里,大部分的人都打算从事软件开发方向,可是说起来也不是那么容易啊,没有足够的经验,没有一点行业基础,这也是做白日梦啊?那么如果说你想找一个最快捷的途径的话,那就是参加it培训,培训对于毫无经验的人···

计算机专家“破圈”,点亮青少年科学梦想;国产数据库开拓者阳振坤走进中学科堂,普及计算机知识

“电脑为什么叫计算机?”“远在天边的卫星,如何为地球上的汽车、高铁、飞机导航?”“十进制与二进制有啥区别?”……6月2日,CCF会士、国产分布式数据库OceanBase首席科学家阳振坤,走进吕梁市临县四中,为118名初一学生上了一堂精彩纷呈···

北京UI设计培训 开课吧UXD全栈培训带你入行

未来,是体验经济的时代,用户的个性化体验将更为重要,且充满价值。优秀UI设计师不仅能赋予产品生活与质感,同时,也是品牌深入人心的灵魂所在。当今UI设计行业从新鲜便成了热度,带动了一批年轻人转行,其中不乏大批零基础新手入行。转行并非易事,想在···

如何选择一家靠谱的ui设计培训机构

毕业季马上到了,更多的人投入到找工作的大军中,有些人想从事UIUE方面的工作,但是可能自己没有太多的经验,专业技能方面也有所欠缺,所以可能会选择去专业的培训机构学习,但是现在培训机构遍地开花,师资力量也参差不齐,笔者目前从事UI设计工作,看···

北京UI设计培训哪里好

UI设计是一个很有前途和钱途的行业,越来越多的人加入到UI设计学习培训当中,以求自己获得技术上的提升。面对那么多的UI设计培训机构,让大部分的学员无从选择。北京UI设计培训哪里好?北京渥瑞达UI设计培训专家告诉大家。首先选择自己感兴趣的机构···

2022年度中国十大室内设计品牌企业揭晓暨室内设计TOP100榜单发布

“建筑中国最具品牌影响力”评选活动是由中国建筑行业最具影响力的权威门户ARCHINA建筑中国联合建筑中国品牌研究中心与建筑中国新媒体数据研究中心联合发起,凭借自成立20年以来对行业的深刻了解和洞察,见证了中国建筑企业品牌的飞速发展。“202···

北京软件测试培训怎么样啊?靠谱吗?

随着软件测试逐渐变成热门职业,北京越来越多的人想要入行学习,一些问题随着而来:北京的软件测试培训怎么样?靠谱吗?该如何判断呢?今天“好程序员”就来带大家分析一下。首先,北京的软件测试培训机构多如牛毛,这其中有靠谱的,自然也有不靠谱的。那么,···

软件测试培训

  软件测试培训是一门针对软件测试人才培养的技术,培训内容涉及到:软件测试基础、自动化测试、性能测试、安全测试、接口测试、云计算测试等。就业方向:软件开发工程师,软件测试工程师, web前端工程师,移动端开发工程师,软件测试运营等。  在未···

开课啦!工业控制系统网络安全培训招生

一想到你在关注我就忍不住有点紧张培训时间第三期:10月11日-10月16日(11日报到)北京培训内容培训地点在:北京培训对象为:各级各类院校自动化、机电一体化、电气工程、工业机器人、机械工程、车辆工程、电子工程、计算机科学与技术、通信工程等···

看漫画也能学Java?大佬亲自带你进入Java的世界

你还在“Java入门到放弃吗”?看过来看过来,点击​看漫画学JAVA​​《漫画Java》是关东升和赵大羽编著的,一部java入门零基础自学漫画编程,采用漫画加视频讲解的方式,以轻松、愉快、欢乐的学习方式,讲解Java技术知识点,带领小白走进···

互联网走向人工智能时代 北大青鸟培训的"码农"或被淘汰?

未来网北京11月3日电(记者 宋霞霞)“即将到来的互联网大潮,是以大数据和人工智能为标志的,北大青鸟培训的‘码农’很难适应。因为大数据和人工智能对从业人员的知识体系有更高要求,不可能经过几个月培训就能完全胜任。”互联网行业资深从业人员秦帆(···

爆肝Java九大核心专题,666页内容,我收割了5个大厂offer

随着 Java 开发的薪资的越来越高,越来越多人开始学习 Java 。在众多编程语言中,Java学习难度还是偏高的,逻辑性也比较强,但是为什么还有那么多人要学 Java呢 ?今年北京的 Java工程师平均薪资,已经达到 25.3K了,可以说···

基础数据中心架构师雷涛 筑牢大数据“地基”

“基础数据中心架构师,顾名思义,就是数据库及人工智能基础设施的设计者、搭建者,主要服务于互联网后台的大型数据中心建设。”当你接收到精准的短视频推送,当你跟阿尔法狗围棋大战……这一切能实现的背后,都离不开一个词儿:大数据。“数字经济时代,我们···