婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 解析百度開放云分布式計算平臺對大數據的處理

解析百度開放云分布式計算平臺對大數據的處理

熱門標簽:廣安電銷外呼系統 勝威電話外呼系統密碼 百度高德騰訊地圖標注公司 七臺河商家地圖標注注冊 個人家庭地圖標注教程 徐州穩定外呼系統代理商 威海語音外呼系統廠家 搜地圖標注怎么找店鋪 百度地圖標注不能編輯

在百度開放云總經理劉旸看來,當今世界正面臨著由技術突破帶來的全行業升級,在這場商業劇變中,背后是三個重要的「重新定義」:第一,云計算重新定義了「IT」。它改變了企業所需要的 IT 資源的擁有與供給的方式,基于互聯網級的資源管理平臺,徹底改變了傳統企業的 IT 模式,為新的商業創新提供了可能;

第二,大數據重定義了「資產」,相較于以往的重資產,企業在經營中不斷生成的數據,將成為企業未來繼續生存并保持競爭力的砝碼;第三,人工智能重定義了「效率」,通過語音、圖像、視頻、自然語言識別和智能處理等技術,讓傳統的計算機具備更為強大的能力,大幅提升工作效率。

基于以上三個重新定義,百度開放云的重新堆棧也分為三層:云計算層、大數據應用層、和人工智能層。

處理大數據無非以下四個步驟:

收集:原始數據種類多樣,格式、位置、存儲、時效性等迥異。數據收集從異構數據源中收集數據并轉換成相應的格式方便處理。
存儲:收集好的數據需要根據成本、格式、查詢、業務邏輯等需求,存放在合適的存儲中,方便進一步的分析。
變形:原始數據需要變形與增強之后才適合分析,比如網頁日志中把IP地址替換成省市、傳感器數據的糾錯、用戶行為統計等。
分析:通過整理好的數據分析what happened、why it happened、what is happening和what will happen,幫助企業決策。

其實,如果涉及到“大數據”,不得不提百度最大的業務——搜索。百度搜索已經收錄全世界超過一萬億的網頁,每天響應中國網民大約幾十億次的請求。除此之外,百度還有另外20多個用戶過億的產品線,而且各個產品底層的大規模數據處理,都需要使用百度團隊維護的大數據處理平臺。

百度分布式計算平臺:離線引擎優化

關于MapReduce

首先介紹主要的離線計算模型——MapReduce,百度從2007年開始引進Hadoop 0.15.1,隨后快速發展,2011年百度的MR單集群規模達到5000臺,到2013年已經多達1.3萬臺,這也是截止到目前為止全世界最大的單集群。Hadoop全集群規模為10萬量級, 作業量達到了百萬量級,日均CPU利用率超過80%,遠超業界同行,百度開放云(http://cloud.baidu.com)底層依賴的大規模集群調度、資源隔離等技術能力世界領先。除了在規模方面不斷擴大,百度一直在Hadoop性能分析方面進行了大量的優化。2013年的測試結果顯示,百度內部MR實現相比于開源Hadoop性能提升30%。典型優化,例如Hadoop中的Shuffle,百度將其做成一個統一的shuffle服務,不再占用Map或Reduce槽位。比如對關鍵熱點函數采用SSE向量化等。

2014年,百度繼續對計算引擎做了大幅優化, Native C++實現的DAG引擎正式上線。下圖是一個 4輪MR Job實現的典型業務流示例,DAG引擎上線后,可以優化成一個DAG作業,可以避免3次Reduce寫多副本引入的磁盤IO及網絡IO,還可以規避2次Map讀HDFS的IO以及處理耗費。

下圖是一個真實業務由SQL計算表示層翻譯下來的,基于MR引擎時,SQL會翻譯成25個MR JOB,如果百度把它優化成DAG,能夠避免很多次磁盤IO操作。在優化之后,運行時間直接縮減到1個小時,優化前后的差異非常顯著。

內存流式Shuffle

2014年,百度對Shuffle進行重大重構,初期實習生同學完成的Demo以BaiduSort名義參與了2014年Sort BenchMark大數據排序國際大賽,并獲得冠軍(2015年百度沒再參加,國內其他公司以同樣技術通過更大規模集群刷新記錄)。2015年,新Shuffle技術完成全面上線。Hadoop默認Shuffle實現為基于磁盤Pull模式,計算過程顯式分成Map、Shuffle、Reduce過程;Baidu研發的新Shuffle采用內存流式Push模式,Map端完成部分記錄處理后直接從內存中將計算結果推送給下游。

舉例來說,Map處理256MB輸入數據,在內存流式Shuffle模式下,處理完100條記錄以后,直接通過內存推送到下游,這樣就形成流水線方式處理。不再有顯式的Shuffle階段。

目前,該Shuffle組件為通用組件,正逐步推廣到其他分布式計算平臺中。

百度分布式計算平臺:系統架構演進

前面重點介紹了百度開放云BMR服務中涉及到的規模、性能方面優化思路和效果,接下來跟大家一起分享一下,百度遇到的整體架構方面挑戰以及優化思路。

2012年系統架構中,最主要的兩個離線計算平臺,左邊是以MapReduce模型為主的批量計算平臺BMR,右邊是MPI /BSP模型為主的大規模機器學習平臺BML。從最下面可以看到,MapReduce和MPI模型底層硬件就有較大差異。Hadoop分布式文件系統多副本以及強大的故障處理機制,使得Raid卡完全沒有必要,采用多塊超大容量SATA硬盤非常適合。

而MPI差別較大,MPI是一個消息傳輸框架,它在設計之初就沒有考慮太多異常處理,因此它對底層系統可靠性要求非常高。百度采用了非常高配置的服務器,例如帶Raid卡的sas硬盤,超大內存、萬兆互聯等。

BMR Hadoop由大量SATA硬盤的服務器構成,存儲系統為HDFS,資源調度層面百度有自研的調度器ARK(與社區Yarn比較類似)。而BML大規模機器學習平臺上,支持的業務樣本超過數百億計量級,特征規模也遠超百億。百度在運行機器學習時,需要先啟動MapReduce,然后再將數據從HDFS分發到各個MPI節點,這種方式對網絡帶寬的要求很高。

系統部同事持續改進內網帶寬的同時,BML平臺層面也在思考應該如何解決跨MR和MPI倆大集群間的日益嚴重的網絡帶寬問題。

另外還有一個需求:MPI是一種事務性調度模型,比如一個業務需要200臺機器,如果平臺此時只有199臺機器空閑,實際也很難用起來(除非修改提交參數,但涉及輸入數據重新分塊處理等比較復雜)。另外MPI計算往往顯式分為計算、傳輸、計算等階段(即BSP模型),因此資源利用波動性較大,例如CPU計算階段,網絡空閑;網絡傳輸或全局同步階段,CPU空閑。為解決這個問題,百度在MPI集群中引入IDLE計算,IDLE業務資源占用充分可控,典型的IDLE任務如MapReduce任務,而執行MR任務又會進一步加劇MR集群和MPI集群間網絡帶寬問題。

基于以上考慮,百度正式將MPI底層硬件替換為替換成高配置存儲型服務器,硬盤同構,文件系統都采用HDFS,BML算法輸入和輸出均通過HDFS,不再是本地文件系統。

BML機器學習執行引擎層面,百度基于MPI封裝了DVCE(Distributed VectorComputingEngine)分布式向量計算引擎,屏蔽MPI過于低層的編程接口,通過高層抽象自動翻譯為MPI任務,這就是百度第二代專門針對“并行計算”開發的系統框架。

2014年,BML機器學習執行引擎遷移到ELF第三代并行計算框架, ELF采用ParameterServer架構,大幅降低機器學習算法開發代價,對比于百度的第二代框架DVCE,在開發效率方面有大幅度的提升。離線計算方面,完成了Native C++ DAG引擎上線,百度內部叫DCE(Distributed ComputingEngine)。

2014年BMR和BML底層都采用Matrix完成資源分配與隔離,其他平臺如小批量計算系統TaskManager和毫秒級計算延遲的Dstream系統,都基于業務需求特殊性,采用獨立的資源隔離和調度系統。

2015年的架構改進,主要是將所有的計算模型均遷移到Matrix+Normandy架構。Normandy兼容社區Yarn調度接口,開源社區新型興計算平臺可以很輕松的接入到百度的計算生態里。

百度已經介紹了百度大數據分析和挖掘平臺主要的底層引擎和架構,接下來談一下最新思考。

系統底層是IDC硬件,接著是Matrix,再是Normandy,然后是幾個主要的引擎。之前介紹底層架構的統一,比如在硬件、調度、存儲等方面的統一。實際上各個系統對外的結果,都有自己的接口,如果要使用MR,很多人寫MR程序都是直接調用Hadoop原生接口,配置涉及到的多個參數。部分業務還需要流式系統完成日志清洗,在經過MapReduce模型批量預處理,隨后通過ELF完成機器學習模型訓練,最后再通過MapReduce模型完成模型評估,可見一個業務需要跨越多個模型,需要業務線同學同時熟悉很多模型和平臺,而每一個模型又有各自特點和接口。只有足夠了解模型的細節和接口后,才能真正的利用好該模型。

于是百度正式立項BigFlow項目(原項目名DataFlow,圖片未來及修改),將模型的細節屏蔽。平臺自動決定選擇合適的并發度,甚至智能選擇應該把這個翻譯到哪個計算模型。BigFlow可以支持多個不同的計算引擎(每個引擎在其適合的領域做到極致),充分發揮各引擎性能和功能。所以用戶使用同一套接口,便能對應到不同的任務。由于采用高層抽象,業務開發效率獲得大幅提升,代碼量大幅減少,其維護成本也大幅降低。BigFlow集成常見優化手段,因此將大幅提升平臺有效資源占用。

百度開放云——大數據+智能

最后,向大家簡要介紹百度開放云。2014年,百度正式決定將服務內部業務多年的云計算技術正式對外提供服務,即百度開放云,對應官網http://cloud.baidu.com。百度開放云大數據方面,BMR已經對外開放,而更多的大數據分析和服務都還未對外開放。BMR集群上可以做到按需部署,用戶專享,更關鍵的是完全兼容開源的Hadoop/Spark平臺,開放云客戶基于Hadoop、Spark、Hbase等已經實現的大數據業務幾乎不用修改就可以平滑遷移到云上。多維分析服務Palo,它完全兼容MySQL網絡協議,因此,客戶朋友們熟悉的Mysql Client的工具均可使用。

同時,Palo支持JDBC、ODBC的編程接口,如果已有程序采用的是JDBC、ODBC,那么遷移成本幾乎為零。最后看到它與業界主流的BI工具商業分析的工具對接的,比如Tableau、Saiku、BIEE、R。

最后再介紹機器學習云服務BML,BML中提供的深度學習技術,曾獲得2014年百度最高獎。BML提供端到端的解決方案,里面提供的算法均服務百度內部業務多年,典型如網頁搜索、百度推廣(鳳巢、網盟CTR預估等)、百度地圖、百度翻譯等。

使用開放云BMR和BML、Palo等,就可以立刻、直接享用與百度搜索同等品質的大數據分析和挖掘服務!

標簽:臨沂 云浮 三明 昭通 滁州 婁底 威海 吳忠

巨人網絡通訊聲明:本文標題《解析百度開放云分布式計算平臺對大數據的處理》,本文關鍵詞  解析,百度,開放,云,分布式,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《解析百度開放云分布式計算平臺對大數據的處理》相關的同類信息!
  • 本頁收集關于解析百度開放云分布式計算平臺對大數據的處理的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    九九精品一区二区| 国产精品亚洲一区二区三区在线 | 精品成人a区在线观看| 一区二区三区在线观看视频| 欧美日韩国产大片| 美女爽到高潮91| 久久新电视剧免费观看| 中文字幕字幕中文在线中不卡视频| 欧美va日韩va| 麻豆91精品视频| 欧美国产日韩a欧美在线观看| 日韩一级二级三级| 亚洲欧洲日韩综合一区二区| 国产成人在线视频网站| 欧美一区二区三区在线看| 亚洲第一主播视频| 99久精品国产| 久久精品男人天堂av| 亚洲黄色小视频| 99re热这里只有精品免费视频| 亚洲欧美日韩国产中文在线| 理论电影国产精品| 午夜电影网一区| 一道本成人在线| 日韩精品综合一本久道在线视频| 悠悠色在线精品| av电影在线观看不卡| 国产欧美日韩在线看| 精品无人区卡一卡二卡三乱码免费卡| 欧美性猛交xxxx黑人交| 日韩欧美色综合| 日日欢夜夜爽一区| 精品视频一区三区九区| 亚洲综合丝袜美腿| 日本久久一区二区三区| 中文字幕日韩一区| 成人黄色小视频在线观看| 久久精品视频在线免费观看| 亚瑟在线精品视频| 欧美日韩一区二区电影| 亚洲国产aⅴ天堂久久| 日本电影欧美片| 亚洲主播在线观看| 欧美综合亚洲图片综合区| 一区二区三区在线高清| 在线亚洲精品福利网址导航| 国产精品二三区| 色综合天天在线| 久久综合狠狠综合久久综合88| 激情综合网最新| 久久久久久亚洲综合影院红桃| 精品一区二区三区在线观看| 欧美变态tickling挠脚心| 亚洲电影欧美电影有声小说| 色欧美片视频在线观看| 亚洲尤物在线视频观看| 在线观看91av| 裸体健美xxxx欧美裸体表演| 91麻豆精品国产91久久久久| 麻豆精品一区二区av白丝在线| 99精品在线观看视频| 亚洲欧美日本在线| 欧美日韩在线播放一区| 三级影片在线观看欧美日韩一区二区 | 久久精品亚洲乱码伦伦中文| 成人av在线网站| 欧美精品一区二区三区久久久| 国产一区二三区| 国产亚洲午夜高清国产拍精品| 成人aaaa免费全部观看| 亚洲视频免费观看| 欧美精品在线观看一区二区| 久久电影网电视剧免费观看| 91精品国产综合久久久久久漫画| 午夜精品爽啪视频| 2024国产精品| 91麻豆精品在线观看| 亚洲成人自拍一区| 久久综合久久鬼色| 国产老肥熟一区二区三区| 亚洲色图另类专区| 日韩一区二区三区在线| 国精品**一区二区三区在线蜜桃| 国产精品午夜久久| 国产成人午夜精品5599| 亚洲一二三区在线观看| 精品国产露脸精彩对白| proumb性欧美在线观看| 日产欧产美韩系列久久99| 久久亚洲免费视频| 在线一区二区观看| 国产在线观看免费一区| 亚洲一卡二卡三卡四卡无卡久久| 欧美变态tickle挠乳网站| 日韩欧美一区在线观看| 日韩精品乱码免费| 国产日韩欧美电影| 日韩午夜电影av| 91网上在线视频| 国产综合久久久久久鬼色| 一区二区三区免费在线观看| 26uuu精品一区二区| 91精品国产综合久久香蕉麻豆 | 国产亚洲美州欧州综合国| 欧美精品在线观看播放| 欧美日韩亚洲综合在线| 91久久线看在观草草青青| 99久久伊人网影院| 懂色av中文字幕一区二区三区| 国产揄拍国内精品对白| 欧美成人福利视频| 久久久五月婷婷| 国产农村妇女毛片精品久久麻豆 | 日本一区二区电影| 欧美国产欧美综合| 国产精品欧美精品| 亚洲桃色在线一区| 亚洲精品视频自拍| 91猫先生在线| 国产精品色一区二区三区| 亚洲日本在线视频观看| 欧美日韩精品系列| 一本高清dvd不卡在线观看| 日韩电影在线免费观看| 91蝌蚪porny成人天涯| 91精品国产综合久久精品app | 中文字幕一区在线| 亚洲日本在线视频观看| 国产精品国产三级国产三级人妇| 亚洲国产精品黑人久久久| 日韩在线播放一区二区| 久久精品国产亚洲一区二区三区| 在线观看av不卡| 水野朝阳av一区二区三区| 丝袜美腿亚洲色图| 99久久精品费精品国产一区二区| 精品入口麻豆88视频| 国内精品伊人久久久久av影院| 日韩国产欧美一区二区三区| 久久一区二区视频| 午夜精品在线看| 欧美高清在线视频| 色先锋资源久久综合| 欧美日韩精品三区| 国产欧美精品一区| 日韩电影免费在线| 亚洲欧洲日韩综合一区二区| 亚洲国产日韩在线一区模特| 日本va欧美va瓶| 国产在线国偷精品产拍免费yy | 亚洲一区二区三区四区五区中文 | 国产精品久久777777| 亚洲免费观看高清完整| 久久精品免费观看| 亚洲男女一区二区三区| 日本午夜精品视频在线观看| 午夜日韩在线观看| 国产不卡视频一区| 欧美高清精品3d| 中文av一区二区| 蜜乳av一区二区| 欧美综合在线视频| 国产欧美一二三区| 蜜桃视频第一区免费观看| 97精品国产露脸对白| 欧美一区二区在线视频| 国产精品拍天天在线| 九九视频精品免费| 欧美视频精品在线观看| 国产精品区一区二区三区| 日韩av不卡在线观看| 99国产麻豆精品| 久久综合久久综合九色| 亚欧色一区w666天堂| 99国产精品久久久久久久久久久| 久久久美女艺术照精彩视频福利播放| 亚洲一区二区三区激情| jlzzjlzz国产精品久久| 久久综合九色综合欧美98| 日本欧美一区二区三区乱码| 色欧美片视频在线观看| 最新久久zyz资源站| 国产在线视频不卡二| 91国产丝袜在线播放| 亚洲少妇30p| 一本一本大道香蕉久在线精品 | 欧美色区777第一页| 亚洲欧美国产77777| 99天天综合性| 中文字幕乱码日本亚洲一区二区| 久久精品国产99久久6| 日韩欧美黄色影院| 日本在线不卡一区| 日韩免费性生活视频播放| 日本视频免费一区| 91国偷自产一区二区开放时间 | 日韩精品中文字幕在线不卡尤物| 日韩成人免费电影| 日韩欧美国产一区二区在线播放| 亚洲无线码一区二区三区|