華為云BigData Pro解讀: 鯤鵬云容器助力大數(shù)據(jù)破繭成蝶
前沿數(shù)據(jù)服務(wù)器,數(shù)據(jù)容器
大數(shù)據(jù)之路順應(yīng)人類科技的進(jìn)步而誕生,一直順風(fēng)順?biāo)?,不?0年時間,已滲透到社會生產(chǎn)和人們生活的方方面面。然而,伴隨著信息量的指數(shù)級增長,大數(shù)據(jù)也開始面臨存儲資源告急、算力吃緊、數(shù)據(jù)處理效率無法滿足業(yè)務(wù)增長訴求等一系列問題,導(dǎo)致唱衰之聲此起彼伏。而近年來興起的容器技術(shù),以其輕量化、易遷移、擴(kuò)容快等優(yōu)勢,結(jié)合計算存儲分離的分布式架構(gòu),可以更好地發(fā)揮大數(shù)據(jù)平臺在海量數(shù)據(jù)集、高并發(fā)、實時分析等應(yīng)用場景下的優(yōu)勢。翩然入世
互聯(lián)網(wǎng)、汽車、保險、電力、零售等行業(yè),利用海量信息分析用戶特征及行為模式,從而制定更貼近用戶的服務(wù)方案、商業(yè)策略,并進(jìn)行精準(zhǔn)推送。目前大部分?jǐn)?shù)據(jù)分析都在Hadoop生態(tài)中進(jìn)行,Hadoop也憑借其完善的生態(tài),備受用戶歡迎,成為主流的開源大數(shù)據(jù)平臺,也成為了大數(shù)據(jù)的代名詞。困蛹之境
然而,從2006第一個Hadoop版本發(fā)布算起的話,大數(shù)據(jù)的發(fā)展也經(jīng)歷了至少13個年頭,當(dāng)初引以為傲的“計算存儲融合”架構(gòu)以及先進(jìn)的數(shù)據(jù)分析理念和實踐,也開始遭受挑戰(zhàn):
1、計算存儲資源耦合,無法靈活調(diào)整存算配比,只能按固定比例擴(kuò)容,導(dǎo)致部分資源浪費(fèi);2、數(shù)據(jù)中心建設(shè)成本高,后期運(yùn)維成本有高,性價比和靈活度均不如公有云方案;3、互聯(lián)網(wǎng)時代,數(shù)據(jù)爆炸式增長,現(xiàn)有數(shù)據(jù)中心資源不足,極易導(dǎo)致作業(yè)擁塞,降低計算效率;
4、大數(shù)據(jù)與其它業(yè)務(wù)資源池?zé)o法共享,需分開維護(hù)多套,進(jìn)一步增加運(yùn)維成本。此外,AI、機(jī)器學(xué)習(xí)、自然語言處理(NLP)等概念的興起,也對大數(shù)據(jù)造成沖擊,“大數(shù)據(jù)已死”的風(fēng)聲開始不絕于耳。破繭之掙
隨著5G+云+AI時代來臨,數(shù)據(jù)變得更多、更復(fù)雜、更精細(xì)化,大數(shù)據(jù)不僅沒有死,反而對企業(yè)變得前所未有的重要。而亟待我們解決的問題是:如何用一種更高效、更實用的解決方案,處理爆炸式增長的數(shù)據(jù)。圍繞這一課題,各大公司也展開了新一輪的技術(shù)探索與升級。首先,基礎(chǔ)網(wǎng)絡(luò)飛速發(fā)展,網(wǎng)絡(luò)傳輸已不再是瓶頸,許多公司開始在大數(shù)據(jù)的存儲和計算分離方面做嘗試,效果如何呢?IDC中國報告指出:“解耦計算和存儲在大數(shù)據(jù)部署中被證明是有用的,它提供了更高的資源利用率,更高的靈活性和更低的成本?!蓖瑫r,伴隨著容器技術(shù)的成熟及在各行業(yè)的深入應(yīng)用,部分企業(yè)也著手于平臺的容器化改造,希望結(jié)合容器的優(yōu)勢,為大數(shù)據(jù)平臺賦予新的力量。二者結(jié)合,我們似乎看到了大數(shù)據(jù)蛻變的曙光。
化蝶之旅
目前,存算分離的方案相對已經(jīng)比較成熟,容器化方案還處于探索和小規(guī)模應(yīng)用階段,以Spark為例,方案大體上分為2種:
一種是Spark Standalone,該方案僅對大數(shù)據(jù)系統(tǒng)做容器化部署改造,得益于容器輕量化、更細(xì)粒度的算力管理、任務(wù)隔離等特點(diǎn),可以將主機(jī)劃分成更多小顆粒的任務(wù)單元,使主機(jī)資源利用率更高,同時兼顧用戶原有的使用習(xí)慣。但此方案需要提前分配固定的容器數(shù)量,并保持容器的持續(xù)運(yùn)行,無法對容器進(jìn)行動態(tài)管理,資源的利用率雖然有所提升,但仍存在浪費(fèi)。另一種是Spark On Kubernetes集群方案,該方案使用Kubernetes替代Yarn來進(jìn)行統(tǒng)一的資源編排和調(diào)度,技術(shù)上更貼近主流容器解決方案,免去了二層調(diào)度,可以進(jìn)一步提升資源管理效率,相比Standalone方案,實現(xiàn)了對容器資源的動態(tài)管理,優(yōu)化了資源分配。
然而,Kubernetes不屬于Hadoop生態(tài)組件,與傳統(tǒng)Spark on YARN相比存在一些劣勢,如:缺少任務(wù)隊列、external shuffle service等特性,且性能較差。因此在應(yīng)用到生產(chǎn)系統(tǒng)時,還要做大量的功能增強(qiáng)、調(diào)度和性能優(yōu)化,才能保持與傳統(tǒng)大數(shù)據(jù)平臺一致。
針對客戶容器化過程中的問題,華為云計劃推出鯤鵬大數(shù)據(jù)容器解決方案,該方案與BigData Pro相結(jié)合,將提供一套更完善的容器化大數(shù)據(jù)解決方案。BigData Pro是業(yè)界首個鯤鵬大數(shù)據(jù)解決方案該方案采用基于公有云的存算分離架構(gòu),以可無限彈性擴(kuò)容的鯤鵬算力作為計算資源,以支持原生多協(xié)議的OBS對象存儲服務(wù)為統(tǒng)一的存儲數(shù)據(jù)湖,提供“存算分離、極致彈性、極致高效”的全新公有云大數(shù)據(jù)解決方案,大幅提升了大數(shù)據(jù)集群的資源利用率,能有效應(yīng)對當(dāng)前大數(shù)據(jù)行業(yè)存在的瓶頸,幫助企業(yè)應(yīng)對5G+云+智能時代的全新挑戰(zhàn),實現(xiàn)企業(yè)智能化轉(zhuǎn)型升級。Tags:前沿數(shù)據(jù)服務(wù)器,數(shù)據(jù)容器,華為云BigData Pro解讀: 鯤鵬云容器助力大數(shù)據(jù)破繭成蝶
版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場,如有內(nèi)容涉嫌侵權(quán),請聯(lián)系alex-e#qq.com處理。