科技改變生活 · 科技引領未來
哪些用戶需要遷移原社區版用戶社區版不再更新Cloudera(Cloudera和Hortonworks合并后)所有產品不再提供社區版,用戶無法獲取新的功能。社區版不再免費2021年1月31日開始,所有Cloudera軟件都需要有效的訂閱,且訂
哪些用戶需要遷移
原社區版用戶
Cloudera(Cloudera 和Hortonworks 合并后)所有產品不再提供社區版,用戶無法獲取新的功能。
2021年1月31日開始,所有Cloudera軟件都需要有效的訂閱,且訂閱費昂貴(50個節點,一年訂閱費50萬美元)。
原企業版用戶
Cloudera 和Hortonworks 合并后推出了新一代大數據平臺 CDP,CDH 6和HDP 3將是CDH和HDP的最后企業版本,用戶無法繼續獲取新的功能和性能提升。
至2022年3月份,CDH/HDP全部EoS,用戶沒辦法獲取售后支持:
來源:cloudera官網
遷移方向
方向一:CDP
CDP是 Cloudera 和Hortonworks 合并后發布的新產品,融合原來CDH和HDP能力并增加了一些新功能和BugFix,支持云部署等能力。
雖然CDP提供了一些新能力,也將繼續更新并提供支持,但外國的軟件無法適配國產軟硬件生態(國產芯片、操作系統、服務器、中間件),技術方向不能自主可控,許可證也受外國法律限制,近期俄羅斯事件將這方面風險徹底暴露:
3月3日,Oracle發推文稱:“為了Oracle在全球各地的150000名員工的利益,為了支持烏克蘭民選政府和烏克蘭人民,Oracle公司已經暫停了在俄羅斯聯邦的所有業務。
a. 谷歌宣布 Google Pay 在俄羅斯無限期暫停使用;
b. 蘋果公司除了宣布在俄羅斯停用 Apple Pay 以外,也在俄羅斯境內停止所有產品的銷售
c. 英特爾、戴爾、AMD 宣布向俄羅斯斷供芯片
d. ……
外媒消息稱,全球第一代代碼托管平臺GitHub 正在考慮限制俄羅斯開發人員使用開源軟件。盡管此類軟件的使用是免費的,但它的許可協議仍然存在諸多限制,包括禁止受制裁的國家使用原本對公眾免費開放的代碼。
方向二:國內封裝的Hadoop商業版
對開源組件進行封裝,安裝部署運維方面有一些增強。
但是不可避免的,封裝開源組件始終是受制于國外法律與國際形勢,風險與方向一遷移到CDP相當。
同時,對開源組件進行封裝的廠商無法獲取最新的源代碼。另外,很多人認為有源代碼就可以自主可控,實際代碼只是一個技術的載體,僅僅擁有源代碼并不代表擁有核心技術,數千萬行代碼里掃清有意無意的漏洞根本不現實,擁抱開源的同時也一定擁抱了風險。
隨著美國公司Cloudera不再更新社區版,這一類產品將無法獲得能力更新,除非也升級到CDP,完全走向方向一。
方向三:國內自主研發大數據產品TDH
Transwarp Data Hub(TDH)是星環科技自主研發的企業級一站式多模型大數據基礎平臺,采用領先的多模型技術架構,8種存儲引擎支持10種數據模型,成套的工具組件讓系統的安裝部署、擴容升級、安全防衛、風險告警、權限管理等工作變得更便捷。在技術領先性、性能、易用性、安全性、國產化生態兼容性,以及售后服務等諸多方面具有優勢。同時,國產自主研發的TDH對國產化生態具有高度兼容性,滿足信創驗收要求。
遷移到不同平臺后獲得的能力
遷移到國產自主研發大數據產品TDH
TDH的多模架構,支持關系表、文本、時空地理、圖數據、文檔、時序等在內的10種數據模型;離線數據批處理、高并發的在線數據服務、數據集市、數據倉庫、數據湖、圖存儲分析、空間數據存儲、實時數據處理、數據中臺、數據治理等各類大數據業務場景一站解決。
TDH自研高性能分布式計算和存儲引擎,整體性能是CDP的 5~25倍。
TDH完整支持SQL2003標準,支持PLSQL存儲過程,兼容Oracle、DB2、Teradata等方言,無需每個場景一套接口。
TDH提供開箱即用的可視化運維監控、安全管控工具,容器技術帶來極致的安裝、升級、補丁體驗。
TDH原廠超過1100人研發與支持團隊和超過3萬名星環科技認證的大數據工程師,專業性更強,售后無憂。
TDH提供統一SQL引擎、統一計算引擎、統一分布式存儲管理、統一資源調度、統一內聯架構高效搞定湖倉集一體、HTAP等復雜場景,無需平湊組件散裝架構。
TDH提供的容器隔離、災備、訪問控制、聯邦學習、隱私保護、可信計算等技術保障網絡層、加固層、治理層、流通層全方位數據安全。
TDH完全自研,通過工信部代碼自主研發率掃描測試。同時TDH完成了與主流信創生態廠商的適配互認工作,滿足信創驗收要求。
遷移到CDP
遷移方向的對比分析
以下分別從兼容性、技術領先性、性能、易用性、穩定性、災備與可靠性、安全性、自主可控、國產生態、解決方案、售后服務等多方面對比各遷移方向,供用戶參考。
兼容性
兼容性,直接決定遷移成本。很多客戶認為CDP是CDH/HDP的高版本,應可以平滑升級,基于開源整合的產品,也可以平滑升級,而TDH是國內自主研發的大數據產品,兼容性不好,升級成本高,其實不然。
1) CDH 5升級CDP有嚴重組件版本兼容性問題, 包括 sentry 換成ranger,Hive2 升級到 Hive3,升級對組件的兼容性影響大;
2) 例如:某客戶CDH5升級到CDP的升級時間長達數月之久。
1) 基礎存儲和計算組件同樣有兼容性問題;
2) CDH安全、運維管理等不開源組件和功能無法升級,且目前沒有很好解決方案。
1) TDH基礎存儲和計算組件兼容CDH/HDP,遷移成本低;
2) TDH提供遷移工具,數據一鍵遷移;
3) 大量遷移成功案例,不存在遷移風險。
技術領先性
TDH產品技術始終領先于同類型產品2~3年,在大數據技術領域較早實現多項技術突破,例如2015年TDH4.0就完整支持分布式事務,同類型如Hive在多年后任然不能很好支持;2016年發布的TDH5.0推出新一代資源管理與調度技術,將容器技術和大數據技術有效結合,提供有效的資源隔離技術同時帶來極致的安裝和升級體驗,Cloudera 2020年也計劃相關產品使用這一解決方案;2020年TDH 7.0推出了創新的多模技術架構,實現了通過統一SQL引擎對關系型、文本、圖數據、時空、時序等數據模型進行操作,在行業內處于先進水平。
星環科技TDH多模型數據管理平臺技術架構圖
星環科技長期在大數據基礎軟件研發與產品化過程中自主研發形成了一系列先進的核心技術,這支撐了TDH產品的先進性,也在金融、政府、能源、交通、制造業等國民經濟重點領域中得到廣泛應用。隨著公司研發投入大幅提升,未來星環TDH將持續保持技術領先的優勢。
性能提升
Inceptor 是星環科技自主研發的關系型分析引擎,基于TPCDS 1TB的數據規模,同等配置下(4X10cores)TDH(Inceptor)和CDP(Hive on Tez)進行性能對比,復雜場景有7~25X性能提升。
Hyperbase是星環科技自主研發的NoSQL寬表數據庫,基于1000W條的數據集,TDH(Hyperbase)性能優于CDP(Hbase)。
ArgoDB是星環科技自主研發的分布式關系型數據庫,基于TPCDS 1TB的數據規模,同等配置下(4X10cores)TDH(ArgoDB)和CDP(Impala)進行Ad Hoc查詢性能對比情況,具體性能對比如圖所示:
基于TPC-H 1TB的數據規模,同等配置下,基于不同的查詢分析場景下,TDH(ArgoDB)性能是CDP(Impala)的2~6X。
Slipstream是星環科技自主研發的實時流計算引擎,在多場景上性能整體優于CDP(Flink)。
星環科技全文搜索引擎 Scope吞吐量測試性能上優于ES。
易用性
CDP/開源封裝產品使用一系列孤立的SQL 引擎, 如Apache SparkSQL、Apache Hive、Phoenix(SQL on Hbase)、Cloudera Impala等。每個SQL 引擎都有各自的局限性,使得用戶難于學習掌握,開發使用、應用對接、實際落地、事后運維方面成本高。
星環科技TDH采用自研統一計算引擎,提供統一SQL接口處理,支持SQL 2003標準與存儲過程,并且支持Oracle/DB2/Teradata 等SQL 方言。
此外,統一引擎另一個好處是,各類存儲的數據可以在一個作業(如一個SQL語句)中,被抽取到統一引擎中進行分布式計算,而無需開發人員自己寫分布式代碼,從各個引擎中讀取數據再加工。整個易用性、開發效率和運行效率都提高很多。
TDH的多模型支持特性可輕松勝任復雜場景。通過8種獨立的存儲引擎,支持業界主流的10種存儲模型:關系型數據存儲、寬表存儲、搜索引擎、地理空間 存儲、圖存儲、鍵值存儲、事件存儲、時序存儲、文本存儲、對象存儲。在一個數據庫中同時支持多種數據模型(例如關系表、文本和圖片),可以避免分庫分表,簡化了應用的設計,支持直接高速存儲、檢索和統計多模型的數據。
CDP/開源封裝產品通過多個互相獨立的組件提供相應的能力,復雜場景需要多個組件+數據冗余完成,中間的開發和運維十分不便。
TDH提供SQL開發工具、輕量級ETL工具、數據調度工作流工具、圖形化數據建模工具、交互式分析與Cube設計工具、元數據管理工具、可視化報表、大數據治理工具、災備工具等大量易用性工具。
穩定性
星環科技TDH自研的計算引擎Quark擁有:
1) 分布式調度算法Furion Scheduler,支持task級別調度能力,相比CDP/開源封裝產品Task set級別調度,在業務混合負載并發高效果和穩定性更好,不會出現一個大任務占滿資源把引擎跑崩,集群規模大情況下表現尤為明顯;
2) Shuffle過程內存控制技術,當數據量超過一定閥值時中間結果會spill到磁盤,不會出現OOM情況;
3) 聚合采樣技術,當聚合率不高或者占用內存太多時,會放棄預聚合,直接shuffle,來保證引擎穩定性;
4) Server級別HA,不存在server 單點故障;
5) Task重試機制,task級別重試使得大任務重試代價小,不會出現一個大任務不斷重試把引擎跑崩情況;
6) 計算引擎保護機制,在特別情況如誤提交超大表笛卡爾積計算任務,引擎會直接拒絕執行SQL,進一步保護計算引擎,保證穩定性;
7) 分布式Checkpoint容錯機制,相比ACK機制,效率和穩定性更優。
星環科技TDH在存儲層面具備:
1) 小文件自動合并技術,同等數據量情況下,文件數遠少于CDP/開源封裝產品,大數據量情況下穩定性高;
2) 堆外內存技術,單機容量得到提升,同時避免full GC導致的集群穩定性問題,如Scope穩定運行單機容量可達50TB,而CDP/開源ES上限只有10TB;
3) 分布式Raft協議,支持集群規模更大更穩定,如ArgoDB可穩定支持2000+節點集群,可以根據企業需求線性擴容,支持PB級數據存儲;而CDP(Kudu)單集群最大規模不超過100個存儲節點,單節點超過8T存儲就會不穩定;
除此之外,自研的讀寫分離技術、索引技術、壞盤處理技術等,配合全流程監控告警能力, 讓TDH支持系統7*24小時穩定運行。
這些能力是CDP/開源封裝產品不具備的,因而在文件數多、數據量大、任務并發高、集群規模大的情況下,TDH整體穩定性遠超CDP/開源封裝產品。
災備與可靠性
TDH有數據同步備份工具,原廠級組件支持,基于數據塊級別復制數據備份效率高、代價低,支持熱備、溫備、冷備等多種數據備份模式,支持全量備份/全量同步/增量同步,開放接口供其他工具或應用調用,具有全流程可視化界面。
CDP/開源封裝產品目前主要還是依賴多副本機制保障集群內數據可靠性,異地容災沒有高效方案,只能做到HDFS的數據拷貝,效率低、代價大。
安全性
星環科技TDH提供了大數據安全合規能力,在企業構建大數據能力的同時,確保數據業務的安全合規。平臺基于敏感識別與分類分級,幫助企業實現大數據資產的分類管理,分級保護。支持多種數據安全防護能力,包括靜態脫敏、動態脫敏、數據水印,加強了數據業務事中控制能力。平臺還支持以數據為中心的監測與審計能力,能識別敏感數據操作并進行用戶實體行為分析,能及時進行告警,提供事后可查溯源的能力。
CDP/開源封裝產品不具備這些能力。
自主研發
自主可控方面TDH有絕對優勢,TDH產品通過工信部自主代碼掃描測試。
CDP完全是國外軟件,不可控,國產軟硬支持不好。
開源封裝產品依賴開源,不能自主可控,很多組件受美國法律限制,不能規避“被制裁”風險。部分產品有license風險,如ES已經改開源license策略了,后續商用存在一定的風險。
國產生態
星環科技TDH已完成與主流信創生態廠商的適配互認工作,適配長城飛騰、華為泰山、浪潮等服務器,鯤鵬、飛騰CPU,麒麟、統信等OS,并有官方認證,支持基于ARM與X86服務器服務器混合部署并有落地案例,滿足信創驗收要求。CDP在國產化服務器、CPU、GPU資源池化、操作系統等方面支持能力不足,無法很好地滿足國產生態。
在國產生態方面,TDH已經有非常多落地案例,并且性能提升明顯。在不同指令集的CPU架構均表現出優異的性能,如ARM(鯤鵬)和X86(海光)在CPU密集型計算和IO密集型計算上性能提升顯著。
解決方案
星環科技TDH統一內聯大數據底座優于CDP/開源封裝產品的散裝數據底座。
CDP/開源封裝產品,每個場景需要一個組件獨立交付,開發語言和接口基本完全不同,客戶新業務開發、業務需求變更成本極高。
售后服務
TDH的產品提供方星環科技是國內廠商,具有非常強大的研發、技術支持與服務能力,可以快速響應客戶定制化需求,提供強大的原廠售后服務保障能力。
CDP的產品提供方Cloudera依靠國內代理商提供銷售并提供實施、運維服務;Cloudera在國內主要是運維人員,沒有原廠技術研發人員,很難保障SLA。由于支持不到位,很多國內CDH企業版客戶已經購買了或者希望購買星環科技技術人員提供技術保障。
某開源封裝產品對營運商客戶采用直銷方式,其他客戶一律采用渠道銷售方式,大部分行業原廠售后服務保障能力較低。其產品核心研發團隊較少,大部分技術人員在處理各類開源技術Bug及客戶問題遠程技術支持,專業性不足。
遷移案例
某通信集團
該集團核心業務系統存量數據10PB級別,每日增量數TB,批處理作業數千個,數據量大,業務價值高。
原有系統使用CDH+Oracle混合架構,CDH 有近200節點,主要承擔數據批處理加工,Oracle對接上層應用,CDH散裝架構和CDH+Oracle混合架構帶給客戶巨大的開發運維成本,同時批處理性能、穩定性和安全性也無法滿足客戶數據增長需求。
最終星環科技在項目一期用TDH成功遷移了客戶CDH+Oracle混合架構的數據平臺,“一個頂兩”,并且數據稽核、聯邦計算、資源調度、安全性、高可用、易用性等關鍵能力得到增強,真正實現“降本增效”。
遷移全程用時6個月不到,充分體現了TDH對CDH的兼容性,以及Oracle方言和存儲過程支持能力。
隨著一些新應用上線,目前TDH集群生產環境擴容至近200個節點,直接對接經營分析、計費、客服、賬務、結算等系統。
某航空公司
該航空公司原來使用HDP+Oracle混合架構建設企業數據平臺,涉及流處理、批處理、高并發查詢等技術場景。
客戶部署了幾十個節點的HDP集群,但是散裝架構帶給客戶巨大的開發運維成本,同時性能、實時性和穩定性也無法滿足客戶需求。
最終星環科技一期項目用TDH成功遷移了客戶HDP集群,由于TDH對HDP的兼容性高,全部數據+業務遷移不到5個月時間(包含1個月并行運行測試)。
當前TDH集群近百個節點,TDH極好的SQL和Oracle方言支持讓客戶上線了很多新應用。
馬龍