在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,企業(yè)面臨著數(shù)據(jù)量激增、數(shù)據(jù)格式多樣化以及實(shí)時(shí)處理需求提升的挑戰(zhàn)。OPPO作為全球領(lǐng)先的智能終端科技公司,其業(yè)務(wù)涵蓋硬件、軟件、互聯(lián)網(wǎng)服務(wù)等多個(gè)領(lǐng)域,每天產(chǎn)生海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。為了高效管理和利用這些數(shù)據(jù)資產(chǎn),OPPO積極探索并實(shí)踐了數(shù)據(jù)湖統(tǒng)一存儲(chǔ)技術(shù),旨在構(gòu)建一個(gè)可擴(kuò)展、高性能且成本優(yōu)化的數(shù)據(jù)處理與存儲(chǔ)支持服務(wù)體系。
一、 背景與挑戰(zhàn):為何需要統(tǒng)一存儲(chǔ)
OPPO的業(yè)務(wù)數(shù)據(jù)來(lái)源廣泛,包括用戶行為日志、設(shè)備傳感器數(shù)據(jù)、應(yīng)用服務(wù)日志、圖像視頻內(nèi)容以及各類業(yè)務(wù)數(shù)據(jù)庫(kù)等。這些數(shù)據(jù)具有以下特點(diǎn):
- 體量巨大且增長(zhǎng)迅速:全球數(shù)億用戶產(chǎn)生的數(shù)據(jù)每日以PB級(jí)增長(zhǎng)。
- 格式異構(gòu):涵蓋結(jié)構(gòu)化數(shù)據(jù)(如訂單、用戶信息)、半結(jié)構(gòu)化數(shù)據(jù)(如JSON、XML日志)和非結(jié)構(gòu)化數(shù)據(jù)(如圖片、音頻、視頻)。
- 處理需求多樣:既需要支持離線的批量數(shù)據(jù)分析與機(jī)器學(xué)習(xí)訓(xùn)練,也需要滿足近實(shí)時(shí)的流計(jì)算和交互式查詢需求。
傳統(tǒng)的煙囪式數(shù)據(jù)存儲(chǔ)架構(gòu),如為不同業(yè)務(wù)或數(shù)據(jù)類型搭建獨(dú)立的HDFS集群、對(duì)象存儲(chǔ)或數(shù)據(jù)庫(kù),導(dǎo)致了數(shù)據(jù)孤島、管理復(fù)雜、資源利用率低、數(shù)據(jù)冗余以及跨源分析困難等問(wèn)題。因此,構(gòu)建一個(gè)統(tǒng)一的、能容納所有原始數(shù)據(jù)的存儲(chǔ)層——即數(shù)據(jù)湖——成為OPPO數(shù)據(jù)戰(zhàn)略的關(guān)鍵一環(huán)。
二、 技術(shù)架構(gòu):統(tǒng)一存儲(chǔ)的核心設(shè)計(jì)
OPPO的數(shù)據(jù)湖統(tǒng)一存儲(chǔ)架構(gòu)以對(duì)象存儲(chǔ)(如兼容S3協(xié)議的自建或云上存儲(chǔ))作為核心底座,并整合了分布式文件系統(tǒng)、元數(shù)據(jù)管理、統(tǒng)一數(shù)據(jù)訪問(wèn)層等關(guān)鍵組件。
- 存儲(chǔ)底座:對(duì)象存儲(chǔ)為核心
- 選擇原因:對(duì)象存儲(chǔ)具有近乎無(wú)限的擴(kuò)展性、高耐用性、成本效益以及原生的多協(xié)議支持能力,非常適合作為數(shù)據(jù)湖的底層存儲(chǔ)介質(zhì)。OPPO通過(guò)自研優(yōu)化或采用成熟云服務(wù),確保其在高并發(fā)讀寫場(chǎng)景下的性能與穩(wěn)定性。
- 數(shù)據(jù)組織:數(shù)據(jù)按業(yè)務(wù)域、數(shù)據(jù)類型、入庫(kù)時(shí)間等進(jìn)行分層分區(qū)存儲(chǔ),并定義清晰的命名規(guī)范,便于管理和生命周期策略的實(shí)施。
- 統(tǒng)一元數(shù)據(jù)管理
- 引入類似Apache Hudi、Delta Lake或Iceberg等數(shù)據(jù)湖表格式技術(shù),在對(duì)象存儲(chǔ)之上構(gòu)建一層“表”的抽象。這些技術(shù)提供了ACID事務(wù)、模式演化、時(shí)間旅行等能力,將對(duì)象存儲(chǔ)的“文件集合”轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化的“數(shù)據(jù)表”,極大地提升了數(shù)據(jù)質(zhì)量和處理效率。
- 統(tǒng)一的元數(shù)據(jù)服務(wù)記錄了數(shù)據(jù)的模式(Schema)、分區(qū)信息、版本歷史、統(tǒng)計(jì)信息等,為上層的計(jì)算引擎(如Spark、Flink、Presto)提供高效的數(shù)據(jù)發(fā)現(xiàn)和裁剪能力。
- 統(tǒng)一數(shù)據(jù)訪問(wèn)與緩存加速層
- 開(kāi)發(fā)或集成統(tǒng)一的數(shù)據(jù)訪問(wèn)SDK/服務(wù),對(duì)上層應(yīng)用屏蔽底層存儲(chǔ)的復(fù)雜性。無(wú)論是批處理、流處理還是即席查詢,應(yīng)用都通過(guò)統(tǒng)一的接口訪問(wèn)數(shù)據(jù)湖。
- 針對(duì)熱數(shù)據(jù)或?qū)ρ舆t敏感的分析場(chǎng)景,在計(jì)算集群側(cè)部署高性能的分布式緩存(如Alluxio),將頻繁訪問(wèn)的數(shù)據(jù)緩存在計(jì)算節(jié)點(diǎn)本地或高速存儲(chǔ)介質(zhì)上,大幅減少對(duì)底層對(duì)象存儲(chǔ)的IO壓力并降低查詢延遲。
- 數(shù)據(jù)處理與計(jì)算引擎集成
- 架構(gòu)設(shè)計(jì)實(shí)現(xiàn)了存算分離,計(jì)算資源(Spark、Flink、Trino/Presto等)可以根據(jù)工作負(fù)載彈性伸縮,獨(dú)立于存儲(chǔ)層進(jìn)行擴(kuò)縮容。
- 所有主流計(jì)算引擎都通過(guò)適配器深度集成數(shù)據(jù)湖表格式,能夠高效、一致地讀寫湖中的數(shù)據(jù),支持從ETL、流式處理到交互式分析的完整數(shù)據(jù)處理鏈路。
三、 實(shí)踐成效:數(shù)據(jù)處理與存儲(chǔ)服務(wù)的升級(jí)
通過(guò)實(shí)施數(shù)據(jù)湖統(tǒng)一存儲(chǔ)技術(shù),OPPO在數(shù)據(jù)處理和存儲(chǔ)支持服務(wù)方面取得了顯著成效:
- 打破數(shù)據(jù)孤島,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)化:所有原始數(shù)據(jù)匯聚一處,形成了企業(yè)級(jí)的單一數(shù)據(jù)源,為跨業(yè)務(wù)、跨領(lǐng)域的聯(lián)合分析提供了可能,提升了數(shù)據(jù)價(jià)值挖掘的深度和廣度。
- 提升資源效率與成本優(yōu)化:存算分離架構(gòu)提高了存儲(chǔ)和計(jì)算資源的獨(dú)立利用率。統(tǒng)一存儲(chǔ)減少了數(shù)據(jù)冗余,結(jié)合智能分層和生命周期管理(將冷數(shù)據(jù)自動(dòng)轉(zhuǎn)移到更廉價(jià)的存儲(chǔ)介質(zhì)),整體存儲(chǔ)成本得到有效控制。
- 加速數(shù)據(jù)價(jià)值交付:統(tǒng)一的數(shù)據(jù)訪問(wèn)接口和強(qiáng)大的元數(shù)據(jù)管理簡(jiǎn)化了數(shù)據(jù)開(kāi)發(fā)流程。數(shù)據(jù)工程師和科學(xué)家能夠更快地發(fā)現(xiàn)、理解和消費(fèi)數(shù)據(jù),縮短了從數(shù)據(jù)到洞察的周期。流批一體的處理能力也更好地支持了實(shí)時(shí)業(yè)務(wù)決策。
- 增強(qiáng)數(shù)據(jù)治理與質(zhì)量:借助數(shù)據(jù)湖表格式的ACID特性,確保了數(shù)據(jù)寫入的一致性和可靠性。元數(shù)據(jù)管理為數(shù)據(jù)血緣、數(shù)據(jù)質(zhì)量監(jiān)控和數(shù)據(jù)安全策略(如權(quán)限控制、加密、脫敏)的實(shí)施提供了堅(jiān)實(shí)基礎(chǔ)。
四、 未來(lái)展望
OPPO的數(shù)據(jù)湖統(tǒng)一存儲(chǔ)實(shí)踐仍在持續(xù)演進(jìn)中。未來(lái)將重點(diǎn)關(guān)注以下幾個(gè)方向:
- 智能化運(yùn)維:利用AI技術(shù)實(shí)現(xiàn)存儲(chǔ)資源的智能預(yù)測(cè)性伸縮、異常檢測(cè)和自動(dòng)化調(diào)優(yōu)。
- 實(shí)時(shí)化與流式數(shù)倉(cāng)深化:進(jìn)一步融合流批處理能力,推動(dòng)數(shù)據(jù)湖向?qū)崟r(shí)數(shù)據(jù)湖或流式數(shù)倉(cāng)演進(jìn),滿足更極致的實(shí)時(shí)分析需求。
- 云原生一體化:深度擁抱云原生技術(shù)棧,實(shí)現(xiàn)數(shù)據(jù)湖在混合云或多云環(huán)境下的無(wú)縫部署與管理,提升敏捷性和彈性。
- 數(shù)據(jù)安全與隱私保護(hù):在統(tǒng)一架構(gòu)下,構(gòu)建更細(xì)粒度、更自動(dòng)化的數(shù)據(jù)安全與合規(guī)治理體系。
OPPO通過(guò)構(gòu)建以對(duì)象存儲(chǔ)為基礎(chǔ)、融合先進(jìn)數(shù)據(jù)湖表格式的統(tǒng)一存儲(chǔ)平臺(tái),成功打造了面向海量異構(gòu)數(shù)據(jù)的高效、靈活、經(jīng)濟(jì)的數(shù)據(jù)處理與存儲(chǔ)支持服務(wù)。這一實(shí)踐不僅為OPPO自身的產(chǎn)品創(chuàng)新、用戶體驗(yàn)優(yōu)化和智能運(yùn)營(yíng)提供了強(qiáng)大動(dòng)力,也為業(yè)界處理類似大規(guī)模數(shù)據(jù)挑戰(zhàn)提供了寶貴的技術(shù)參考和架構(gòu)范本。
如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.bqoq.cn/product/82.html
更新時(shí)間:2026-04-18 14:38:42