400-811-8890

FineDataLink

數據集成

數據建模怎么做？一文講清(qing)數據建模全流程

數據建模怎么做？一文講清數據建模全流程

數據集成 ETL工具(ju)

數(shu)據領帆發表(biao)于 2025年8月(yue)22日 16:02:25

閱讀(du)人數：179預(yu)計閱讀時長：5 min

在數據團(tuan)隊待(dai)久了(le)，總(zong)會(hui)遇到兩(liang)種讓人頭疼(teng)的情況：

在數(shu)據團隊待久了，總(zong)會遇到(dao)兩種讓(rang)人頭疼的情況：

業務同事說“你們做的模型太繞，我要個銷售額數據都費勁”；
技術同事也嘆氣，“業務需求變得比翻書還快，模型剛弄好就得大改”。

其實數據建模這事兒，就是把業務需求和技術實現連起來的那根線，看著基礎，卻藏著不少坑。它真不是畫幾張圖、寫幾行代碼那么簡單，得真懂業務邏輯，還得算著技術成本，甚至得提前想到以后可能會變的地方，是個實(shi)打實(shi)的(de)系統活兒。

今天我就不跟你扯教科書上的理論了，就從實際應用的角度，把數據建模的全流程拆解開，重點說說這(zhe)四(si)個(ge)核心問題(ti)：

需求該怎么接
模型該怎么設計
落地時要避開哪些坑
后續怎么跟著迭代

一、需求分析

數據建模第一步，80%人都會踩坑——把需求分析做成了簡單記錄。

業務方說：“我要用戶復購(gou)率的周環比數(shu)據。”技術(shu)同學(xue)記下(xia)來，轉頭就從訂單表里取“下(xia)單時間”“用戶ID”“金額”，按周分組一算。

結果交上去的時候，業務方就問了：

“預售訂單怎么沒算(suan)進(jin)去(qu)？為啥(sha)用(yong)支付時(shi)間不是下單時(shi)間？怎么只算(suan)了APP端的數據？”

問題出在哪？

需求分析根本不是原樣轉述，而是得翻譯。業務方提需求的時候，往往帶著他們自己的業務語境，模糊不清是常有的事。

這時候，數據建模就得把需求拆成三個關鍵部分：

1. 搞清楚業務目標：這數據是要解決啥問題？

就拿復購率來說：

它到底是用來驗證“用戶生命周期價值（LTV）的短期情況”，
還是評估“促銷活動的效果”？

目標不一樣，模型里的字段設計、關聯的維度，那差別可就大了：

要是前者，就得把用戶的首單時間、以前的消費層級都關聯上；
要是后者，就得關聯活動標簽、優惠券使用情況。

2. 明確數據邊界：哪些數據該要，哪些不該要？

業務方說“用戶行為數據”，可能在他們看來，默認就包括APP、小程序、H5三端的點擊記錄，但技術這邊就得問清楚：

PC端的算不算？
機器人的流量要不要過濾掉？
設備信息（比如是iOS還是Android）用不用關聯？

邊界要是沒劃清：

模(mo)型上(shang)線(xian)后，肯定就得陷入“補數據-改(gai)模(mo)型”的循環里，沒完沒了。

3. 弄明白使用場景：誰用這數據，怎么用？

同樣是“銷售額報表”：

給老板看的周報，得匯總到品牌、大區這個級別；
給運營看的日報，就得細到SKU、門店；
要是給算法做預測用，可能還得保留用戶分群標簽、時間序列特征。

說白了，使用場景決定了模型的細致程度和冗余情況——老板(ban)要(yao)的是(shi)整體情況，算法(fa)要(yao)的是(shi)細節特征，模(mo)型得(de)跟這些場景(jing)匹配上才行。

所以跟業務方溝通需求的時候，拿著“5W1H”清單去問細節：

Who（誰用）
What（具體要啥指標）
When（時間范圍是啥）
Where（數據從哪兒來）
Why（業務上要解決啥問題）
How（輸出成啥樣）

二、模型設計

需求分析清楚了，就到模型設計這一步了。這一步的核心，就是用結構化的模型語言，把業務邏輯固定成能計算的資產。

數據建模的方法不少，像維度建模、實體關系建模、數據湖建模等等。但實際干活的時候，最常用的還是維度建模，特(te)別是星型(xing)模(mo)型(xing)和雪(xue)花模(mo)型(xing)。

為啥呢？

因為它夠簡單——

業務的人能看明白，
技術團隊也好實現，
計算效率也有保障。

1. 第一步：確定業務過程

業務過程就是模型里的“核心事件”，比如：

“用戶下單”
“商品入庫”
“優惠券核銷”

它必須是能量化、能追蹤的具體動作，不能是(shi)抽象的(de)概念。比如(ru)說“用(yong)戶活躍”是(shi)一(yi)種狀態(tai)，它對應的(de)業(ye)務過程(cheng)應該是(shi)“用(yong)戶登錄”“用(yong)戶點擊(ji)”這些具體(ti)動作(zuo)。

2. 第二步：識別維度

維度就是看業務過程的角度，用來回答“誰、何時、何地、什么條件”這些問題。比如分析“用戶下單”，可能涉及的維度有：

時間維度（下單時間、支付時間）
用戶維度（用戶ID、性別、注冊渠道、會員等級）
商品維度（商品ID、類目、品牌、價格帶）
場景維度（渠道：APP/小程序；活動：大促/日常；地域：省/市）

要注意的是：

維度得“全面準確”，但別“過度設計”。也就是說維度設計得基于當前的業務需求，同時留點兒擴展的空間。

3. 第三步：確定度量

度量是業務過程的“量化結果”，必須是數值型的、能聚合的字段，像訂(ding)單金額(e)、商(shang)品(pin)銷量、支付轉化率這(zhe)些(xie)都是。

這里有個容易被忽略的點：度量得明確“計算規則”。比如說：

“銷售額”，是指“下單金額”還是“支付金額”？
“復購率”是“30天內購買2次及以上”還是“最近一次購買距離首單不超過30天”？

規則不統一，模型(xing)輸出的(de)指標就容易讓人產生誤解。

4. 第四步：選擇模型類型（星型vs雪花）

怎么選呢？

主要看查詢效率：

星型模型減少了JOIN操作，適合經常查詢的場景，比如BI報表；
雪花模型更規范，適合不常查詢但分析復雜的場景，比如數據科學家做深度的關聯分析。

用過來人的經驗告訴你，優先選星型模型。在(zai)大數據的(de)場景下，JOIN操(cao)作特別費計算資源，星型(xing)模型(xing)能明(ming)顯提高查詢速度。

要是維度需要細分：

可以(yi)把常用的維度字(zi)段(duan)合并到事(shi)實(shi)表(biao)(biao)里，做成“寬表(biao)(biao)”來(lai)優(you)化，別動不(bu)動就拆成雪花結構。

三、實施落地

模型設計好了，就該落地實施了。這一步難的不是寫代碼，而是在“模型夠不夠好”和“工程上能不能實現”之間找到平衡。

1. 數據分層：讓模型好維護

數據倉庫的分層設計（ODS→DWD→DWS→ADS）是實施階段的基礎。每一層的職責得明確：

ODS（原始數據層）：存著原始的日志和業務庫數據，一點都不修改，用來回溯和校驗；
DWD（明細數據層）：做清洗、去重、標準化的工作，比如統一時間格式、填補缺失的值；
DWS（匯總數據層）：按主題來聚合數據，比如用戶主題、商品主題的日活、周銷數據；
ADS（應用數據層）：直接對接業務需求，像BI報表、算法模型的輸入數據都從這兒來。

具體怎么做數據轉換？

使用 API 輸出，實現將 API 數據寫入指定接口，將數據庫或者其他形式的數據生成為 JSON 格式，以便進行數據交互。可以借助數據集成與治理一體化平臺FineDataLink，使用 JSON 生成算子，生成 JSON 格式數據，滿足復雜業務場(chang)景下的數(shu)據清洗、轉(zhuan)換和同步等需(xu)求。

FineDataLink體驗：

點擊可以在線體驗

2. ETL設計：讓模型能跑起來

ETL（抽取-轉換-加載）是模型落地的關鍵。很多團隊在這一步容易出問題：

要么是ETL的任務鏈太長，依賴關系復雜，導致經常失敗；
要么是轉換邏輯寫死在代碼里，需求一變更，就得重新開發。

正確的打開方式是：

用元數據管理ETL流程：借助FineDataLink把任務依賴可視化，設置重試機制和告警；
把轉換邏輯“參數化”：像時間窗口（按天/周/月聚合）、維度過濾條件這些，用配置表來管理，別硬寫到代碼里；
保留“中間結果”：在ETL過程中輸出臨時表，比如清洗后的用戶明細表，方便排查問題和回溯。

3. 存儲選型：讓模型跑得快

不同的模型場景，得用不同的存儲介質：

經常查詢的小數據集：用關系型數據庫（MySQL、PostgreSQL）或者OLAP引擎（ClickHouse）；
大規模的明細數據：用分布式存儲（Hive、HBase）或者數據湖（Delta Lake、Iceberg）；
有實時數據需求的：用流批一體存儲（Flink + Kafka）。

要注意的是：

別為了用新技術而選復(fu)雜的(de)(de)存儲方式。比如存用戶畫(hua)像，要是(shi)沒有強一致性的(de)(de)需(xu)求，用MySQL加Redis的(de)(de)組合，可能比用HBase更簡單高效。

四、迭代優化

數據模型上線了不算完，它的生命周期長著呢。隨著業務發展，模型得不斷迭代——這一(yi)點很多團隊都容(rong)易忽略(lve)，最(zui)后往(wang)往(wang)要(yao)付出(chu)額外的成本。

1. 什么時候該迭代了？

出現這些情況，就得考慮優化模型了：

性能下降：以前10秒能出結果的查詢，現在要1分鐘，可能是數據量太大了，也可能是索引失效了；
滿足不了新需求：業務方需要新的維度（比如“用戶社交關系”）或者新的度量（比如“分享率”）；
存儲成本太高：模型冗余太多，比如雪花模型的多層維度表重復存儲數據，導致存儲費用飆升。

2. 迭代有啥策略？

迭代不能拍腦袋決定，得看數據反饋進行策略調整：

結語

數據建模是把業務價值和技術實現連起來的“結合點”，一個好的模型：

讓業務的人看得懂、用著順，
讓技術的人改起來方便、跑起來順暢。

還想跟你說句實在話：“先讓模型能用起來，再慢慢讓它變好。”別追求一開始就做出“完美模型”，在業務迭代中不斷優化，這才是數據建模最實在的經驗。

帆軟軟件(jian)深(shen)耕(geng)數(shu)字(zi)行業，能(neng)夠基于強大的(de)底層數(shu)據(ju)倉庫(ku)與(yu)數(shu)據(ju)集成技術，為企業梳理指(zhi)標體(ti)系，建立全面(mian)、便(bian)捷、直觀的(de)經營、財(cai)務、績效(xiao)、風(feng)險和監(jian)管一體(ti)化的(de)報(bao)表系統與(yu)數(shu)據(ju)分析平臺，并(bing)為各(ge)業務部門人員及領導提供PC端(duan)、移動端(duan)等可(ke)視(shi)化大屏查看(kan)方(fang)式，有(you)效(xiao)提高工作(zuo)效(xiao)率與(yu)需(xu)求響應速(su)度。

FineDataLink是一款集實時數(shu)(shu)據(ju)(ju)(ju)同步、ELT/ETL數(shu)(shu)據(ju)(ju)(ju)處理(li)、離線(xian)/實時數(shu)(shu)據(ju)(ju)(ju)開發、數(shu)(shu)據(ju)(ju)(ju)服務和系統管理(li)于一體(ti)的(de)數(shu)(shu)據(ju)(ju)(ju)集成(cheng)工(gong)具(ju)。更多精彩功能(neng)邀您(nin)體(ti)驗，您(nin)可(ke)以訪問(wen)下方鏈(lian)接或點擊(ji)組件，試用FineDataLink，解決企業中數(shu)(shu)據(ju)(ju)(ju)從任意(yi)(yi)終端到任意(yi)(yi)終端的(de)處理(li)和傳輸問(wen)題，讓(rang)流動(dong)的(de)數(shu)(shu)據(ju)(ju)(ju)更有價值！

更多FineDataLink詳情：//sjzqsz.cn/solutions/fdl