資料協作:在 LakeFS 中引入拉取請求

在現代軟體開發中,拉取請求 (PR) 是程式碼協作的基本工具。它們允許團隊以受控且透明的方式審查、討論和合併變更。

但如果您可以將相同的概念應用於資料呢?在lakeFS,我們很高興推出資料拉取請求——這是一項新功能,為資料工程、資料科學和機器學習工作流程帶來資料協作、透明度和治理。

讓我們深入了解此功能對您

意味著什麼,為什麼它很重要,以及它將如何徹底改變您的資料驅動專案。

什麼是拉取請求?
在軟體開發領域,拉取請求是一種提議對程式碼庫進行更改的機制。

當開發人員在單獨的分支中進

行更改時,他們可以建立拉取請求,要求其同儕(或其他專案維護者)審查這些變更並將其合併到主分支中。在此過程中,審閱者可以留下評論、提出改進建議,甚至執行測試以確保一切能如預期運作。

Pull Request 系統非常寶貴,因為它 泰國 WhatsApp 號碼數據 創建了一個結構化的變更流程:討論是公開進行的,審查被記錄下來,並且只有在完全批准後才會合併變更。這確保了每項變更都受到嚴格審查,從而提高品質並促進協作。

什麼是拉取請求

但是,如果您可以將相同的方法應用於我們的資料更改,結果會如何?

為什麼要拉取資料請求?
數據正迅速成為組織最重要的資產之一,並且像程式碼一樣,它經常發生變化。然而,管理資料變更

歷來缺乏與程式碼相同層級

的治理、透明度和控制。資料變更可能存在風險——資料集中的小錯誤可能會傳播到模型、儀表板和決策過程中,從而導致代價高昂的錯誤。

這就是 LakeFS 中資料的 Pull 請求的用武之地
透過拉取請求,資料從業者可以在受控環境中提出對資料集的變更。無論是更新資料集、新增記錄或

WhatsApp數據

修改元數據都可以在將這些

變更合併到主資料分支之前對其進行審查。團隊可以留下評論、執行驗證、執行資料品質測試,並確保資料在成為生產工作流 2020 年 4 個最嚴重的技術錯誤 程的一部分之前是正確的。

透過將 Pull 請求新增至資料工作流程中,lakeFS 提供了與軟體開發相同的優勢:

益處 它的作用合作 多個團隊

成員可以合作處理資料變更、審查彼此的工作並留下回饋
透明度 每項更改都是可見的並記錄在案,提供清晰的審計跟踪
品質管制 變更在合併之 日本數據 前經過審查和測試,從而降低了將錯誤引入資料的風險
這個構建塊還允許我們以非常簡單的方式實現寫入-審核-發布模式:

寫入-審核-發布資料模式

資料來源:X.com 上的 Mehdi Ouazza
這種模式非常強大——它允許將持久性資料儲存的物理行為和將其暴露給讀者的邏輯行為分開。透過分離這兩個問題,我們可以添加一個關鍵步驟:確保寫入的資料實際上符合我們的資料品質標準、監管約束和隱私要求。

要了解有關寫入審計模式的更多信息,請訪問Robin Moffatt的資料工程模式:寫入審計發布 (WAP)

在lakeFS中使用拉取請求

對於那些使用過基於 Git 的工作流程的人來說,在 LakeFS 中使用 Pull 請求非常直觀且熟悉。讓我們來看一個圖解範例:

建立分支
首先建立一個新分支,您可以在其中安全地試驗對資料湖的變更:

建立一個分支
做出改變
修改數據,無論是更新記錄、新增資料檔案或執行轉換。

返回頂端