使用 LakeFS 在本地處理資料的 2 種方法

在處理儲存在物件儲存(例如 、雲端上的 Azure Blob 存儲,或本地 MinIO 或 Dell ECS)中的大型資料集時,我們經常看到使用者需要在本地處理該資料。出於多種原因,資料科學家和工程師可能更喜歡在本地工作。例如,他們可能希望靠近 GPU 資源,以確保更快的資料處理,或者他們只是發現在熟悉的本地環境中更容易進行開發和實驗。此外,在本地工作可以避免與可能不熟悉的雲端介面進行互動。無論出於何種原因,對儲存在物件儲存中的資料進行本地存取是一個常見的要求。

LakeFS 為使用者提供了兩種在

本地處理資料的主要方式:

LakeFS CLI(使用Lakectl 本地指令)
LakeFS山
在這篇文章中,我將探討這兩種方法,解釋它們的用法,並比較它們的主要功能。

1. 使用lakectl local在本地工作

Lakectl 當地是什麼?
lakectl local是一項允許您從 LakeFS 分支檢出資料或提交到本機目錄的功能。這允許您在本地處理資料、進行更改,然後將這些更改提交回 LakeFS 儲存庫。它提供了完整的讀/寫功能,這意味著您可以離線修改數據,然後在準備好時將變更推送回lakeFS。

此方法本質上是從物件儲存建立資料

的本機副本,使您可以像資料駐留在檔案系統本機一樣工作。

運作原理:
本機簽出資料:使用該lakectl local指令,您可以將 LakeFS 儲存庫中的特定分支、提交或標記簽出到本機目錄。這會將相關資料從物件儲存拉至您的電腦。

本機修改資料:簽出資料後您可以在

本機上對資料進行變更。由於它提供完全的讀取/寫入存取權限,因此您可以修改檔案、刪除或新增數據,並根據需要處理數據。
將變更推送回:進行變更後,您可以 南非 WhatsApp 號碼數據 使用 LakeFS CLI 將這些變更提交回 LakeFS,從而確保版本控制並使物件儲存資料保持最新。
工作流程範例:
本地檢出資料:

此指令將 LakeFS 資料從路徑複製

到空白本地目錄並初始化該目錄。lakectl local clone <path URI> [directory]
在本地處理資料:
檢出後,您可以像在本地一樣與資料進行交互,執行任何處理或修改。
檢查更改的狀態:

WhatsApp數據

此命令顯示對目錄及其追

蹤的遠端位置的遠端和本機變更。lakectl local status
提交更改:進行更改後,您可以 為您的二手車提供最佳技術升級 使用標準 LakeFS 提交命令將修改推送回 LakeFS。

了解有關 Lakectl local 的更多資訊。

2. 使用lakeFS Mount在本地工作

LakeFS 掛載點是什麼?

lakeFS mount允許您將 LakeFS 儲存庫作為檔案系統安裝在本機上,使您可以存取儲存在物件儲存中的數據,就像它是本機檔案系統的一部分一樣。此設定可讓您與 LakeFS 版本化資料集進行交互,就像它

們是本機資料集一樣,但在資

料處理方式上存在一些關鍵差異。目前,lakeFS Mount是唯讀的,這意味著您可以瀏覽和讀取數據,但無法進行更改。

資料保留在物件儲存中,lakeFS 透過 日本數據 元資料擷取和本機快取的兩步驟過程有效地處理資料檢索。

運作原理:
元資料取得:當您掛載lakeFS儲存庫時,僅取得檔案的元資料並在本機提供。這意味著文件結構、大小和其他元資料會立即呈現給您,而無需實際下載文件內容。這使您可以立即存取查看目錄結構和檔

案列表但在此階段無

法查看實際資料本身。
延遲載入和快取:只有當您嘗試讀取或存取檔案時,才會從物件儲存中檢索實際的檔案內容。一旦訪問,該檔案就會在本地複製並緩存,以最大限度地減少從物件儲存中重複檢索以供將來讀取。這樣可以有效率、無縫地瀏覽大型資料集,而無需預先下載所有資料。

快取機制可確保已存取的檔案儲存在本機,從而減少將來讀取相同資料的延遲。

返回頂端