現今的資料格式不僅相當多元,更會以即時串流的形式提供,同時散布於世界各地許多不同的資料中心和雲端環境中。從數據分析、資料工程、人工智慧與機器學習,到資料導向應用程式,我們運用及分享資料的方式仍在持續增加。資料的影響力不再僅限於分析師,現已擴及所有員工、客戶和合作夥伴。由於資料、工作負載和使用者的數量與類型急劇成長,因此我們目前正處於一個臨界點上,即便我們將傳統資料架構部署於雲端,也無法完整發揮資料的潛在價值,導致資料越來越難以轉化為實際價值。

為克服這些難題,我們正式發表多項資料雲端的創新技術,協助大家處理各種工作負載中無窮無盡的資料,並讓所有人都能使用。這次發表的項目中包含 BigLake 和 Spanner 變更串流,這些技術可以進一步整合客戶資料,同時確保資料能夠即時傳遞。另外,Vertex AI Workbench 和 Model Registry 則能讓大家輕鬆將資料轉化為 AI 方面的價值。為了讓所有人都能使用資料,我們將發表經過統合的商業智慧 (BI) 服務,當中包含全新的 Workspace 整合方案,以及進一步支援 Google 資料雲端合作夥伴生態系的新計畫。

突破所有資料限制

我們發表的 Beta 版 BigLake,這個資料湖泊儲存引擎可以整合不同的資料湖泊與倉儲,進而打破其中的界線。如果分開管理不同的資料倉儲與湖泊,會造成資料孤島的情形發生,並導致額外的風險和費用,這樣的問題在需要遷移資料時會特別明顯。有了 BigLake,企業就能整合資料倉儲和資料湖泊,並進行分析,且不必擔心基礎的儲存空間格式或系統,這樣就不需要複製或遷移來源中的資料,進而降低成本並提高效率。

在 BigLake 的協助下,客戶可以採用更細緻的存取權控管機制,並透過 API 介面使用 Google Cloud 和 Parquet 等開放原始碼檔案格式,進而運用 Apache Spark 等開放原始碼處理引擎。這些功能將 BigQuery 十年的革新成果拓展至 Google Cloud Storage 中的資料湖泊,實現了具備彈性並符合成本效益的開放式資料湖倉架構。

Twitter 已開始採用 BigQuery 的儲存空間功能來打破資料限制,以便進一步掌握其用戶使用 Twitter 平台的方式,以及會感到興趣的內容類型。因此,Twitter 能透過每秒可執行超過 300 萬次聚合作業的廣告管道,每天為數兆個事件提供內容。

我們發布的另一項重大創新技術是 Spanner 變更串流。這項即將推出的新產品會進一步協助大家打破資料限制,並即時追蹤 Spanner 資料庫中的變更,以便創造全新價值。Spanner 變更串流可以追蹤 Spanner 的植入、更新和刪除作業,並在整個 Spanner 資料庫中即時串流異動內容。這樣一來,客戶就能隨時存取最新資料,同時輕鬆將 Spanner 中的變更複製到 BigQuery 來進行即時分析、透過 Pub/Sub 觸發下游應用程式行動,或是將變更儲存至 Google Cloud Storage (GCS) 來遵守法規要求。Spanner 目前每秒最多可處理超過 20 億項要求,同時維持 99.999% 的可用性。而在增加變更串流之後,Spanner 現在可以讓客戶在處理資料時享有無限可能。

消除資料工作負載的限制

我們的 AI 產品組合是以 Vertex AI 來驅動,這個代管平台提供建立、部署及擴充模型所需的各項機器學習工具,並經過最佳化的處理,可以順暢處理 BigQuery 等服務中的資料工作負載。我們新推出的 Vertex AI 創新技術,提供更加流暢的體驗,讓客戶在更短時間內將 AI 模型部署至實際工作環境,並進一步簡化維護作業。

Vertex AI Workbench 現已正式推出,能夠將資料和機器學習系統整合至單一介面,這樣一來無論是執行資料分析、數據科學或機器學習等工作,團隊都能使用相同的工具組來完成。Vertex AI Workbench 與 BigQuery、無伺服器 Spark 和 Dataproc 整合後,可讓團隊快速建立、訓練及部署機器學習模型,速度是傳統筆記型電腦的 5 倍。事實上,一間跨國零售公司採用了 Vertex AI Workbench 之後,銷售額增加了數百萬美元,產品上市速度也加快了 15%。

有了 Vertex AI ,你就可以定期更新模型,不過要管理大量的構件並非易事,情況可能會在短時間內失控。為了讓大家能更輕鬆地管理模型的維護作業,我們發布全新的機器學習運作功能 Vertex AI Model Registry。目前 Vertex AI Model Registry 為 Beta 版,提供中央存放區,可供探索、使用及管理機器學習模型,BigQuery ML 中的模型也包含在內。如此,數據資料學家就能輕鬆分享模型,以方便應用程式開發人員使用,進而讓團隊能依據資料即時制定決策,在面對持續變化的市場環境時能保持更高彈性。

擴大資料觸及範圍

我們也推出 Looker 連結試算表,以及在 Data Studio 中存取 Looker 資料模型的功能。無論是透過 Looker 探索 (Looker Explore)、Google 試算表或是數據分析 (Data Studio) 的拖曳式介面,大家現在都能按照自己選取的方式與資料行互動。這樣一來,所有人都能運用這個經過整合的全新 Google Cloud 商業智慧 (BI) 平台,更輕鬆地存取資料、並從中擷取出深入分析的結果,藉此推動革新,並依據資料來制定決策。有了這項整合式商業智慧服務,使用者就能輕鬆取得受管理且值得信賴的企業資料、採用新的資料集和計算功能,並與同事協同合作。

Mercado Libre 是拉丁美洲最大的線上商務與支付服務系統,同時也是 Looker 連結試算表的初期採用者。借助這項整合服務,他們已能透過原先慣用的試算表介面將資料存取權分享給更多員工。藉由降低入門門檻,他們已經營造出資料導向文化,所有人都能依據資料制定決策

強化對資料雲端合作夥伴生態系的支持

如果沒有出色的合作夥伴生態系,我們即使擁有這些資料創新技術,也不可能讓使用者輕鬆發揮數據的價值。目前已有超過 700 個軟體合作夥伴使用 Google 的資料雲來驅動自家的應用程式。 Bloomreach、Equifax、Exabeam、Quantum Metric 和 ZoomInfo 等許多合作夥伴均已開始採用我們的資料雲功能,並參加 Built with BigQuery 計畫,來享有專屬工程團隊、協同行銷和市場開發的支援。

我們的用戶希望合作夥伴解決方案不僅能夠與 BigQuery 等產品緊密整合在一起,並可以進一步優化。因此我們公布 Google Cloud Ready - BigQuery ,這項全新的驗證機制,能夠識別一系列符合功能性和互通性核心需求的合作夥伴解決方案,例如 Fivetran、Informatica 和 Tableau 所提供的服務。我們目前已在這項「Google Cloud Ready - BigQuery」計畫中收錄了超過 25 個合作夥伴。這項嶄新的計畫可協助客戶減少評估新工具所需的成本,同時支援新的應用情境。

另外,我們也宣布一項新的資料庫遷移計畫,希望能夠協助大家在短時間內順暢且迅速地邁開遷移的腳步,將地端部署環境和其他雲端中的資料遷移至 Google 領先業界的全代管資料庫服務上。除了由 Deloitte 等合作夥伴提供的工具、資源和專業知識之外,我們也提供獎勵來協助客戶節省遷移資料庫的費用。

我們會繼續與客戶挹注資源的頂尖資料與數據分析公司合作,持續推動革新。Databricks、Fivetran、MongoDB、Neo4j 和 Redis 也都已經向 Google Cloud 的用戶公布重大新功能。

我們在 Data Cloud Summit 中詳細說明上述所有公告事項並提供更多資訊。歡迎瀏覽我們的資料雲端策略系列小組講座來取得實務內容。可以肯定的是資料的未來擁有無限可能,我們很高興能踏上這趟資料雲端之旅。


本文作者Google Cloud 資料庫、資料分析及 Looker 商業智慧平台 總經理暨副總裁 Gerrit Kazmaier