コンテンツに移動
データ分析

今年を振り返る: スマート アナリティクスが飛躍

2019年12月27日
https://storage.googleapis.com/gweb-cloudblog-publish/original_images/DataAnalytics.gif
Google Cloud Japan Team

※この投稿は米国時間 2019 年 12 月 19 日に、Google Cloud blog に投稿されたものの抄訳です。

2019 年は Google にとって素晴らしい年でした。私個人としては、お客様、パートナー様、業界のアナリストやユーザーといった非常に多くの方々とお会いする機会がありました。お客様やパートナー様がどのように分析ソリューションを開発し、データ分析情報に関わるビジネス上の非常に複雑な課題を解決しているかを目の当たりにして、本当に圧倒されました。

急激に増大しているデータ量に対処している HSBCや、オンプレミスの Hadoop データレイクを Google Cloud に移行している Otto Group には感銘を受けました。MoneySuperMarket は、オンプレミスの分析情報をクラウドに移行して、より大規模なタスクの実行の高速化と顧客対応の改善を実現しています。S4 Agtech は、スマート クラウド分析によって、農作物の生産のリスク回避とイノベーションの迅速化をどのように実現しているかを説明しています。

Google では、お客様にとって何が重要かについて多くのことを学び、スマート アナリティクス プラットフォームへの投資を継続する中でその情報を活用しています。Google における分散型コンピューティングやデータ分析の長年の経験から、Cloud プロダクトの設計と構築の際には、多くの要素を考慮しました。Google は、あらゆるユーザーが、高いコストをかけなくても、あらゆるデータのリアルタイム分析と予測分析を実行できる、極めてシンプルなサーバーレス データ分析プラットフォームの構築に投資しています。このプラットフォームはオープンかつマルチクラウドの仕様で、企業やクラウド ネイティブの組織は、必要な柔軟性と選択肢で、デジタル変革を推進することができます。2019 年には、スマート アナリティクス向けに 100 以上の新機能をリリースしました。以下に、2019 年にリリースした新機能のハイライトをご紹介します。

データ ウェアハウジング

お客様はスマート アナリティクス プラットフォーム上に非常にスケーラブルなエンタープライズ データ ウェアハウスを構築しています。今年、Google はデータ ウェアハウジング ソリューションの 3 つの主要な分野に注力しました。

シームレスなモダナイゼーション: 注力した主な分野の 1 つは、Google Cloud の段階的な移行フレームワークの適用と、従来のデータ ウェアハウスのスムーズなモダナイゼーションを可能にすることでした。Teradata およびAWS Redshift 向けに BigQuery Data Transfer Service をリリースし、John Lewis Partnership のような組織がデータ、スキーマ、ワークロードを BigQuery に移行できるように支援しました。最近公開された Enterprise Strategy Group のレポートによると、BigQuery を使用した場合の 3 年間の TCO は、他のクラウド データ ウェアハウスと比べて、26%~34% 低くなることが明らかになっています。また、ストアド プロシージャやスクリプトの運用が簡単になる機能も追加しました。さらに、データ ウェアハウス移行サービスを利用して、移行プロセスに要する時間を短縮することもできます。

使いやすさ: BigQuery 向けに 100 以上のパートナー SaaS コネクタもリリースしました。これにより、ビジネス アナリストは分析のためにデータをビジネス アプリケーションからウェアハウスに簡単に移行できます。新しい BigQuery ユーザー インターフェースと新しいクエリ連携機能により、Bigtable、Cloud Storage、Cloud SQL、Google スプレッドシートでのデータ分析がさらに簡単になります。また、BigQuery Reservations も発表しました。これにより、簡単かつ柔軟に、セルフサービスで BigQuery の定額料金を利用できます。支出計画を立てたり、データ分析の用途に応じて柔軟性や可視性を高めたりすることがさらに容易になります。

インテリジェントな分析情報: Google では継続的に BigQuery MLBigQuery GIS 機能に投資しており、これによりデータ アナリストやデータ サイエンティストはウェアハウス内で高度な機械学習や地理空間分析を行うことができます。Google は今年、BigQuery ML でクラスタリング モデルと分類モデルをサポートし、TensorFlow モデルのインポートにもネイティブで対応することを発表しました。

また、BigQuery は分析会社 Gartner により 2019 年の アナリティクス向けデータ管理ソリューション(DMSA)マジック クアドラントのリーダーに選出されました。

ストリーミング分析

2019 年は、ストリーミング データ分析を改善し、よりシンプルに使えるように、また、スケーラビリティとインテリジェンスをさらに高められるよう取り組みました。Google のお客様は DataflowPub/SubBigQuery を使って、大量のストリーミング データのリアルタイム分析ソリューションを構築しています。Google Cloud のストリーム分析ソリューションを使用して、ゲーム業界では Unity Technologies などの会社がユーザー エクスペリエンスをリアルタイムにパーソナライズし、金融業界では Dow Jones などがリアルタイムの財務評価やデータ集約を行っています。

Dataflow SQL のリリースで、多くのデータ アナリストや開発者がリアルタイムのストリーミング データ分析を実行できるようになりました。現在では誰でもシンプルな SQL を使用して簡単に大量のストリーミング データを分析できます。また、Dataflow Streaming Engine が一般公開され、コンピューティングをステート ストレージと切り離すことによるアーキテクチャ上のメリットも得られるようになりました。これにより、応答速度が速く、効率が高く、サポートのしやすいストリーミング パイプラインをデプロイできます。さらに、BigQuery チームによりストリーミング バックエンドの設計の見直しが行われたことで、Streaming API のデフォルトの割り当てが 10 倍(プロジェクトあたり 10 万行/秒が 100 万行/秒)になり、強力なスケーラビリティを備えたストリーミング分析ソリューションを構築できるようになりました。分析会社 Forrester は 2019 年の Forrester Wave で、Google Cloud をストリーミング データ分析のリーダーに選出しました。

データレイク

TwitterPandoraVodafone Group など、世界中の大企業がデータレイクを Google Cloud に移行し、TCO の削減、新たなレベルのスケーラビリティの獲得、これまではできなかった分析の実施を実現しています。2019 年、Google は優れたオープンソースと Google Cloud を組み合わせる取り組みを続け、多様な業界のデータレイクを安全にモダナイズしました。今年は多額の投資を行って、ハイブリッド クラウド、マルチクラウド、セキュリティ、ユーザー アクセスの分野を中心に多数の新機能をリリースしました。

ハイブリッド クラウドとマルチクラウド: Dataproc on Kubernetes(アルファ版)をリリースし、Apache Spark のユーザーが Spark ジョブを作成して Google Kubernetes Engine(GKE)にデプロイできるようにしました。その際、GKE の動作する場所はどこでもかまいません。Kubernetes 上に Spark ベースの分析およびデータ パイプラインをデプロイできるので、Dataproc ユーザーはジョブを一度構築すれば、下流のテクノロジー スタックの依存関係を気にすることなく、どこにでもデプロイできます。

セキュリティ: 2019 年は、Kerberos と Hadoop のセキュアモード(一般公開)など、セキュリティ面で多数の改善を行いました。これによって Google のデータレイク ソリューションのセキュリティが全体的に高まり、大企業がセキュリティ制御をオンプレミスの Hadoop ベース データレイクからクラウドに移行しやすくなりました。

ユーザー アクセス: SQL は引き続き、データレイク情報へのアクセスとその分析を検討しているデータ アナリストが選ぶ言語となっています。Parquet や ORC のようなオープン ファイル形式を含むように BigQuery 統合クエリを拡張することで、BigQuery や下流の BI(ビジネス インテリジェンス)アプリケーションからデータレイクにアクセスできるようになりました。新しい BigQuery Storage API により、Dataproc ユーザーが BigQuery データに対して Spark のジョブを高速で実行することが容易になるため、サイロが解消されます。2019 年は、データ ウェアハウスとデータレイクの統合が本当の意味で始まった、新しい時代の夜明けとなりました。

ビジネス インテリジェンス

スマート アナリティクスにおける Google のビジョンの重要な部分は、データの鮮度や速度を犠牲にせずに、エンタープライズ向けの大規模なインタラクティブ分析をアナリストが実行できるようにすることです。この点で、2019 年は Google Cloud の BI にとって歴史的な年となりました。今年前半に開催された Next では、BigQuery BI Engine を発表しました。これは BigQuery の列指向の新しいインメモリ機能ですが、すでに AirAsia、VendastaZalando などのお客様が分析情報をより身近に利用できるようになっています。この新機能により、BigQuery で優れた同時実行と 1 秒未満での応答が可能になり、データのインタラクティブなダッシュボード表示とレポート作成が実現されます。

今年はまた、Google のすでに強力なスマート アナリティクス ポートフォリオを、エンタープライズ BI、カスタマイズされたデータ アプリケーション、埋め込み分析機能向けのプラットフォームでさらに強化するために、Looker を買収することも発表しました。最後に、データや分析情報を誰もが利用できるようにすることについては、スプレッドシートよりもユビキタスなデータ処理用インターフェースはありません。先月開催された Next UK では、接続シートという、スプレッドシートの新機能のベータ版提供が発表されました。この機能により、スプレッドシート内で(SQL は使わずに)標準のピボット テーブル、チャート、関数を使用して、数十億行もの BigQuery データを分析し、そのデータで共同作業を行うことができます。HSBC が分析ワークロードを Google Cloud に移行することを選択した主な理由には BigQuery のスケーラビリティやパフォーマンスがありますが、接続シートもその 1 つでした。

データのガバナンスとセキュリティ

2019 年は、Google がデータ ガバナンス、データ検出、データ セキュリティの分野にいかに多く投資しているかを示した年でした。まず、Next で Cloud Data Catalog を発表しました。この設計については、Google 社内でのデータのカタログ化方法からインスピレーションを得ています。Go-Jek などの多くのお客様は、Data Catalog の API と UI を使用して、管理されたデータ検出やメタデータ管理を全社的に実現しています。お客様のクラウドへの安全な移行を支援するために、20 年に及ぶ Google のデータ ガバナンスの経験を反映した新しいホワイトペーパー『クラウドのデータ ガバナンスに関する原則とベスト プラクティス』を公開しました。また、ハイブリッドとマルチクラウドのシナリオに対応する、一元化されたデータ検出の実現を目的とした、Collibra および Informatica との戦略的パートナーシップ、さらに Tableau および Looker との Data Catalog 統合も発表しました。最後に、Google は、多くの組織が毎日直面している、ますます巧妙化するサイバー攻撃を阻止するために、使いやすく、堅牢なデータ セキュリティとプライバシー管理に継続的に投資しています。

データの統合

Google Cloud を利用するお客様は、マルチクラウド全盛の世界でビジネスを続けています。そうした状況において Google では、データ エンジニアやデータ アナリストが簡単な方法でさまざまなアプリケーションやシステムからデータを取得できるようにすることが重要だと考えています。Google は今年 4 月に、コードを意識せずにフルマネージドでデータを統合できるサービスとして Data Fusion を発表しましたが、このたび、そのサービスの一般提供が開始されました。Data Fusion は開発者、データ エンジニア、ビジネス アナリストに、幅広いデータソースからのデータをクレンジング、変換、およびブレンドするデータ パイプラインを簡単に構築して管理する方法を提供します。Data Fusion を使うことで、これまではコーディングと統合に消費されていたリソースを分析情報の取得と実際の行動に振り向けることができます。Data Fusion はオープンソース プロジェクトの CDAP をベースとしており、コア部分がオープンなので、ハイブリッド クラウド環境やマルチクラウド環境で必要なポータビリティが得られます。CDAP はオンプレミスとパブリック クラウド両方の幅広いプラットフォームと統合できるため、Vodafone Group をはじめとする Data Fusion のお客様は、Google の業界トップレベルのビッグデータ ツールにより、サイロを解消し、これまでになく大きな価値を創出しています。

Google Cloud が提供するスマート アナリティクス向けの全ソリューションの詳細をご確認ください。2020 年もぜひ Google Cloud のスマート アナリティクス プラットフォームをお客様のサービスや製品の構築にご活用ください。

- by Sudhir Hasbe, データ分析担当プロダクト管理ディレクター

投稿先