見出し画像

【Databricks】DATA+AI SUMMIT 2024 に行ってきました。

坂と霧の街、サンフランシスコ。
名前はいくらでも耳にしていた街ですが、いざ行ってみると多くの学びや気づきがありますね。突然現れる急勾配の坂道や、霧に包まれるゴールデンゲートブリッジは圧巻でした。

インテージテクノスフィアは、2024年5月にDatabricks社のSIコンサルティングパートナーになりました。2024年6月にサンフランシスコでイベントが開催されるということで、DX共創センターの長谷川と久保田で現地参加してきました。

この1週前に、当社の他メンバーが Snowflake Data Cloud Summit に参加してきましたので、そちらの記事も近日中に公開します!

4日間に渡って開催されたイベントは多くの技術情報と熱気に溢れていたので、今回はキーノートの内容を中心に代表的なトピックスをご紹介します。


Databricksとは

当社ではデータ基盤構築・データ活用実現を支援しています。要件に合わせて、最適なクラウドサービス、データウェアハウス、BIツールなどを選定して採用しています。その製品の1つであるDatabricksは、以下のように説明されています。

AI / 機械学習をはじめとするビッグデータを扱うためのクラウド型の統合データ分析基盤である「レイクハウス・プラットフォーム」を提供しており、データエンジニアリング、データサイエンス / 機械学習、データ分析の領域に強みがある。

Wikipedia - データブリックス

さらにその特徴は GOAT という観点で語られることが多いです。

Governance: データカタログによるガバナンス
Open: オープンソース化によるユニバーサルフォーマット
AI: AIの民主化
TCO: システム投資から維持管理にかかる費用の削減

データレイクハウス生成AIにより構成されるデータインテリジェンスプラットフォームにより、「データの民主化」と「AIの民主化」を実現するというものです。

DATA+AI SUMMITの概要

そのDatabricks社が毎年開催しているイベントが DATA+AI SUMMIT です。参加者のみなさんには、"DAIS" と呼ばれています。2024年のテーマは "Data Intelligence for all" であり、サンフランシスコのMoscone Centerで開催されました。

DAIS 2024には140か国より16,000名以上が集まり、日本からも280名近くが現地で参加したとのことです。一部の講演・セッションはオンラインでも配信され、60,000名の登録がされているそうです。

コンテンツはキーノート講演に始まり、600以上のセッション、30以上のトレーニングプログラム、140以上のスポンサーブースなどで盛りだくさんです。

メイン会場はMoscone Centerの South / North / West の3棟なのですが、それでも足りず、近くのインターコンチネンタルサンフランシスコも使用されていました。

キーノート

概要

キーノート講演は水曜と木曜の2日間に分けて、それぞれの午前中に行われました。
ひとつの会場で行われるので、仮に現地参加の16,000名が一堂に会したとなれば、大阪城ホール規模の会場だったということですね。

前から2ブロック目あたり。後方にもっと席があります。

英語字幕の投影だけでなく、日本語・韓国語・マンダリンの同時通訳も行われていました。同時通訳はレシーバーからイヤホンで聞きます。

以下、キーノートスピーカーの一覧です。Databricks社のCEOはもちろんのこと、NVIDIA社のCEO、大学教授、野球のテキサスレンジャーズのデータ分析メンバーまで、多彩な顔ぶれです。

キーノートスピーカー(前半)
キーノートスピーカー(後半)

以下のサイトより、オンデマンド視聴もできます。

キーノートの中で多くのセンセーショナルな発表がありました。以下スライドに1枚にまとまっていますが、1つ1つがとてもボリューミーでインパクトのある発表でした。

データレイクハウスの全体像
2024年にローンチするもの

この中から、特に気になったものをいくつか紹介します。

複合AIシステム

バークレーの研究で、複合AIシステムが必要であるということが言われています。複合AIシステムというのは、汎用のLLM(大規模言語モデル)を使ってカスタム化をしていき、社内で使えるものにしていくというものです。

汎用モデルでは正確性と速度に課題があるのですが、オープンソースモデルのチューニングなどをすることで正確性や速度を向上させることができます。DatabricksのMosaic AI機能を使うことで、ノーコードで自社データを使ってチューンアップをしていくということが実現可能になります。

The Shift from Models to Compound AI Systems
複合AIシステム

AI / BI

Genieと呼ばれる対話形式でデータを集計分析することやグラフ作成をする機能があります。

回答できないことを質問したとき、Genieはハルシネーション(事実に基づかない誤った情報を生成する現象)せずに、追加情報を求めます。それに対して、意味を伝えてあげることでGenieは学習し、回答をすることができるようになります。この学習は保存することができるので、社内のすべての人が同じ質問を活用することができます。

"churn" の意味を求めている

Unity Catalog オープンソース化

ガバナンスとして3つ達成したいことがあり、そこから Unity Catalog が誕生しました。統一されたガバナンスを実現しているのは、業界で Unity Catalog だけです。

Open Connectivity
どのデータでもどのソースでもどのデータフォーマットでもガバナンスのソリューションにプラグインすればすぐに使えるものを生み出したい。
Unified Governance
データ、AIすべてに対して統一された一元管理されたガバナンスを作る。
Open Access
どのコンピュータからもどのクライアントからもアクセスを可能にする。

間違いなく、Unity Catalog は Databricks の核だと思うのですが、キーノートの中でオープンソース化が行われました。このパフォーマンスは今回のDAISでいちばんの盛り上がりとなりました。

Github上で public へ変更するパフォーマンス

オープンソース化の背景に、Databricks社のビジョンが表れているように感じます。

Delta Lake UniForm

これは端的に言うと、「標準規格があれば使う側はみんなうれしいよね!」というものです。レイクハウスのデータフォーマットとして、Delta Lake と Iceberg が代表的なものとして存在します。どちらのデータフォーマットかによって、使い分けをしないといけないということが大きな悩みの種となっていました。

Delta Lake UniForm により、使う側はどちらのデータフォーマットであっても同じ使い方でアクセスすることができるようになります。

Databricks社がTabular社を買収したことにより、この世界観の実現に向けより一層加速していくことが期待されます。

LakeFlow

よいデータを整備するためには、3つのステップがあります。データ収集、データ加工、オーケストレーションのそれぞれのステップでさまざまな製品を組み合わせるため、複雑になり費用もかさみます。

これを解消するために、LakeFlowが発表されました。
コードを一切書かずにデータ収集からダッシュボード作成まで実現することができます。

こぼれ話

出発前

現地参加する人向けに、Databricks Japan社のみなさんが事前説明会を開催してくれました。オンラインで1回、対面で1回それぞれ参加しました。対面のほうでは懇親会もあったので、日本から参加するみなさんと事前に顔見知りになることができ、DAIS初参加への心配や不安がかなりやわらぎました。会場を提供いただいたマクニカ社のみなさんには感謝です!

現地グルメ

DAISの期間中は朝から夕方までセッションを聴講していましたが、夜はすこし自由に行動する時間が持てました。カリフォルニアっぽいものを食べようということで、クラムチャウダー、チョッピーノ、ダンジネスクラブ、そしてステーキを堪能しました。

カリフォルニアっぽいもの

これから何をするか

さて、私たちはDatabricksのパートナーになったばかりです。サンフランシスコから持ち帰った熱量をもとにどのように行動し、誰に伝播していくかが重要です。

まずは私たち自身がDatabricksを活用して知見をためていくこと、公式資格取得を促しエンジニアを増やしていくこと、アンテナを張って情報収集をしていくこと。

そこから次第にDatabricksユーザーやコミュニティに貢献をしていけるように取り組んでいきます。

近日公開予定の Snowflake Data Cloud Summit 参加の記事もお楽しみに!

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!