Google Developers Japan: AI

Gemini API デベロッパーコンペティションで未来に向けたアプリ開発を

2024年5月27日月曜日

この記事は Glenn Cameron と Lloyd Hightower による Google Developers Blog の記事 " Build for Tomorrow in the Gemini API Developer Competition " を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。

開発者の皆さんは、生成 AI というテクノロジーの力を活用し、よりアクセスしやすく、持続可能で、楽しい世界を創造し、その未来を形作るパワーがあります。

そこで Google は、Gemini API デベロッパーコンペティションを通じて、経験豊富な開発者の方々だけでなく、開発を始めたばかりの方々や、モバイル、ウェブだけでなく、さまざまな開発をしている方々を支援するために、皆さんの作品を世界中のユーザーと共有できる機会を作ります。

このコンペティションは、AI の新時代に何が可能かを再定義するだけでなく、より良い未来に貢献する画期的なアプリケーションの開発をサポートしたいと考えています。新規、既存のアプリに関わらず Gemini API を統合するだけで、素晴らしい賞品を獲得するチャンスをご用意しました。

次世代の AI アプリを構築する

ウェブの黎明期には、創造性が溢れ出し、つながり、遊び、学ぶためのまったく新しい方法が誕生しましたが、AI も今、同様の変曲点にいます。このコンペティションを通して、皆さんが Gemini API をどのようにアプリに組み込んでいくかを楽しみにしています。

Gemini API を活用して、現実世界の課題に取り組んでください。例えば、リアルタイムでデータを分析する AI 主体の災害対応システム、ユーザーに沿ってカスタマイズされる教育ゲーム、あるいは、期待以上のカスタマーサービスを提供するチャットボットなど、幅広いアプリの開発に取り組んでみてください。

Gemini API を使ってみる

Google AI Studio の Gemini API は、Google の強力な Gemini モデルにより、プロトタイプの作成とビルドを容易にし、チューニング、システム命令、JSON モードなどの機能へのアクセスを提供します。プロンプトギャラリーからアイデアを得たり、Gemini API cookbook でコード例などをご覧ください。

未来に向けた開発でスタイリッシュに走ろう

このコンペティションは、開発者の皆さんの創意工夫を披露する機会を提供するだけでなく、最優秀賞の受賞者には、1981 年型デロリアンをカスタマイズした電動自転車が送られます。

* 日本での公道使用要件や車検などの規約は、ご自身でご確認ください。

* 各賞品授与に際するルールは公式サイトをご確認ください。

コンペティションに対象アプリを応募することで、最優秀賞だけでなく、さまざまな分野の賞を受賞するチャンスがあります。プラットフォームやツール（Android、ARCore、Chrome、Firebase、Flutter）ごとにトップアプリをテクノロジー賞で表彰したり、デベロッパーコミュニティの投票によるピープルズチョイス賞も設けています。賞の全リスト（賞金総額 100 万 US ドルを含む）とカテゴリを見るには、ai.google.dev/competition にアクセスしてください。

Gemini API を使って未来に向けた開発を

賞品、カテゴリ、リソース、公式ルールの詳細については、ai.google.dev/competition にアクセスしてください。コンテストの応募期間は 2024 年 5 月 15 日から 2024 年 8 月 12 日まで開催されます。応募終了後は、ピープルズチョイス賞の投票がスタートします。お気に入りのアプリに投票してください！

#buildwithgemini

Posted by Tamao Imura - Google Developer Marketing Manager

PaLM API & MakerSuite：ジェネレーティブ AI アプリケーションのスムーズなプロトタイピングと構築を可能にする開発ツール

2023年3月15日水曜日

この記事は Scott Huffman, Vice President, Engineering and Josh Woodward, Senior Director, Product Management による Google Developers Blog の記事 "PaLM API & MakerSuite: an approachable way to start prototyping and building generative AI applications" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。

ゲームや対話エージェントからクリエイティブなブレインストーミングやコーディングツールまで、人々のテクノロジーとの関わり方を変えるジェネレーティブ AI アプリケーションの新しい波が来ています。Google では、ジェネレーティブ AI を使った次世代のアプリケーションを簡単に作れる API やツールをすべてのデベロッパーに提供し、AI を身近なものにしたいと願っています。2023 年 3 月 14 日 (日本時間) 、私たちは、Google の大規模言語モデル（LLM）を簡単かつ安全に試すことができる新しいデベロッパー向けサービスである PaLM API を発表しました。この API と同時に、デベロッパーがすばやく簡単にプロトタイピングを開始できるツール、MakerSuite をリリースします。これらのツールは、プライベートプレビューを通じて一部のデベロッパーに提供される予定で、また近日中にウェイトリストも公開する予定です。

PaLM API を使って Google の大規模言語モデル（LLM）にアクセスする

PaLM API は、Google の大規模言語モデルを簡単に利用できる API です。コンテンツ生成やチャットに最適化された対話型モデルや、要約や分類などに最適化された汎用モデルにアクセスできます。まずはサイズや機能面で効率的なモデルを 2023 年 3 月 14 日より提供し、近日中に他のモデルやサイズも追加する予定です。

すばやく構築できる

私たちはここ数年、Google 検索への MUM の導入や、AI テストキッチン (英語) での LaMDA 導入のトライアルなど、大規模な言語モデルの構築と展開を推し進めてきました。その過程でジェネレーティブ AI の開発ワークフローについて多くを学び、それがすぐに断片化してしまう課題を知りました。プロンプトを組み立てては直すことの繰り返しや、合成データによるデータセットの拡張、カスタムモデルのチューニングなどのために、ばらばらのツールを組み合わせる必要があります。そこで私たちは、このワークフローを簡素化するツール、MakerSuite をリリースすることにしました。MakerSuite を使えば、イテレーティブなプロンプト作成や、合成データによるデータセットの拡張、カスタムモデルのチューニングを簡単に行えます。プロンプトをコードに移す準備ができたら、MakerSuite で Python や Node.js など、お気に入りの言語やフレームワークのコードとして書き出すことができます。

モデルをチューニングする

ジェネレーティブ AI モデルは、デベロッパーがすぐに使える強力な機能を備えています。さらに、個々の用途に応じてモデルのチューニングすることで、より良い性能が得られます。Maker Suite を使えば、デベロッパーがパラメータを効率的に調整する技術 (英語) を活用して、用途に合わせてチューニングされたモデルを作成できます。チューニングしたモデルをブラウザ上ですばやくテストし、繰り返し使用できます。

合成データでデータセットを拡張する

AI を使った開発には高品質なデータが欠かせませんが、すぐに利用できるデータだけでは学習に限界があるケースも少なくありません。MakerSuite では、少数のデータをサンプルとしてデータ拡張用のデータを合成し、新たに作成したデータセットの管理や操作が可能です。この合成データは、モデルのチューニングや評価など、さまざまなシーンで活用できます。

最先端の embedding（埋め込み）を生成する

LLM から得られる embedding は、セマンティック検索からレコメンデーション、分類まで、幅広い応用の可能性が見いだされており、いま大きな期待が寄せられています。PaLM API で生成された embedding を使えば、既存のデータや外部のデータソースを活用したジェネレーティブ AI アプリケーションの構築が可能になります。また、TensorFlow、Keras、JAX、その他のオープンソースライブラリで構築されたアプリケーションで embedding を使用することも可能です。

責任と安全性を担保した構築

私たちは、Google の AI の基本方針に従ってモデルを構築し、Responsible AI （責任ある AI）の基礎を提供します。デベロッパーが個々のアプリケーションにおいて責任と安全性の基準を定め遵守するには、それらをコントロールできることが重要です。Google のツールは、デベロッパーがそれぞれのアプリケーションやユースケースに応じて安全性の検証や調整するための簡単な手段を提供します。

ジェネレーティブ AI アプリケーションをスケールさせる

これらのデベロッパーツールによって、ジェネレーティブ AI アプリケーションのプロトタイピングや構築を簡単に始められるのと同時に、サービスのスケーラビリティが必要になった場合の対応も容易です。PaLM API と MakerSuite は Google のクラウド基盤で提供されており、ホスティングやサービングのスケーラビリティについて心配する必要はありません。自分のアイデアをより大きな規模で展開したり、エンタープライズグレードのサポートや、セキュリティとコンプライアンス、サービスレベル合意（SLA）などが必要なケースでは、Google Cloud Vertex AI を活用し、エンタープライズ向け検索サービスや対話型 AI などの高度な機能の数々との組み合わせで、ジェネレーティブ AI モデルの機能を活用できます。

いまとてもエキサイティングな AI の潮流の中で、Google は、デベロッパーの皆さんの開発作業をより快適にするためのツールを作り続けたいと考えています。新しいデベロッパーを受け入れ、新機能を展開し、この技術をさらに広いデベロッパーコミュニティに提供していく予定です。また同時に、フィードバックに耳を傾け、学習し、デベロッパーが今いる環境でこれらのツールを最大限活用するために改善を続けていきます。

今後の進捗状況については Google Developers のニュースレターでお知らせするので、ぜひ購読をおすすめします。

Reviewed by Kaz Sato, Staff Developer Advocate, Google Cloud & Tamao Imura, Developer Marketing Manager, Google

Google I/O 2021: 大事な場面で役に立つこと

2021年7月1日木曜日

この記事は Sundar Pichai による Google The Keyword Blog の記事 "Being helpful in moments that matter" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。

今年、Google I/O デベロッパーカンファレンスを再び開催できたことを嬉しく思います。5 月 18 日の朝（日本時間 5 月 19 日早朝）、マウンテンビューのキャンパスに車を停めると、日常に戻ったような感覚を覚えました。もちろん、デベロッパーコミュニティの皆さんと対面でお会いしていないので以前と同じとは言えません。新型コロナウイルス感染症（COVID-19）は、この 1 年、グローバルコミュニティ全体に多大な影響を及ぼし、今もなお、大きな被害を与えています。ブラジル、そして私の母国であるインドでは、現在もパンデミックの中でも最も困難な時期を迎えています。Google は、COVID-19 の影響を受けたすべての人に思いを馳せ、前途に良い日が訪れることを願っています。

この 1 年で多くのことが見えてきました。その中で Google は、世界中の情報を整理し、世界中の人々がアクセスできて使えるようにするというミッションに、新たな目標が加わりました。私たちは、「すべての人にとって、より役立つ Google になる」というたった 1 つの目標を掲げ、このミッションへの取り組みを続けています。つまり、大事な場面で人々の役に立ち、すべての人に知識、成功、健康、幸福を高めるためのツールを提供するということです。

大事な場面で役に立つこと

Google Classroom が昨年 1 億 5,000 万人の学生と教師によるバーチャル学習を支援したように、大規模で役に立つこともあれば、小さな支援を積み重ねることで、すべての人に対して大きな変化をもたらすこともあります。たとえば、Google マップでは、より安全な経路を提案する機能をリリースしました。Google マップに組み込まれたこの AI による機能で、急ブレーキをかける可能性が高い経路や天気、交通状況を特定できます。この機能で、リスクを年間 1 億件ほど減らすことを目標としています。

働き方の未来を再定義する

私たちが支援できる最も大きいことの 1 つは、働き方の未来を再定義することです。この 1 年で、Google は前例のない方法を取り入れながら働き方が変わるのを見てきました。オフィスはキッチンのカウンターになり、ペットが同僚になりました。Google をはじめ、多くの企業は、再びオフィスで働けるようになったとしても、引き続き柔軟な働き方を続けることになるでしょう。そんな状況の中、コラボレーションツールがこれまでになく重要になっています。そこで、5 月 19 日（現地時間 5 月 18 日）、Google は、Google Workspace でより豊かなコラボレーションを可能にする新しいスマートキャンバスを発表しました。

Google Meet に統合された smart canvas

信頼できる次世代の AI

Google は、翻訳、画像、音声など、AI の中でも最も困難な分野に注力し、過去 22 年間で目覚ましい進歩を遂げてきました。その結果、アシスタントの通訳モードを使って別の言語で相手に話しかけたり、Google フォトで大切な思い出を振り返ったり、Google レンズを使って難しい数学の問題を解いたりすることが可能になり、Google の製品全体が改善されてきました。

また、AI を活用して自然言語を処理するコンピューターの能力を飛躍的に向上させ、何十億におよぶユーザーの検索体験を改善しました。しかし、コンピュータが理解できないこともあります。それは、言語が果てしなく複雑だからです。私たちは、言語を使って物語を語ったり、冗談を言ったり、アイデアを共有したりしますが、その中には私たちが人生の中で学んだ概念が織り込まれています。豊かさと柔軟性があるからこそ、言語は人類にとって最大のツールである反面、コンピュータサイエンスにとっては最大のチャレンジでもあるのです。

5 月 19 日、自然言語理解に関する最新の研究 LaMDA について発表しました。LaMDA は、対話アプリケーション用の言語モデルです。LaMDA はオープンドメインで、どんなトピックでも会話できるように設計されています。例えば、LaMDA は冥王星についてかなりのことを理解しています。生徒が宇宙のことをもっと知りたいと思ったときに、冥王星のことを聞けば、モデルが適切な答えを返してくれるので、より楽しく、興味を持って学習することができます。また、生徒が「紙飛行機の上手な作り方」など、別の話題に切り替えても、LaMDA は再教育をすることなく会話を続けることができます。

このように、LaMDA は情報やコンピュータをより身近で使いやすいものにすることができると考えています（詳細については、こちらをご覧ください）。

Google は、長年にわたって言語モデルの研究・開発を行ってきました。LaMDA に関しても、公平性、正確性、安全性、そしてプライバシーに関する非常に高い基準を満たし、Google の AI 原則に従って一貫して開発するよう注力しています。この会話機能を Google アシスタント、Google 検索、Google Workspace などの製品にいずれ組み込むことを楽しみにしています。また、デベロッパーの皆さんやパートナー企業へこの機能を提供する方法も検討しています。

LaMDA は、自然な会話を実現する大きな一歩ですが、まだテキストに対する訓練しか行われていません。人が誰かとコミュニケーションをとるときは、画像、テキスト、音声、動画を使います。そのため、さまざまな種類の情報を使って自然に質問ができるようなマルチモダールモデル（MUM）を開発する必要があります。MUM を使って Google に「美しい山並みを見ながら走れるルートを見つけて」と話しかければ、日帰りのドライブ旅行を計画できます。これは、検索機能の操作をより自然かつ直感的な方法で行えるようにするための取り組みの一例です。

コンピューティングの限界に挑む

翻訳、画像認識、そして音声認識は、LaMDA や MUM のような複雑なモデルの基盤を築きました。Google のコンピューティングインフラストラクチャは、このような進歩を促進して維持する手段であり、Google のカスタムビルドの機械学習プロセスである TPU はその大きな部分を占めています。

5 月 19 日、Google は、次世代の TPU である TPU v4 を発表しました。この TPU は、前世代の 2 倍以上の速度を持つ v4 チップを搭載しています。1 つのポッドで 1 エクサフロップ以上の性能を発揮することができ、これは 1,000 万台のノート PC の計算能力を合わせたものに相当します。これは、Google が今までに開発した最速のシステムであり、当社にとって歴史的な出来事です。これまでは、1 エクサフロップを達成するためには、カスタムスーパーコンピュータを構築する必要がありました。また、間もなく数十台のTPU v4 ポッドがデータセンターに設置され、その多くが 90％以上のカーボンフリーエネルギーで運用される予定です。これらのポッドは、今年後半には Google Cloud を利用するユーザーに提供される予定です。

左：TPU v4 チップトレイ、右：オクラホマデータセンターの TPU v4 ポッド

このように急速なイノベーションペースを目の当たりにできることはとてもエキサイティングなことです。将来を見据えると、従来のコンピューティングでは合理的な時間で問題を解決できないタイプの問題があります。そのような場合には、量子コンピューティングがそれを支援します。量子コンピューティングのマイルストーンを達成したことは非常に大きな成果でしたが、長い旅はまだ始まったばかりです。Google は、次の大きなマイルストーンである、「エラー訂正が可能な量子コンピュータの構築」に向けて引き続き取り組んでいます。これを達成すれば、バッテリー効率の向上、より持続可能なエネルギーの創出、創薬の向上が実現します。その実現に向けて、最先端の Quantum AI campus を新たに開設し、Google 初の量子データセンターと量子プロセッサチップ製造施設を備えました。

新施設 Quantum AI campus の内部

Google でより安全に

Google は、Google の製品は安全であってこそ役立つものであると考えています。そして、コンピュータサイエンスと AI の進歩は、製品をより良いものにしていくための手段です。Google は、世界中のどの企業よりもマルウェア、フィッシング詐欺、スパムメッセージ、潜在的なサイバー攻撃をブロックすることで、ユーザーの安全性を確保しています。

また、データの最小化に注力することで、より少ないデータでより多くのことができるようにしています。私は 2 年前の I/O で、自動削除機能を発表しました。これは、ユーザーのアクティビティデータが自動的かつ継続的に削除されるよう促すものです。それ以来、自動削除機能は、すべての新しい Google アカウントでデフォルト設定になっています。現在では、ユーザーから早期削除の申し出がない限り、アクティビティデータは 18 カ月後に自動的に削除されます。今では、20 億アカウント以上が対象になっています。

Google の全製品が次の 3 つの重要な原則に従っています。第一に、世界で最も先進的なセキュリティインフラを持つ Google の製品は、デフォルトで安全に保護されています。第二に、責任あるデータ慣行を厳守し、Google が構築するすべての製品は設計上プライベートになっています。そして第三に、ユーザーが自分でコントロールできるようにプライバシーとセキュリティの設定を使いやすくしています。

長期的な研究：Project Starline

この 1 年にわたり、テレビ会議を使うことにより、家族や友人と連絡を取り合ったり、勉強や仕事を進められたことは素晴らしいことです。ですが、誰かと同じ場所で一緒にいることの代わりにはなりません。数年前、Google では、テクノロジーの可能性を模索するため、Project Starline と呼ばれるプロジェクトに着手しました。このプロジェクトでは、高解像度カメラと特注の深度センサーを使用して、複数の視点から姿形をキャプチャし、それらを融合して、非常に繊細なリアルタイムの 3D モデルを作ります。生成されたデータを送信するには毎秒数ギガビットが必要となり、既存のネットワークを介してこのサイズの画像を送信するために、データを100分の1以下にする新しい圧縮・ストリーミングアルゴリズムを開発しました。さらに、実際に相手が目の前に座っているかのように見える画期的なライトフィールドディスプレイも開発しました。極めて高度なテクノロジーではありますが、ユーザーはそれを意識することなく、最も大事なこと（一緒にいるように見える相手とのコミュニケーション）に集中することができます。

Google のオフィスで何千時間もかけてテストを実施しており、これまで得られている素晴らしい結果に期待を寄せています。また、主要な企業パートナーからも期待されており、Google では、医療やメディア分野のパートナーに協力を仰ぎ、すでに初期のフィードバックを得ています。リモートコラボレーションの限界を押し広げることで、私たちは一連のコミュニケーション製品の品質を向上させる技術的な進歩を遂げることができました。今後さらに詳しくお伝えできることを楽しみにしています。

Project Starline を介して相手と会話が可能に

複雑なサステナビリティの課題を解決する

もうひとつの研究分野は、サステナビリティを推進することです。サステナビリティは、20年以上前から当社の主要課題となっています。2007 年には、大手企業として初めてカーボンニュートラルを達成しました。また、2017 年には消費電力の 100% を再生可能エネルギーでまかなう最初の企業になり、以降、それを持続しています。昨年、Google は、カーボンレガシー全体を排除しました。

Google の次の目標は、2030 年までにカーボンフリーエネルギーを達成するという、これまでで最も野心的なものとなっています。これは、現在の取り組み方から大幅に変更することを意味し、量子コンピューターと同じくらいのムーンショット目標です。カーボンフリーエネルギーをすべてのオフィスで確保し、それを 24 時間 365 日運用できるようにするまで、解決するべき困難な問題もあります。

昨年発表したカーボン・インテリジェント・コンピューティング・プラットフォームをベースに、Google は間もなく、データセンター・ネットワーク内の時間と場所の両方でカーボン・インテリジェントによる負荷シフトを実施する最初の企業になる予定です。来年の今頃には、非生産的なコンピューティングの 3 分の 1 以上を、カーボンフリーのエネルギーをより多く利用できる時間帯や場所にシフトする予定です。また、来年からネバダ州のデータセンターを皮切りに、地熱発電をより多くの場所で提供するために、新しい掘削技術や光ファイバセンシングへのクラウド AI の応用に取り組んでいきます。

このような投資は、24 時間 365 日体制のカーボンフリーエネルギーを達成するために不可欠で、カリフォルニア州のマウンテンビューでも行われています。Google は、最高のサステナビリティ基準に基づいて新しいキャンパスを建設中です。完成したら、この建物には、今までに類を見ない、銀に輝く龍の鱗のような 9 万枚のソーラーパネルが設置されることになり、約 7 メガワットの発電が可能になります。また、北米最大の地熱発電システムが設置され、建物を冬は暖かく、夏は涼しくすることができます。この取り組みが実現することを目の当たりにできることは、大変素晴らしいことだと思っています。

左：マウンテンビューの新しい Charleston East キャンパス。右：龍の鱗のようなソーラーパネルの模型。

テクノロジーの祝典

I/O は単なるテクノロジーの発展を祝う場ではありません。それを使い、開発する人の祭典でもあります。今日、バーチャルで参加した世界中の何百万人ものエンジニアの皆さんもその一人です。この 1 年、私たちは人々がテクノロジーを非常に素晴らしい方法で利用するのを目の当たりにしてきました。極めて困難な状況の中で、健康と安全を維持し、学習して成長し、繋がり合い、他者を助けるために。このような状況を体験し、私たちはこれまで以上に、大事な場面に役立つことを心がけていきます。

来年の I/O で皆さんに直接お会いできることを楽しみにしています。それまで、ご自愛ください。

Reviewed by Takuo Suzuki - Developer Relations Team and Hidenori Fujii - Google Play Developer Marketing APAC

Google Developers ML Summit 開催〜最新の Google Cloud AI や機械学習の活用〜

2020年10月15日木曜日

あらゆるアプリーケーション、サービスで、AI を活用し新たな価値を創造することが重要な時代になってきています。そこで、Google は、データサイエンティスト、アプリケーション開発者向けに、最新の Google Cloud AI や、機械学習サービスの活用例などを紹介する「Google Developers ML Summit」をオンラインで開催します。

TensorFlow、Cloud AI などの活用事例、機械学習モデルの開発や利用、また、データサイエンティスト / 機械学習エンジニアを繋げるプラットフォーム「Kaggle」についてご紹介します。

合わせてスピーカーを募集しています。奮ってご応募ください。（締切 : 10 月 19 日（月）9:00 AM）

■ 日程
2020 年 12 月 3 日（木）（アプリ開発）
2020 年 12 月 4 日（金）（クラウド、データサイエンス）
※ 時間は変更になる場合があります。

■ 詳細・お申し込みはこちら
http://goo.gle/mlsummit-b1

■ プログラム
10 月末公開予定

Posted by Takuo Suzuki - Developer Relations Team

11 Weeks of Android: Android の各種オンデバイス機械学習ツール

2020年7月20日月曜日

この記事は Hoi Lam による Android Developers Blog の記事 "Full spectrum of on-device machine learning tools on Android" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。

このブログ投稿は、 Android 11 に関する重要な内容を毎週取り上げる #11WeeksOfAndroid シリーズの一部です。第 2 週は、機械学習がテーマです。

1 週間を通じて、Android のオンデバイス機械学習（ML）のさまざまな側面を取り上げてきました。私たちは、実に多様な ML ツールを利用しています。この点は、できたてのアプリから定着しているアプリまで、開発のどの段階でも変わりません。また、設計や製造、エンジニアリングなどの役割や、初心者からエキスパートまでのスキルレベルによって変わるものでもありません。

設計 - 差別化のための ML

「ユーザーに目を向ければ他はすべてついてくる」というのは Google 社内でよく使われる寸言ですが、現在の機械学習の時代にあって、この言葉がますます意味を持つようになっています。Google のデザインアドボケートである Di Dang は、ユーザーの問題と ML の長所が交わる唯一の交差点を見つけることの重要性を強調しています。往々にして、チームはユーザーのニーズを見失った機械学習のアイデアを追い求めがちです。

Di は、ML 製品の意思決定を行う際に「人にうれしいAIのための UXデザインガイド People + AI Guidebook（日本語・コミュニティによる翻訳版）」を活用する方法と、ML の設計や開発に特有の精度や再現率などのトピックについて Read Along アプリを例に挙げて説明しています。チームがインスピレーションを得るために、Di による Read Along チームへのインタビューもご覧ください。

オンデバイスに完全フォーカスした新しい ML Kit

オンデバイス機械学習をソリューションとして使うべきだと判断した場合、それを最も簡単に実装する方法は、ML Kit のようなすぐに使える SDK を活用することです。Google がトレーニングした洗練されたモデルや処理パイプラインが、使いやすい Kotlin / Java のインターフェースを通して提供されています。ML Kit はオンデバイス ML 用に設計、構築されました。オフラインで動作し、プライバシーが強化されており、リアルタイムユースケースで高いパフォーマンスを発揮します。しかも、無料です。また先日、ML Kit をスタンドアロン SDK にして、Firebase アカウントがなくても利用できるようにしました。build.gradle ファイルに 1 行追加するだけで、アプリに ML 機能を組み込むことができます。

Jetpack ライフサイクルサポートや、Google Play Services を通して顔の輪郭モデルを使用することでアプリのサイズを 20 MB も節約できるオプションなど、新機能も追加しています。また最近、大きな期待を寄せられていた機能がもう 1 つ追加され、画像のラベル付けと物体検知および物体トラッキングにおいて、Google モデルを独自のモデルと交換できるようになりました。これは、特に簡単に TensorFlow Lite モデルをアプリに追加する方法の 1 つです。ByteArray を操作する必要は一切ありません！

TensorFlow Lite と Android ツールによるカスタマイズ

ML Kit が提供するベースモデルでは満足できないデベロッパーはどうすればいいでしょうか？まず参照すべき場所は、TensorFlow Hub です。ここから Google や多数のコミュニティが提供する TensorFlow Lite モデルをダウンロードして、すぐに使うことができます。米国のスーパーマーケットの 10 万点の商品からトマトの病気の分類まで、選択は皆さん次第です。

Firebase AutoML Vision Edge を利用できるだけでなく、TensorFlow Model Maker（イメージ分類 / テキスト分類）を使えば、Python で数行書くだけで独自のモデルを構築することもできます。TensorFlow Hub か Model Maker で TensorFlow Lite モデルを取得したら、ML Kit の画像のラベル付けや物体検知および物体トラッキングを使って Android アプリに簡単に組み込むことができます。オープンソースのソリューションを使いたい方は、Android Studio 4.1 ベータ版に含まれている ML モデルバインディングを利用すると、使いやすい Kotlin / Java ラッパーで TensorFlow Lite モデルをラップできます。Android アプリにカスタムモデルを追加する作業は、今までになく簡単になっています。詳しくは、こちらのブログをご覧ください。

今こそオンデバイス ML の時代

Android Developer Challenge の入賞者からもわかるように、今まさにオンデバイス機械学習の時代が到来しています。かつてはクラウドやスーパーコンピュータだけのものだった ML 機能が Android スマートフォンで利用できるようになりました。一歩踏み出して、11 Weeks of Android のコードラボに挑戦してみましょう。

ML Kit コートラボ - ML Kit と CameraX による言語認識とテキスト翻訳
カスタムモデルコードラボ - TensorFlow Lite Model Maker と Android Studio ML モデルバインディングで花を見分ける Android アプリを構築する Pathway（チュートリアル）もご確認ください。また、クイズに挑戦して ML バッジを獲得しましょう。

Android オンデバイス機械学習は急速に進化を続けているプラットフォームです。機能強化リクエストや改善案のフィードバックは、ユースケースと合わせてお知らせください（TensorFlow Lite / ML Kit）。今こそオンデバイス ML の時代です。

機械学習の関連情報

#11WeeksOfAndroid 動画コンテンツの全プレイリストはこちらから、それぞれの週の詳しい内容はこちらからご覧いただけます。毎週新しい分野を取り上げますのでご期待ください。Twitter や YouTube のフォローもお願いします。ご覧いただき、ありがとうございました！

Reviewed by Khanh LeViet - Developer Advocate and Hidenori Fujii - Google Play Developer Marketing APAC

Google Tokyo Campus で AI スタートアップにフォーカスしたアクセラレータープログラムを開始します。本日より募集開始

2019年11月19日火曜日

2020 年 2 月より AI を活用したスタートアップ向けに実施する 3 か月集中型のプログラム「Google for Startups Accelerator 」を実施します。このプログラムは、確立された製品・サービスを擁するスタートアップを対象に、これからの成長に備えるためのツールを提供します。AI や機械学習の活用を主な要素とすることで、テクノロジーを活用した社会、経済、環境への取り組みに対する支援を加速し、ひいては、スタートアップの成長が日本経済のさらなる活性化につながることを期待しています。本日より、本プログラムに参加を希望するスタートアップ企業を募集開始します。

Gooogle for Startups Accelerator 活用の利点

Google for Startups Campus ( 東京 ) の利用 ：本プログラムに参加するスタートアップ（以下、参加企業）は、参加期間中 Campus 内のワークスペースを活用することができます。また、Campus 内にある施設の全て（飲食スペースや一部の会議室を含む）を利用できます。
Google 社員によるメンター制度：Google AI チームをはじめとする様々なチームとのコラボレーションや Google のテクノロジーや製品、サービス、さらに人的ネットワークを活用する機会を提供します。ベストプラクティスの共有に加え、企業や製品に関する大枠の戦略策定サポートも提供しています。
トレーニングプログラム：参加企業は機械学習や人材獲得・育成、製品開発管理に関する各種トレーニングを受講できます。機械学習など技術の活用を中心としたものからリーダーシップトレーニング等を通じ、スタートアップが必要とするサポートを提供します。
スタートアップエコシステム（コミュニティ）への参画：異業種のスタートアップや VC、技術者、技術アドボケイト等との交流を通じ、人的ネットワークの拡大にも貢献します。

募集概要

対象 : 社会的課題を AI/ML の技術で解決したいと考えているスタートアップ
募集開始 : 2019 年 11 月 19 日（火）
募集締め切り : 2019 年 12 月 13 日（金）18 時
参加企業の発表 : 2020 年 2 月中旬頃を予定
プログラム実施機関 : 2 月中旬〜 5 月末（予定）
応募条件や審査など詳細はウェブサイトをご参照ください。

参加者の皆さんの応募をお待ちしております。

Posted by Takuo Suzuki - Developer Relations Team

EfficientNet: モデルスケーリングと AutoML で最高精度を達成した Google の画像認識技術

2019年7月2日火曜日

この記事は Mingxing Tan と Quoc V. Le による Google AI Blog の記事 "EfficientNet: Improving Accuracy and Efficiency through AutoML and Model Scaling" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。

投稿者: Google AI スタッフソフトウェアエンジニア、Mingxing Tan、Google AI 主席サイエンティスト、Quoc V. Le

畳み込みニューラルネットワーク（CNN）の開発では、まずは一定のリソースコストを投入し、その後さらに多くのリソースが利用可能になった段階でスケールアップし精度を上げていく方法が一般的です。例えば ResNet では、レイヤー数を増やすことで ResNet-18 から ResNet-200 までスケールアップできます。また最近発表された GPipe では、ベースライン CNN を 4 倍スケールアップすることで ImageNet top-1 精度 84.3% を達成しています。こうしたモデルのスケールアップでは、CNN の深さや幅を適当に増やしたり、学習や評価時の画像解像度を大きくしたり、といったやり方が行われます。確かにこうした方法でも精度は向上しますが、手作業による面倒なチューニングが必要なうえ、その性能がベストであるとは言いにくいです。もし、CNN の精度と効率をより改善するための「スケールアップの原則」があればどうでしょうか。

私たちが ICML2019 で発表した論文「EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks（EfficientNet: 畳み込みニューラルネットワークモデルのスケーリングを再考する）」では、モデルの新たなスケーリング手法を提案しています。具体的には、シンプルかつとても効率的な複合係数（compound coefficient）を使い、より統制された手法で CNN をスケールアップします。

従来のアプローチでは、幅、深さ、解像度などのネットワークの次元を任意の大きさにスケールアップしていました。一方、私たちの手法では一定のスケーリング係数を使ってそれぞれの次元を均一にスケールアップしていきます。この新たなスケーリング手法と、最近の AutoML の進展を活用し、EfficientNet と呼ばれるモデル群を開発しました。このモデルは現在の最高水準の精度を上回り、効率も最大で 10 倍向上しています（小型化と高速化）。

複合モデルスケーリング：CNN をスケールアップする優れた手法
今回の研究では、ネットワークのスケーリングによる効果を理解するため、モデルの各次元を変化させた場合の影響を系統的に調査しました。その結果、個々の次元をスケーリングするとモデル性能は向上しますが、モデル全体として改善の効果が最も大きくなるのは、利用可能なリソースをネットワークのすべての次元（幅、深さ、イメージの解像度）に均等に割り当てた場合であることがわかりました。

複合スケーリング手法ではまず、ある一定のリソース制約（例: FLOPS を 2 倍に設定する）のもとでグリッドサーチを行い、ベースラインとなるネットワークの個々の次元間の関係を見つけます。これにより、各次元に対する適切なスケーリング係数が決まります。その後この係数を適用し、希望のモデルサイズまたは計算リソースに合わせてベースラインネットワークをスケールアップします。

さまざまなスケーリング手法の比較。ネットワークの個々の次元を任意にスケーリングする従来型のスケーリング手法（b）～（d）とは異なり、複合スケーリング手法ではすべての次元を均一的かつ一定の原則に基づいてスケールアップする

この複合スケーリング手法では、従来のスケーリング手法に比べて、モデルの精度と効率がコンスタントに改善していきます。たとえば MobileNet では ImageNet 精度が 1.4% 向上、 ResNet では 0.7% 向上しました。

EfficientNet のアーキテクチャ
モデルのスケーリングの効率性は、ベースラインネットワークの設計にも大きく依存します。そこで、性能をさらに改善すべく新しいベースラインネットワークも開発しました。精度と効率（FLOPS）の両方を最適化する AutoML MNAS フレームワークによりニューラルアーキテクチャ検索を行うことで実現しています。その結果として得られたアーキテクチャは、MobileNetV2 や MnasNet と同じように Mobile Inverted Bottleneck Convolution（MBConv）を使っていますが、利用する計算リソースの増加にともないわずかに大きなものになっています。その後、このベースラインネットワークをスケールアップすると、EfficientNet と呼ばれるモデル群が得られます。

ベースラインネットワークである EfficientNet-B0 用のアーキテクチャは、シンプルでクリーンな設計です。
スケーリングや汎用化も容易です。

EfficientNet のパフォーマンス
ImageNet を対象に、EfficientNet をいくつかの既存 CNN と比較しました。EfficientNet モデルは、既存の CNN よりも高い精度と優れた効率の両方を実現しており、パラメータのサイズと計算量が 1 桁少なくなっています。たとえば高精度版の EfficientNet-B7 は、ImageNet の top-1 で 84.4%、top-5 で 97.1% という最高レベルの精度を実現しています。また、CPU による推論で比較すると、それまでの Gpipe と比べてサイズが 8.4 分の 1、速度は 6.1 倍。また、一般的な ResNet-50 と EfficientNet-B4 を比べると、計算量はほぼ同じですが top-1 精度は ResNet-50 の 76.3% から 82.6%（6.3% 向上）に増加しています。

モデルのサイズと精度の比較。EfficientNet-B0 は、AutoML MNAS が作成したベースラインネットワーク。一方の Efficient-B1 から B7 は、ベースラインネットワークをスケールアップしたもの。特に、EfficientNet-B7 は、トップ 1 で 84.4%、トップ 5 で 97.1% という最高レベルの精度を実現。同時に、既存の最高の CNN と比べてサイズが 8.4 分の 1 になっている。

EfficientNet は ImageNet で高い性能を発揮しますが、使いやすさを考えると、他のデータセットで転移学習した場合の性能も重要です。この点を評価するため、広く使われている 8 つの転移学習データセットで EfficientNet をテストしました。EfficientNet は、CIFAR-100（91.7%）、Flowers（98.8%）など、8 つのうち 5 つのデータセットで最高レベルの精度を実現しました。中にはパラメータ数がひと桁少なくなくなった例もありました（最大で 21 分の 1）。これにより、EfficientNet は転移学習でも性能を発揮できることがわかります。

今回の研究によりモデルの効率を大幅に改善できたことから、今後のコンピュータビジョン関連のタスクにおいて、EfficientNet が新しい基盤として活用される可能性も考えられます。そこで、すべての EfficientNet モデルをオープンソース化しました。これによって機械学習コミュニティが広く恩恵を受けられることを願っています。EfficientNet のソースコードと TPU 用の学習コードは、こちらから確認できます。

謝辞:
Hongkun Yu、Ruoming Pang、Vijay Vasudevan、Alok Aggarwal、Barret Zoph、Xianzhi Du、Xiaodan Song、Samy Bengio、Jeff Dean、と Google Brain チームに格別の感謝を捧げます。

Reviewed by Kaz Sato - Staff Developer Advocate, Google Cloud

Google の AutoML が KaggleDays での表形式データのコンペで第 2 位に

2019年6月24日月曜日

この記事は Yifeng Lu による Google AI Blog の記事 "An End-to-End AutoML Solution for Tabular Data at KaggleDays" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。

投稿者: Google AI ソフトウェアエンジニア、Yifeng Lu

データベースのテーブルや表計算のシートなどの「表形式データ」に対する機械学習（ML）の適用は、特に活発に研究や実用化が進んでいる領域です。小売、サプライチェーン、金融、製造、マーケティングなど、多くのビジネス分野において、不正検知や在庫予測など、表形式データにまつわる様々な課題が存在します。こうした課題を ML で解決するソリューションの開発には ML の専門家が欠かせません。例えば、手作業による特徴量エンジニアリングやハイパーパラメータの調整などにより、最適なモデルを作成する必要があります。しかし、こういったスキルを持つ人材は希少であり、ML による業務の効率的な改善は簡単ではありませんでした。

こうしたビジネスや研究での ML の導入を加速し、スケーラブルなものとするのが、Google の AutoML です。AutoML の初期の取り組みであるニューラルアーキテクチャ検索（NAS）では、NasNet を通して画像認識の分野に革新をもたらしました。さらに、AmoebaNet などの進化した手法や、エッジ向けのモバイルビジョンアーキテクチャである MNasNet によって、AutoML の特徴である「learning-to-learn」手法のメリットがさらに明らかになっています。

そして先日、Google は表形式データに learning-to-learn のアプローチを適用し、次の 3 つの特徴を備えるスケーラブルなエンドツーエンド AutoML ソリューションを開発しました。

全自動：学習データと計算リソースを投入するだけで、すぐに利用できる TensorFlow モデルを出力します。その途中で人による作業は発生しません
広く適用可能：表形式データを利用するあらゆる課題に適用できます
高品質：AutoML が生成するモデルの性能は、トップクラスの ML エキスパートが手作業で作ったモデルに匹敵します

このソリューションを評価するため、Kaggle のハッカソンイベント KaggleDays SF Hackathon に AutoML でエントリしました。これは KaggleDays イベントの一部で、最大 3 名のチーム 74 組が 8 時間半をかけて競うコンペです。

ここで AutoML が Kaggle の参加者と初めて競い合ったのは、一連の自動車部品についての素材の特性とテスト結果の情報を与えて、製造における欠陥を予測する課題でした。相手には Kaggle progression system の Master レベルの参加者や GrandMaster レベルの参加者もたくさんいました。しかし私たちの AutoML のチームはほぼ 1 日中首位をキープし、順位表にあるように最終的には僅差で 2 位となりました。

私たちのチームの AutoML ソリューションは、複数ステージの TensorFlow パイプラインで構成されています。第 1 ステージは、自動特徴量エンジニアリング、アーキテクチャ検索、検索によるハイパーパラメータチューニングを担当します。第 1 ステージを経た有望なモデルは第 2 ステージに送られ、交差検証とバギングが適用されたのち、優れたモデルが選択されます。その後、第 2 ステージで得られた特に優れたモデルを組み合わせて、最終的なモデルとします。

「Google AutoML」チームのワークフローは、他の Kaggle 参加者のワークフローとはまったく異なっていました。他の参加者がデータを分析してさまざまな特徴量エンジニアリングを試している間、私たちのチームはジョブをモニタリングしてその終了を待っているだけです。最終的に 2 位となったソリューションのステージが終了するまでには、2500 CPU時間の計算処理を必要としました。

またコンテストの後に公開されたパブリックカーネルを調査したところ、手作業で設計した上位のモデルを AutoML モデルで拡張すれば、ML エキスパートがさらに高性能のシステムを構築できることがわかりました。下の表が示すように、AutoML には ML エキスパートの能力を強化し、さまざまな課題に広く対処できるようにする可能性が秘められています。

AutoML モデルと他の Kaggle 参加者のモデルを組み合わせることでモデルをさらに改善できる可能性を表す順位表。「Erkut & Mark, Google AutoML」には、1 位となった「Erkut & Mark」と 2 位となった「Google AutoML」のモデルが含まれている。Erkut Aykutlug 氏と Mark Peng 氏は、XGBoost と独自の特徴量エンジニアリングを利用。一方の AutoML は、自動の特徴量エンジニアリングとハイパーパラメータチューニングとともに、ニューラルネットワークと勾配ブースティングツリーの双方（TFBT）を使った。

Google Cloud AutoML Tables
このコンペで利用したソリューションは、Cloud Next '19 でベータ版が提供開始された Google Cloud AutoML Tables のメインアルゴリズムに採用されています。次の図に示すように、複数の Kaggle コンテストを対象としたベンチマークテストでは AutoML Tables がコンスタントに高成績を記録しており、同様のサービスとしては SoTA 性能を達成しています。

複数の Kaggle コンテストを対象としたサードパーティによる AutoML Tables のベンチマーク結果

AutoML の手法は、実際のビジネスにおけるさまざまな問題に対して応用できる可能性があります。既にいくつかのお客様が、企業内のさまざまな表形式データに対して AutoML Tables を適用し、サプライチェーン管理やマーケティングのリードコンバージョン最適化などの用途に活用しています。表形式データにまつわるさまざまな課題の解決に、最先端の ML 技術を適用可能になったことを嬉しく思います。

謝辞
このプロジェクトは、Google Brain チームのメンバー、Ming Chen、Da Huang、Yifeng Lu、Quoc V. Le、Vishy Tirumalashetty の尽力があってこそ実現できました。また、すばらしいインフラストラクチャとプロダクトのランディングに関して協力してくださった Cloud AutoML Tables チームの Dawei Jia、Chenyu Zhao、Tin-yun Ho にも感謝します。魅力的なコンテストを開催してくださった Walter Reade、Julia Elliott、そして Kaggle の皆さんにも感謝いたします。

Reviewed by Kaz Sato - Staff Developer Advocate, Google Cloud

セッション動画およびQAを公開しました [Google I/O Extended: Recap Live Japan 2019]

2019年6月11日火曜日

Google I/O Extended: Recap Live Japan 2019 は、Google Play が主催する開発者向けのイベントです。

Google I/O 2019 の発表内容をベースに、一部は最新の情報を追加。数ある I/O のコンテンツから、有益な最新技術とビジネスの情報を約 2 時間に厳選してお伝えしました。イベント中に #RecapLiveJP にて投稿されたご質問へ回答する Q & A も収録されています。なお、セッションごとの動画をまとめたプレイリストも公開しています。

また、各スピーカーによるおすすめの Google I/O'19 動画も、こちらのプレイリストよりご覧ください。

デベロッパーの皆さまがさらにより良いサービス・アプリを開発するヒントとなりましたら幸いです。

Posted by Tomoko Tanaka - Developer Product Marketing Manager, Google Play

「特別な瞬間」をとらえる Google フォトの動画分析技術

2019年6月3日月曜日

この記事は Sudheendra Vijayanarasimhan、David Ross による Google AI Blog の記事 "Capturing Special Video Moments with Google Photos" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。

投稿者: ソフトウェアエンジニア、Sudheendra Vijayanarasimhan、David Ross

記念すべき出来事の動画を撮影して友だちや家族と共有するのは、いまや当たり前になりました。しかしたくさんの動画をお持ちの方ならわかるように、動画の生データをすべて見直してから家族や友だちと共有したりするのはとても時間がかかります。Google フォトを使うと、この作業が楽になります。動画の中の特別な瞬間（子供がロウソクを吹き消す、友だちがプールに飛び込むなど）を自動的に探し、友だちや家族と簡単に共有できるアニメーションを作成してくれるからです。

このタスクを自動化するには、非常に多様な入力データから行動を特定して分類するという複雑な課題に対処しなければなりません。私たちは、ある行動が行われている動画内の正確な場所を特定する方法を改善することで、それを部分的に可能にしました。その詳細は「Rethinking the Faster R-CNN Architecture for Temporal Action Localization」という論文に記載しています。ここで示した時系列行動検出ネットワーク（TALNet）は、Faster R-CNN ネットワークなどの領域ベースの物体検知手法から着想を得ています。さまざまな長さの行動を検出でき、他の手法と比べても最高水準のパフォーマンスを達成しています。このTALNet により、Google フォトは動画の中から友だちや家族との共有に最もふさわしい部分を提案できるようになりました。

「ロウソクを吹き消す」行動を検知した例

モデル学習に用いる行動の特定
動画内の特別な瞬間を特定するためにまず必要なことは、人が注目しそうな行動のリストを作ることです。行動の例としては、「バースデーケーキのロウソクを吹き消す」「ボウリングのストライク」「猫がしっぽを揺らす」などが考えられます。次に、大規模な学習データを作るため、公開されている多数の動画を対象に、特別な行動が起きている部分のラベル付けをクラウドソーシングしました。評価者には、複数の瞬間を捉えた動画も含め、すべての瞬間を見つけてラベルを付けることを依頼しました。このラベル付けで得られたデータセットを使い、任意の動画に含まれる行動を検出できるモデルの学習を行いました。

物体検知との比較
このような行動認識の問題は、時系列行動検出（Temporal Action Localization）と呼ばれるコンピュータビジョンの研究分野のひとつで、よく知られている物体検知と同じく画像認識技術に分類されます。

物体検知の目的は、2 次元画像に含まれる個々の物体の境界を検出することです。一方で、時系列行動検出は、動画フレームからなる 1 次元のシーケンスにおいて、個々の行動を含む時間範囲を検出します。未編集の長い動画が入力されたとき、動画全体の中でそれぞれの行動が起きている場所について、その開始時間と終了時間、そして行動のラベル（「ロウソクを吹き消す」など）を返します。

TALNet のアプローチは、2 次元画像用の物体検知のフレームワークである Faster R-CNN にヒントを得たものです。そこで、TALNet の詳しい説明の前に Faster R-CNN の仕組みを簡単に紹介しましょう。

下の図は、Faster R-CNN アーキテクチャによる物体検知の仕組みです。最初の手順は、候補となる物体と、分類に使う画像上の領域を特定することです。これを行うため、まず畳み込みニューラルネットワーク（CNN）を使って入力画像を 2 次元の特徴マップに変換します。次に、領域提案ネットワークが候補となる物体のまわりに境界ボックスを生成します。一般画像に含まれるさまざまな大きさの物体を検出できるように、複数の大きさの境界ボックスを生成します。候補となる物体を特定したら、次にディープニューラルネットワーク（DNN）を使って境界ボックス内の対象物を「人」「自転車」などの特定の物体に分類します。これが、Faster R-CNN のメカニズムです。

物体検知のための Faster R-CNN アーキテクチャ

時系列行動検出
時系列行動検出も、R-CNN と同様の方法で実現できます。まず、動画の入力フレームのシーケンスを、シーン状況をエンコードした 1 次元の特徴マップのシーケンスに変換します。このマップはセグメント提案ネットワークに渡され、そこから行動の開始時間と終了時間を示す「セグメント」の候補が生成されます。

次に、別の DNN がデータセットから学習した表現を使って、候補となるセグメントで起きている行動を分類します（例: 「スラムダンク」「パス」など）。それぞれのセグメントで検出された行動には、学習した表現に基づいて重みが割り当てられます。そして、最もスコアの高い行動が選ばれ、ユーザーに共有されます。

時系列行動検出のアーキテクチャ

時系列行動検出についての特別な配慮
時系列行動検出は物体検知問題の 1 次元版と考えることもできますが、行動検出ならではの問題がたくさんあるので、それらに注意深く対処しなければなりません。中でも、Faster R-CNN のアプローチを行動検出に適用するにあたり、以下の 3 つの問題に対処するためアーキテクチャを再設計しています。

さまざまな長さの行動がある
行動がどのくらいの時間続くのかは、1 秒に満たないものから数分にわたって続くものまで、大きく異なります。長時間にわたる行動の場合、行動の個々のフレームを理解することは重要ではありません。それよりも、拡張時系列畳み込み（Dilated Temporal Convolution）を使って動画の全体をざっと眺める方が、行動の検出に役立ちます。TALNet はこのアプローチを採用しており、特定の拡張率に基づいてフレームを飛ばしながら動画から時系列のパターンを検索します。元のセグメントの長さに応じて自動的に選択された何種類かのフレームレートで動画を分析することで、動画全体に及ぶ行動か一瞬で起きる行動かを問わず、効率的に行動を特定できます。
行動の前後の状況が重要
行動が起きる直前と直後の瞬間には、行動を抽出して分類する際にとても重要になる情報が含まれています。これは、物体の空間的配置よりも重要だと言えるかもしれません。そこで、候補となるセグメントの長さを一定の割合だけ左右に拡張することで、時系列のコンテキストを明示的にエンコードします。これは、提案生成ステージと分類ステージの両方で行います。
マルチモーダル入力による行動の特定
行動は、見た目や動作だけでなく、場合によっては音声情報でも特徴づけられます。よって最適な結果を得るにはマルチモーダル性が重要となります。そこで、提案生成ネットワークと分類ネットワークの両方に対してレイトフュージョン（late fusion）方式を使います。つまり、どちらのネットワークにも、モダリティ（画像や音声）ごとに提案生成ネットワークがあり、その出力を組み合わせて最終的な候補群を取得します。候補群は、それぞれのモダリティでそれぞれの分類ネットワークを使って分類します。その後、平均をとって最終的な予測を導きます。

TALNet の実際
以上の改善を行った結果、TALNet は THUMOS'14 検知ベンチマークの行動の提案タスクと抽出タスクの両方で最高水準のパフォーマンスを達成し、ActivityNet チャレンジでも優秀なパフォーマンスを実現しています。現在、ユーザーが Google フォトに動画を保存するたびに、TALNet モデルが行動を検出して共有用のアニメーションを作成しています。初期のテストユーザーが共有した行動の例をいくつか紹介します。

「すべり台をすべる」行動を検出した例

「プールに飛び込む」（左）、「ドレスを着て回る」（中央）、「スプーンで赤ちゃんに食べさせる」（右）の各行動を検出した例

次のステップ
現在は、さらに多くのデータや特徴、モデルを使って行動抽出の精度と再現率を向上させる作業を続けています。時系列行動検出の改善は、動画ハイライトの作成、動画の要約や検索など、たくさんの重要な技術の進展につながります。今後もこの領域で最高水準を誇るネットワークの改善を続けると同時に、ユーザーのさまざまな思い出を振り返ってもらえる方法を提供したいと考えています。

謝辞
プロジェクトに大きな貢献を果たしてくださった Tim Novikoff と Yu-Wei Chao、そして Bryan Seybold、Lily Kharevych、Siyu Gu、Tracy Gu、Tracy Utley、Yael Marzan、Jingyu Cui、Balakrishnan Varadarajan、Paul Natsev の各氏に特別な感謝を捧げます。

Reviewed by Kaz Sato - Staff Developer Advocate, Google Cloud

[Google I/O Extended: Recap Live Japan 2019] でYouTube Live配信を行います

2019年5月31日金曜日

Google I/O 2019 で発表されたコンテンツから、日本のデベロッパー様へ向けて最新技術とビジネスの情報を発信する、Google I/O Extended: Recap Live Japan 2019 の YouTube Live 配信を行います。

YouTube Live を通して、Google デベロッパーアドボケイトがお伝えする情報を広くお届けするとともに、さらに、Twitterでハッシュタグ #RecapLiveJP がついた投稿からピックアップした皆さまからの質問に直接お答えいたします。

なお、万全を期して望みますが、機器や回線の状況によりYouTube Live の配信ができない場合もございます。その際はご理解くださいますようお願いいたします。

YouTube Live 配信スケジュール：

日時：6 月 7 日（金） 16 時 30 分 - 18 時 30 分（予定）
配信 URL：こちらよりご覧いただけます。

プログラム：

オープニング：松内良介 / パートナーデベロッパーアドボケイト
Android & Google Play：荒木佑一 / デベロッパープログラムエンジニア
Gaming：松田白朗 / デベロッパーアドボケイト
Firebase & ML Kit：Khanh LeViet / デベロッパーアドボケイト
ML & AI：佐藤一憲 / スタッフデベロッパーアドボケイト, Cloud Platform
Design：鈴木拓生 / デベロッパーリレーションズプログラムマネージャー
Web & Chrome：えーじ / デベロッパーアドボケイト
Q & A：松内良介 / パートナーデベロッパーアドボケイト

*プログラムは予告なく変更になることがあります。

Posted by Tomoko Tanaka - Developer Product Marketing Manager, Google Play

ディープラーニングを使ってモバイル端末のユーザビリティを改善する

2019年5月30日木曜日

この記事は Yang Li による Google AI Blog の記事 "Using Deep Learning to Improve Usability on Mobile Devices" を元に翻訳・加筆したものです。詳しくは元記事をご覧ください。

投稿者: Google AI リサーチサイエンティスト、Yang Li

モバイルのインターフェースで最もよく使われるジェスチャーはタップです。アプリの起動からテキストの入力まで、あらゆる種類の操作を呼び出すために使われます。従来の PC のグラフィックユーザーインターフェースでは、クリック可能な要素（例: ボタン）のスタイルはある程度決まっていました。しかし、モバイルのインターフェースには実に多様なスタイルがあるので、タップできる要素とタップできない要素を見分けるのは難しくなっています。その難しさは、間違ったアフォーダンス（例: ボタンと間違われるような表現）や機能の見つけにくさにつながり、さらにはユーザーの不満や不安、間違いにつながる可能性があります。インターフェースのデザイナーは、これを避けるために調査したり、視覚的な意味合いを調べるためのテストを行ったりして、インターフェース上の項目がタップできるかどうかをわかりやすくしようとしています。しかし、そのような調査には時間がかかり、そこで判明した事実も特定のアプリやインターフェースのデザインに限定されます。

私たちの CHI'19 の論文「Modeling Mobile Interface Tappability Using Crowdsourcing and Deep Learning」（クラウドソーシングとディープラーニングを使ってモバイルインターフェースのタップ可能性をモデリングする）では、モバイルインターフェースのユーザビリティを大規模にモデリングするアプローチについて紹介しています。まず、さまざまなモバイルアプリの UI 要素を調査し、ユーザーがタップできると感じるかどうかを測定する作業をクラウドソーシングしました。モデルによる予測は、最大 90% のレベルでユーザーグループの予測と一致しました。この結果は、費用も時間もかかるユーザーによるテストを行わなくても、機械学習モデルを使ってデザイン内のインターフェース要素の感覚的なタップ可能性を効率的に推定できることを示しています。

ディープラーニングでタップ可能性を予測する
多くの場合、デザイナーはインターフェースが操作できることを表すために、要素の色や立体感などの視覚特性を使います。青字で下線の付いたリンクはその一例です。こういったよく使われる表現は便利ですが、特定のデザインの中で利用した場合、常にわかりやすいものになるとは限りません。さらに、デザインのトレンドの進化とともに、従来からの表現方法も常に変化し刷新されるので、不確実さや間違いの原因になる可能性もあります。

ユーザーがこの変化する環境をどのように知覚するかを理解するため、実際のモバイルアプリのタップ可能性に影響しうる表現方法について分析しました。具体的には、要素の種類（例: チェックボックス、テキストボックスなど）、場所、大きさ、色、文字です。最初に行ったのは、最大 3,500 個のアプリから抽出した最大 2 万個の重複しないインターフェース要素について、タップできると感じるかどうかをクラウドソーシングのボランティアにラベル付けしてもらうことでした。テキストボックスを除けば、ユーザーは種類による表現をほぼ確実にタップできるものと考えました。場所による表現とは、要素の画面上の場所のことです。この情報は、モバイルアプリの一般的なレイアウトデザインから得ることができます。下の図をご覧ください。

場所ごとにタップできる要素とタップできない要素の精度を表したヒートマップ。赤くなるほど精度が高い。要素をタップできないとラベル付けしたユーザーの精度は、インターフェースの上中央に近づくほど上がる。要素をタップできるとラベル付けしたユーザーの精度は、インターフェースの下中央に近づくほど上がる。

要素の大きさによる影響はかなり少ないものの、タップできない大きな要素があると混乱を生む可能性があることがわかりました。ユーザーは、色が明るく文字数が少ないほどタップできる要素ととらえる傾向を示しましたが、文字の意味合いもタップできるかどうかの判断に大きな影響を与えていました。

これらのラベルを利用して、簡単なディープニューラルネットワークをトレーニングしました。このネットワークは、ユーザーがインターフェース要素をタップできると感じるかタップできないと感じるかの可能性を予測するものです。このモデルは、インターフェースのある要素に対して、画面上の要素の空間的状況（場所）、要素の意味や機能（文字や種類）、見た目（大きさやピクセルの生データ）などのさまざまな特徴を使います。ニューラルネットワークモデルは、ピクセルの生データから特徴を抽出するために畳み込みニューラルネットワーク（CNN）を利用し、テキストの内容や要素の特性を表現するために要素の意味について学習させた埋め込み（embedding）を使います。その後、これらの特徴を組み合わせたものを全結合ネットワーク層に入力し、その出力として、要素がタップできるかを表す二値分類を生成します。

モデルの評価
このモデルを使うと、各インターフェース要素がタップできるかどうかについて、デベロッパーやデザイナーが指定した実際の（または意図した）要素の状態が、ユーザーの感覚（モデルの予測結果）とずれている部分を自動的に診断できます。次の例では、モデルは 73% の確率でユーザーが "Followers" や "Following" などのラベルをタップできると考えると予測しています。しかし実際は、これらのインターフェース要素はタップできるようにプログラムされていません。

人間のユーザーと比べた際のモデルの動作について、とりわけ人間の判断があいまいになる場合について理解するため、2,000 個の重複しないインターフェース要素がタップできると感じるかどうかをクラウドソーシングで 290 人のボランティアにラベル付けしてもらい、もう 1 つの独立したデータセットを作成しました。ここでは、1 つの要素を、5 人のユーザーがそれぞれラベル付けしました。その結果、サンプルの 40% 以上の要素に異なるラベルが付いたことがわかりました。次の図に示すように、この不確定性の部分でも、モデルと人間の感覚はかなり一致しています。

同じデータセットの各要素について、モデルが予測したタップできる可能性（Y 軸）と、人間のユーザーによるラベルの一致度合い（X 軸）でプロットした散布図。

要素がタップできるかどうかについてユーザーの意見が一致している場合、モデルも明確な答えを出す傾向にあります。つまり、ユーザーがタップできると判断したものは 1 に近い確率を、タップできないと判断したものは 0 に近い確率を出すことが多くなっています。人間の意見が一致していない要素（X 軸の真ん中に近いもの）は、モデルの判断も不確かになります。全体では、タップできる UI 要素を特定することにおいて、モデルは人間の感覚にかなり近い精度を実現できました。具体的には、平均の精度は 90.2% で、再現率は 87.0% でした。

タップ可能性の予測は、ユーザーインターフェースのユーザビリティの問題を解決するために機械学習を使ってできることの一例に過ぎません。インタラクションのデザインやユーザーエクスペリエンスの研究には、多くの難題があります。ディープラーニングのモデルは、ユーザーエクスペリエンスに関する大規模で多様なデータセットを精製し、インタラクションの動作について科学的な理解を進める手段を提供してくれます。

謝辞
この研究は、Google の夏季インターンである Amanda Swangson 氏と、ディープラーニングおよびヒューマンコンピュータインタラクションのリサーチサイエンティストである Yang Li 氏が共同で行いました。

Reviewed by Hak Matsuda - Developer Relations Team

6 月 7 日に [Google I/O Extended: Recap Live Japan 2019] を開催します

2019年5月17日金曜日

5 月 7 日から 9 日にかけ、米国カリフォルニア州マウンテンビューで Google I/O 2019 が開催されました。数ある I/O のコンテンツから、Google Play チームは、有益な最新技術とビジネスの情報を約 2 時間に厳選してお伝えする Google I/O Extended: Recap Live Japan 2019 を 6 月 7 日 16 時 30 分より行います。

セッションは、Google デベロッパーアドボケイトが日本語でお伝えし、さらに、皆さまからの質問に直接お答えいたします。なお、当イベントの内容は、アプリ、ゲームを開発 / 運営されているデベロッパー様を対象としております。

本イベントへの申し込み、詳細につきましてはこちらのサイトをご覧ください。

スケジュール：

日時：6 月 7 日（金） 16 時 30 分 - 21 時 00 分（予定）*
場所：グーグル東京オフィス（六本木ヒルズ）
最寄駅：六本木
内容：セッションと懇親会 *

プログラム*：

オープニング：松内良介 / パートナーデベロッパーアドボケイト
Android & Google Play：荒木佑一 / デベロッパープログラムエンジニア
Firebase & ML Kit：Khanh LeViet / デベロッパーアドボケイト
ML & AI：佐藤一憲 / スタッフデベロッパーアドボケイト, Cloud Platform
Design：鈴木拓生 / デベロッパーリレーションズプログラムマネージャー
Web & Chrome：えーじ / デベロッパーアドボケイト
Gaming：松田白朗 / デベロッパーアドボケイト
Q & A：松内良介 / パートナーデベロッパーアドボケイト
懇親会

*プログラムは予告なく変更になることがあります。

Posted by Tomoko Tanaka - Developer Product Marketing Manager, Google Play

Gemini API デベロッパーコンペティションで未来に向けたアプリ開発を

PaLM API & MakerSuite：ジェネレーティブ AI アプリケーションのスムーズなプロトタイピングと構築を可能にする開発ツール

Google I/O 2021: 大事な場面で役に立つこと

Google Developers ML Summit 開催〜最新の Google Cloud AI や機械学習の活用〜

11 Weeks of Android: Android の各種オンデバイス機械学習ツール

設計 - 差別化のための ML

オンデバイスに完全フォーカスした新しい ML Kit

TensorFlow Lite と Android ツールによるカスタマイズ

今こそオンデバイス ML の時代

機械学習の関連情報

Google Tokyo Campus で AI スタートアップにフォーカスしたアクセラレータープログラムを開始します。本日より募集開始

EfficientNet: モデルスケーリングと AutoML で最高精度を達成した Google の画像認識技術

Google の AutoML が KaggleDays での表形式データのコンペで第 2 位に

セッション動画およびQAを公開しました [Google I/O Extended: Recap Live Japan 2019]

「特別な瞬間」をとらえる Google フォトの動画分析技術

[Google I/O Extended: Recap Live Japan 2019] でYouTube Live配信を行います

YouTube Live 配信スケジュール：

プログラム：

ディープラーニングを使ってモバイル端末のユーザビリティを改善する

6 月 7 日に [Google I/O Extended: Recap Live Japan 2019] を開催します

ラベル

ブログアーカイブ

Feed

設計 - 差別化のための ML

オンデバイスに完全フォーカスした新しい ML Kit

TensorFlow Lite と Android ツールによるカスタマイズ

今こそオンデバイス ML の時代

機械学習の関連情報

YouTube Live 配信スケジュール：

プログラム：

ラベル

ブログ アーカイブ

Feed

ブログアーカイブ