使用 Google Cloud 控制台创建 Dataproc 集群

本页面介绍如何使用 Google Cloud 控制台创建 Dataproc 集群、在该集群中运行基本的 Apache Spark 作业,以及修改该集群中的工作器数量。


如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示

操作演示


准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 启用 Dataproc API。

    启用 API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. 确保您的 Google Cloud 项目已启用结算功能

  7. 启用 Dataproc API。

    启用 API

创建集群

  1. 在 Google Cloud 控制台中,转到 Dataproc 集群页面。

    转到集群

  2. 点击创建集群

  3. 创建 Dataproc 集群对话框中,点击 Cluster on Compute Engine 行中的创建

  4. 集群名称字段中,输入 example-cluster

  5. 区域可用区列表中,选择区域和可用区。

    选择一个区域(例如 us-east1europe-west1)以隔离该区域中的资源,例如虚拟机 (VM) 实例、Cloud Storage 和元数据存储位置。如需了解详情,请参阅可用的区域和可用区以及区域端点

  6. 对于所有其他选项,请使用默认设置。

  7. 如需创建集群,请点击创建

    您的新集群将显示在集群页面上的列表中。在集群准备好投入使用之前,状态为配置,然后状态会更改为运行。配置集群可能需要几分钟的时间。

提交 Spark 作业

提交估算 Pi 值的 Spark 作业:

  1. 在 Dataproc 导航菜单中,点击作业
  2. 作业页面上,点击 提交作业,然后执行以下操作:

    1. 集群字段中,点击浏览
    2. example-cluster 对应的行中,点击选择
    3. 作业 ID 字段中,使用默认设置,或提供您 Google Cloud 项目独有的 ID。
    4. 对于作业类型,请选择 Spark
    5. 主类或 Jar 字段中,输入 org.apache.spark.examples.SparkPi
    6. Jar 文件字段中,输入 file:///usr/lib/spark/examples/jars/spark-examples.jar
    7. 参数字段中,输入 1000 以设置任务数量。

    8. 点击提交

      您的作业将显示在作业详情页面上。作业状态为正在运行正在启动,然后在提交后更改为成功

      为避免在输出中滚动,请点击换行:关闭。输出内容如下所示:

      Pi is roughly 3.1416759514167594
      

      如需查看作业详情,请点击配置标签页。

更新集群

通过更改工作器实例的数量来更新集群:

  1. 在导航菜单中,点击 集群
  2. 在集群列表中,点击 example-cluster
  3. 集群详情页面上,点击配置标签页

    此时将显示您的集群设置。

  4. 点击 修改

  5. 工作器节点字段中,输入 5

  6. 点击保存

您的集群现在已更新。要将工作器节点的数量减少为原始值,请按照相同的过程操作。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

  1. example-cluster集群详情页面上,点击 删除以删除集群。
  2. 如需确认要删除集群,请点击删除

后续步骤