English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
日本語
한국어

联系我们免费开始使用吧

使用 Google Cloud 控制台创建 Dataproc 集群

本页面介绍如何使用 Google Cloud 控制台创建 Dataproc 集群、在该集群中运行基本的 Apache Spark 作业，以及修改该集群中的工作器数量。

如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导，请点击操作演示：

准备工作

登录您的 Google Cloud 账号。如果您是 Google Cloud 新手，请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金，用于运行、测试和部署工作负载。

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

确保您的 Google Cloud 项目已启用结算功能。

启用 Dataproc API。

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

确保您的 Google Cloud 项目已启用结算功能。

启用 Dataproc API。

创建集群

在 Google Cloud 控制台中，转到 Dataproc 集群页面。

转到集群
点击创建集群。
在创建 Dataproc 集群对话框中，点击 Cluster on Compute Engine 行中的创建。
在集群名称字段中，输入 example-cluster。
在区域和可用区列表中，选择区域和可用区。

选择一个区域（例如 us-east1 或 europe-west1）以隔离该区域中的资源，例如虚拟机 (VM) 实例、Cloud Storage 和元数据存储位置。如需了解详情，请参阅可用的区域和可用区以及区域端点。
对于所有其他选项，请使用默认设置。
如需创建集群，请点击创建。

您的新集群将显示在集群页面上的列表中。在集群准备好投入使用之前，状态为配置，然后状态会更改为运行。配置集群可能需要几分钟的时间。

提交 Spark 作业

提交估算 Pi 值的 Spark 作业：

在 Dataproc 导航菜单中，点击作业。
在作业页面上，点击 提交作业，然后执行以下操作：
1. 在集群字段中，点击浏览。
2. 在 example-cluster 对应的行中，点击选择。
3. 在作业 ID 字段中，使用默认设置，或提供您 Google Cloud 项目独有的 ID。
4. 对于作业类型，请选择 Spark。
5. 在主类或 Jar 字段中，输入 org.apache.spark.examples.SparkPi。
6. 在 Jar 文件字段中，输入 file:///usr/lib/spark/examples/jars/spark-examples.jar。
7. 在参数字段中，输入 1000 以设置任务数量。
  
  注意：Spark 作业使用 Monte Carlo 方法估算 Pi。它在坐标平面上生成 x,y 点，该坐标平面可为由单位正方形包围的圆建模。xx输入参数 (1000) 决定要生成的 x,y 对的数量；生成的数量越多，估算的准确性就越高。此估算使用 Dataproc 工作器节点执行并行计算。如需了解详情，请参阅使用 Monte Carlo 方法估算 Pi 以及 GitHub 上的 JavaSparkPi.java。
8. 点击提交。
  
  您的作业将显示在作业详情页面上。作业状态为正在运行或正在启动，然后在提交后更改为成功。
  
  为避免在输出中滚动，请点击换行：关闭。输出内容如下所示：
```
Pi is roughly 3.1416759514167594
```
  如需查看作业详情，请点击配置标签页。

更新集群

通过更改工作器实例的数量来更新集群：

在导航菜单中，点击集群。
在集群列表中，点击 example-cluster。
在集群详情页面上，点击配置标签页

此时将显示您的集群设置。
点击修改。
在工作器节点字段中，输入 5。
点击保存。

您的集群现在已更新。要将工作器节点的数量减少为原始值，请按照相同的过程操作。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用，请按照以下步骤操作。

在 example-cluster 的集群详情页面上，点击删除以删除集群。
如需确认要删除集群，请点击删除。

后续步骤

使用其他工具尝试本快速入门：
- 使用 API Explorer。
- 使用 Google Cloud CLI。
了解如何在创建项目时创建强大的防火墙规则。
了解如何编写和运行 Spark Scala 作业。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2024-06-29。