在 Dataflow 中使用自定义容器
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
您可以通过提供自定义容器映像来自定义 Dataflow 流水线中用户代码的运行时环境。使用 Dataflow Runner v2 的流水线支持自定义容器。
当 Dataflow 启动工作器虚拟机时,它会使用 Docker 容器映像在工作器上启动容器化的 SDK 进程。默认情况下,流水线使用预构建的 Apache Beam 映像。但是,您可以为 Dataflow 作业提供自定义容器映像。您指定自定义容器映像后,Dataflow 会启动拉取指定映像的工作器。
出于以下原因,您可能会使用自定义容器:
- 预安装流水线依赖项以减少工作器启动时间。
- 预安装公共代码库中不可用的流水线依赖项。
- 停用对公共代码库的访问权限时预安装流水线依赖项。出于安全考虑,系统可能会关闭访问权限。
- 预先准备大型文件以减少工作器启动时间。
- 在后台启动第三方软件。
- 自定义执行环境。
如需详细了解 Apache Beam 中的自定义容器,请参阅 Apache Beam 自定义容器指南。如需查看使用自定义容器的 Python 流水线示例,请参阅 Dataflow 自定义容器。
后续步骤
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2023-12-23。
[{
"type": "thumb-down",
"id": "hardToUnderstand",
"label":"Hard to understand"
},{
"type": "thumb-down",
"id": "incorrectInformationOrSampleCode",
"label":"Incorrect information or sample code"
},{
"type": "thumb-down",
"id": "missingTheInformationSamplesINeed",
"label":"Missing the information/samples I need"
},{
"type": "thumb-down",
"id": "translationIssue",
"label":"翻译问题"
},{
"type": "thumb-down",
"id": "otherDown",
"label":"其他"
}]
[{
"type": "thumb-up",
"id": "easyToUnderstand",
"label":"易于理解"
},{
"type": "thumb-up",
"id": "solvedMyProblem",
"label":"解决了我的问题"
},{
"type": "thumb-up",
"id": "otherUp",
"label":"其他"
}]