自动化数据管道：在 Cloudera 中使用大语言模型生成 PySpark 和 SQL 作业

发布于 2025-05-12

主要观点：随着生成式 AI 和大语言模型（LLM）的兴起，数据工程师和分析师可将自然语言直接转化为 PySpark 或 SQL 作业，通过将 LLM 集成到 Cloudera 机器学习（CML）并在 Cloudera 数据工程（CDE）上以 Iceberg 表格式执行工作负载，可加速数据管道开发、改善协作并简化大规模分析访问。

关键信息：

Cloudera 是用于安全数据管理、高级分析和大规模机器学习的混合数据平台，其核心组件包括 CDE、CML、CDW、CDF、SDX 和 Apache Iceberg。
LLM 如 GPT 等通过预训练、微调、提示和输出生成等阶段工作，可在 Cloudera 中用于翻译自然语言到代码等。
实施步骤包括设置环境（CML、CDE、Iceberg 表、SDX）、部署预训练 LLM、构建提示工程逻辑、构建自然语言输入界面、提交作业到 CDE 执行、监控作业和日志、应用治理（Ranger + Atlas），以及利用 Iceberg 的时间旅行功能。
该工作流程的好处包括更快的价值实现、民主化的数据访问、可重用性和扩展性、内置的治理等。

重要细节：

CML 需创建工作区和会话，配置虚拟集群等；CDE 要安装 CLI 工具等。
示例代码展示了如何设置模型、构建提示模板及生成代码等。
可使用 Streamlit 或 Flask 构建自然语言输入界面。
CDE 可通过 CLI 或 API 提交和运行作业，同时提供日志监控等功能。
SDX 可用于访问控制、 lineage 跟踪和审计日志等。
Iceberg 表支持时间旅行功能，可查询特定时间点的快照。

阅读 69