用 AI 理解 2.2 亿次航班

  • 人物与公司:Todd Mostak 是 HEAVY.AI 的 CTO 和联合创始人,该公司生产 AI 驱动的 GPU 数据库和可视化软件,曾以 MapD 和 OmniSci 品牌进行交易。
  • Todd 的经历:2000 年代末至 2010 年代初在叙利亚和埃及学习阿拉伯语,还是一位有成就的 C++开发者和 Nvidia CUDA 语言的早期采用者,利用这些技能在阿拉伯之春期间构建了可分析推特上大量数据的 GPU 数据库。2013 年回到加利福尼亚并推出 MapD,如今公司有 50 名员工,软件销售良好,客户使用其产品分析数百亿条记录。
  • HeavyAI 的产品与功能

    • Large Language Model(LLM):一种能理解英语并根据用户提示生成 SQL 的 AI,已训练出可在 HeavyDB(GPU 加速数据库)上执行 SQL 并在 Immerse(仪表盘和可视化环境)中可视化结果的先进 LLM,还能解释查询结果,支持多种语言,如俄语、西班牙语和意大利语,有免费版本可安装在自己的基础设施上,购买许可证后模型在自己的基础设施内运行,可在隔离环境中运行。
    • 在云端的超级计算机:使用 AWS g5.12xlarge 实例(运行 Ubuntu 22.04.4 LTS,有 48 vCPUs 和 192GB RAM 及近 4TB NVMe 支持存储,搭载 4 个 Nvidia A10G Tensor Core GPU)下载并分析美国联邦航空管理局(FAA)和美国运输统计局(BTS)四十年的飞机飞行数据,HEAVY.AI 是 GPU 加速的,能充分利用这些显卡。
  • 数据加载与处理流程

    • 安装 Docker 和相关 CLI 工具,如 csvjson、docker.io、docker-compose、jq 等,创建 ~/miniconda3 目录并下载安装 Miniconda3,更新 conda 环境,创建 flights 虚拟环境并安装 requests、heavyai、boto3 等包,创建用于预览数据集的 BASH 函数。
    • 下载 FAA 的 Aircraft Registration Database 等数据集,如 MASTER.txt、ENGINE.txt、ACFTREF.txt、T_MASTER_CORD.csv 等,对 BTS 的 Unique Carrier Codes 数据集等进行下载和处理,提取 OnTime 数据集的感兴趣列,将数据加载到 HEAVY.AI 中,包括创建 flights 数据库、加载不同数据集的表并进行数据清洗、转换和丰富操作,如添加列、更新数据、删除无用列、添加注释等。
  • 查询 HeavyIQ:通过 SSH 连接 AWS 实例设置隧道,在浏览器中打开 [http://127.0.0.1:8001/flights...],使用 HeavyIQ 生成 SQL 并执行查询,如展示因天气原因取消的航班百分比、Delta 航空公司的到达延迟直方图、各主要航空公司的平均飞行时间等,Immerse 可视化系统还能展示查询结果的各种图表和值分布。
  • 服务与联系:作者提供咨询和动手开发服务,面向北美和欧洲客户,可通过LinkedIn联系。
阅读 12
0 条评论