随着AI技术的飞速发展,企业对数据科学和 AI 的战略价值有了更深刻的认识。然而,在实际应用过程中,如何从庞大的数据中提炼价值,并将其转化为驱动业务决策的关键力量,依然是许多企业面临的重大挑战。传统的数据处理方式常常受限于数据孤岛的存在、对非结构化数据的处理能力不足、模型与业务场景难以匹配等问题,严重制约了数据的应用与创新。为了解决这些难题,企业迫切需要一个能够降低技术使用门槛的数据科学与 AI 一体化开发平台,帮助他们快速落地与迭代场景应用,更快、更好地释放数据价值。在此背景下,酷克数据秉承“DB for AI”的先进理念,推出了 HashData 数智一体化平台,结合自研的 HashML一站式数据科学与 AI 开发工具箱,将数据库技术与大模型、机器学习、深度学习等技术融合,助力企业更高效地开发数据智能应用,释放数据的最大价值,从而推动业务创新与增长。01HashData 数智一体化平台:突破传统架构的创新设计作为一款综合性平台,HashData 数智一体化平台集数据处理、分析、挖掘与智能应用于一体,以化繁为简、赋能创新为设计理念,致力于为企业提供一站式数据智能解决方案。
平台核心由 HashData MPP 计算引擎和 HashData AI 计算引擎双引擎构成,两大计算引擎共享对象存储层,有效缩短了数据处理链路,消除了传统数据迁移和转换环节,使得数据从存储到分析的链路大大简化,整体效率显著提升,加速了 Data+AI 的协同创新。此外,平台还实现了非结构化数据的统一管理和智能处理,打通了数据采集、管理与处理的全流程,确保数据高效流转与智能分析。同时,平台具备强大的语料智能加工能力,为知识库的构建和 AI 模型的优化提供了坚实的数据支撑与技术保障。02HashML 一站式数据科学与 AI 开发工具箱基于 HashData AI 计算引擎,酷克数据研发了 HashML,一款集数据科学与 AI 开发于一体的全方位工具箱。HashML 的架构设计上,涵盖了数据、模型、服务与应用的完整链路,为用户提供了从开发到部署的全流程支持。
在计算层面,HashML 继承了 HashData 的分布式计算框架,具备强大的任务并行计算能力,确保高性能计算支持。在数据访问层面,HashML 通过统一抽象的数据库操作接口,兼容用户熟悉的 Python 风格,大幅降低了学习和使用的门槛。在模型算法层面,HashML 集成了丰富的 AI 算法和模型,能够满足多种应用场景的需求。模型部署方面,HashML 支持多实例弹性部署,并提供 REST API 接口,简化了从机器学习、深度学习到大语言模型的服务部署,用户仅需通过简短代码即可完成。
同时,HashML 还提供标准化智能应用套件,包括 HashML Platform(数据科学与 AI 开发平台)、HashML KB(多模态知识库)、HashML OmniFile(非结构化数据并行处理)、HashML ReChat(检索增强的智能问答系统)、HashML ChatData (智能问数系统)、HashML Search(多模态文档搜索系统)等组件。面向数据科学家、数据工程师和 AI 应用开发者,HashML 大幅降低了 AI 技术的使用门槛,帮助企业在应用开发、知识管理、数据整合、AI 赋能、业务效率提升及数据安全等方面解决关键挑战。
HashML Platform:数据科学与 AI 开发平台让建模与训练可视化、易管理、好上手HashML Platform 是一款面向数据科学与人工智能开发的综合平台,集成了丰富的功能模块,帮助用户轻松实现从数据准备到模型开发的全流程管理。平台提供以下核心能力:
可视化建模:提供了直观的可视化开发环境,让数据预处理、特征选择与模型训练等操作变得简单易行。Notebook 建模:内嵌专业 Notebook 开发环境,支持 Python 代码灵活编写与调试,满足高级开发者的个性化需求。丰富算法模型库:集成丰富的算法和 AI 模型,支持自定义扩展,即选即用,便捷加速业务场景迭代开发与落地。
HashML OmniFile:非结构化数据并行处理让LLM训练与微调更快速、更简单HashML OmniFile 支持多格式非结构化数据(如 PDF、DOCX、JPEG 等)的并行处理,流程包括数据导入到对象存储,生成 HashData 目录表(Directory Table)作为元数据索引,进行文档解析以提取结构化信息,构建知识库或生成模型训练样本,并结合 RAG 实现检索增强生成(如问答系统)或模型训练微调,为 BI 或 AI 应用提供高效的数据支持。
多格式支持:兼容多种非结构化数据格式(如 PDF、DOCX、TXT、HTML、JPEG、PNG、MP4 等),满足多样化数据处理需求。高效数据管理:通过对象存储与 HashData 目录表,实现对大规模非结构化数据的高效存储与元数据索引管理。强大的解析能力:支持文档内容和结构的深度解析,为下游 AI 应用提供高质量数据基础。全流程覆盖:涵盖数据的导入、解析、存储、建模及应用,形成完整的非结构化数据处理闭环。HashML KB:专属的多模态知识库智能存储与精准检索,海量文档轻松管理HashML KB 知识库是一款集高效存储、智能检索、语义理解和自动化处理于一体的全方位文档管理平台,集成业内领先的非结构化数据处理技术、大语言模型以及语义分析技术,不仅能够实现海量文档的集中存储与高效管理,还具备强大的智能检索、语义理解和自动化处理能力。帮助企业轻松应对文档管理挑战,释放数据潜力,驱动业务创新。
高效存储:原生支持向量数据类型,同表存储原始数据与向量数据,简化数据管理流程;分布式存储能力,轻松应对海量数据扩展需求。智能检索:向量检索功能支持精准搜索与近似搜索,多种距离度量方式适配复杂检索场景;全文检索、混合检索与二次精排能力,提升检索结果的相关性与准确性。高性能索引:集成 IVF 索引、HNSW 索引与全文倒排索引等多种技术方案,实现更极致性能。HashML ReChat:检索增强的智能问答系统让企业拥有量身定制的 AI 工作助手HashML ReChat 是基于 LLM Agent 技术构建的复杂场景智能对话引擎,能够充分释放大模型的潜力,通过会话理解和问题改写增强多轮交互,提升问答的精准度与效率。同时融合了知识库问答、文档问答、表格问答等多种技术,满足复杂问答业务场景的需求。
精准语义理解:深入理解用户提问的语义,支持复杂查询和模糊查询,提高问答系统的灵活性和适应性。智能文档解析:多元化文档解析器,支持多种文档格式解析,输出半结构化数据;定制化专业文档解析,确保解析内容的语义精准与完整。多维语义检索:融合向量检索与全文检索优势,构建混合检索模型;自适应检索策略优化,根据用户行为和反馈动态调整结果排序。智能答案生成与评估:基于大模型生成自然语言答案,支持答案的生成与评估;提供答案推荐和婉拒机制,确保问答的准确性和相关性。高效会话管理:支持多轮会话管理,根据会话上下文理解用户提问;提供问题路由和业务相关性判断,确保问题准确分配。HashML ChatData:智能问数系统让数据分析更简单,决策更轻松ChatData 智能问数系统,集成了 Text2SQL 大语言模型以及 HashData 云原生数据仓库的强大数据处理能力,实现了大模型驱动的从自然语言问题到精准 SQL 查询的智能化转换,为企业数据驱动决策提供了有力支持。
自然语言交互:用户可通过简单的自然语言提问,系统自动将其转化为高效的SQL查询语句;支持多样化的提问类型,灵活应对用户复杂的数据查询需求,降低使用门槛。智能数据可视化:查询结果可自动转化为直观的图表展示,支持柱状图、折线图、饼图等多种图表类型;系统根据用户意图和数据特点,智能推荐最合适的可视化组件,帮助用户快速洞察数据价值。智能表列筛选:系统自动从海量数据表和复杂结构中精准筛选出与问题相关的表与列,仅提供必要的上下文信息,显著提升模型推理效率,并确保生成的SQL精准解答用户问题。开放式数据探索:用户可自由提出各类数据查询问题,系统将智能解析问题意图,自动选择单表或多表关联,并生成高效准确的SQL查询语句,为用户提供所需数据。HashML Search:智能搜索系统让企业拥有专属的智能搜索引擎HashML Search 是一款强大的智能搜索系统,深度集成了先进的大模型技术与高效的向量搜索能力,旨在为用户提供一个快速、精准的信息检索平台。无论是处理文本数据、图片数据,还是更加复杂的视频数据,HashML Search 都能游刃有余地应对。此外,HashML Search 还支持搜索结果的自动摘要功能,能够根据用户的需求和偏好,生成更加智能化、个性化的摘要信息,让用户在海量数据中迅速抓住重点,提升信息获取的效率与体验。
高效性:利用 HashML 框架优化数据存储和检索过程,提高搜索速度和效率。精准性:通过向量搜索和大模型技术,实现基于语义的精准匹配,提升搜索结果的准确性。智能化:集成大型预训练语言模型,支持自动摘要和生成答案,提供智能化的知识服务。可扩展性:系统架构设计灵活,支持轻松扩展新的数据类型、搜索算法和功能模块。个性化:根据用户行为分析,提供个性化的搜索结果推荐,增强用户粘性。
凭借卓越的技术实力和广泛的场景适用性,HashML智能产品家族已在金融、政务、运营商、交通、能源等多个行业部署投产。在AI助手智能对话场景中,HashML实现了对各类资源的精准查询与高效分析,显著提升了服务效率;在智能语料管理领域,它能够灵活处理各类结构化和非结构化数据,为语料管理奠定了坚实基础;在智能问数系统中,HashML凭借自然语言交互技术,实时查询并呈现关键数据,为科学决策提供了有力支撑;在AIGC应用场景下,HashML实现了营销素材的智能化创作,有力促进了业务转化。03结 语HashData数智一体化平台及HashML一站式数据科学与AI开发工具箱的推出,不仅极大地降低了企业使用数据科学与AI技术的门槛,还显著提升了数据处理的效率和智能应用的开发速度。酷克数据的技术解决方案正在助力各行各业的企业实现数据价值的最大化,让数据科学与 AI 深度融入业务场景,创造实实在在的业务价值。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。