解析机器学习中的数据漂移问题

2023-02-06
阅读 9 分钟
1.5k
编者按:当模型在生产中呈现的输入与训练期间提供的分布不对应时,通常会发生数据漂移。Vatsal P.的这篇文章,介绍了如何通过漂移指标直观了解数据漂移程度,并n通过一个使用合成数据的例子来展示如何利用Python计算数据随时间的漂移指标。以下是译文,Enjoy!
封面图

AIGC神器CLIP:技术详解及应用示例

2023-01-15
阅读 9 分钟
4.6k
编者按:上一期,我们介绍了Diffusion模型的发展历程、核心原理及其对AIGC发展的推动作用。本期,我们将共同走进另一项AI重要突破——CLIP,著名的DALLE和Stable Diffusion均采用了CLIP哦。
封面图

AI 2022:浪潮奔涌,百舸争流

2022-12-26
阅读 3 分钟
998
编者按:2022年已接近尾声,但技术的发展永不落幕。许多人说,2022是生成式AI的一年。这一年里,我们见证了Stable Diffusion和DALL-E2等AI图像编辑/绘画工具的爆发,也目睹了ChatGPT狂热席卷全球。但AI技术和产业的发展,远不仅仅是聚光灯下的生成式AI / AIGC 可以全权代表的。我们为大家精选了三篇相对全面客观的深度回...
封面图

Transformer:让ChatGPT站在肩膀上的巨人?

2022-12-19
阅读 5 分钟
2.2k
编者按:ChatGPT以近乎狂热之势席卷了全网。在沉浸于“ChatGPT潮”的同时,让我们也来深入了解一下它和基石技术 - 大模型 Transformer吧。Dale Markowitz的这篇文章为我们深入浅出地介绍了Transformer的重要性、创新性、应用领域等。以下是译文,Enjoy!
封面图

超参数优化完整指南

2022-12-12
阅读 6 分钟
2k
编者按:今天为大家带来的一份超全的超参数调优指南,可谓一文在手,超参数调优无敌手。本文主要介绍了超参数调优的基本概念、常用方法和算法,以及超参数调优的工具推荐。小编温馨提示,全文阅读预计需要20-30分钟,可以先收藏哦!话不多说,开启超参数调优之旅吧,Enjoy!
封面图

理解DALL·E 2, Stable Diffusion和 Midjourney工作原理

2022-12-05
阅读 4 分钟
3.6k
编者按:随着AIGC的兴起,各位小伙伴们对文生图工具DALL-E 2、Stable Diffusion和Midjourney一定并不陌生。本期IDP Inspiration,小白将和大家一同走进这三者背后的技术原理,一探究竟。以下是译文,Enjoy!
封面图

卡塔尔世界杯中用到了哪些AI技术?

2022-12-04
阅读 3 分钟
1k
在卡塔尔多哈的974体育场前,足球迷在一个巨大的世界杯奖杯复制品旁合影。人工智能将是今年比赛的一个重要组成部分。(David Gannon/AFP/Getty Images)
封面图

联通DataOps和MLOps:将机器学习推理作为新的数据源

2022-11-30
阅读 4 分钟
1.2k
编者按:随着大数据和AI的关注重点转向工程化和能效,DataOps和MLOps逐渐兴起。DataOps侧重于提高数据分析质量、缩短数据交付周期,MLOps侧重于快速交付AI模型。数据是AI开发生产的重要元素,在数据驱动的AI时代,割裂的DataOps和MLOps是否依然能满足企业数据挖掘和AI应用的需求? 带着这个疑问,IDP和大家一起跟随资深AI...
封面图

常用AI/机器学习模型可解释技术与工具

2022-11-30
阅读 6 分钟
1.6k
编者按:随着AI模型日益复杂,模型可解释的重要性和挑战日益凸显。通过模型可解释,可以指导特征工程的优化、检测偏差、增强模型使用者对模型的可信度。Anaconda资深数据科学家Sophia Yang总结了8种模型可解释常用技术和工具,对其主要特征进行了概述。以下是译文,Enjoy!
封面图

走进一款新的文生图模型 - Nvidia eDiff-I

2022-11-29
阅读 4 分钟
2.3k
编者按:AIGC(AI生成内容)目前正处于爆发前夜。在前几期的IDP Inspirtation,我们曾经介绍过大语言模型GPT-3,图像编辑模型Imagic和Runway Erase and Replace。本期,让我们跟随Victor Dey一起走进Nvidia的文生图模型eDiff-I,并一起探讨生成式AI的现状挑战和未来前景。以下是译文,Enjoy!
封面图

一文详解AI模型部署策略

2022-11-22
阅读 4 分钟
2.1k
编者按:模型部署是AI开发生产流程中的重要步骤。对于许多组织而言,选择最佳的模型部署策略以扩展到生产级系统,都是一项复杂且具有挑战的工作。今天IDP将和大家一同,跟随Yashawi Nayak,全面了解模型部署策略。“这篇文章是为那些想了解ML模型如何在生产中部署以及在部署这些模型时可以使用什么策略的人准备的。本文将...
封面图

基于高效采样算法的时序图神经网络系统 (二)

2022-09-19
阅读 2 分钟
1.9k
现有的图数据规模极大,导致时序图神经网络的训练需要格外长的时间,因此使用多GPU进行训练变得成为尤为重要,如何有效地将多GPU用于时序图神经网络训练成为一个非常重要的研究议题。本文提供了两种方式来提高多GPU训练的性能,包括局部性感知的数据划分策略以及高效的任务调度策略。
封面图

一文读懂数据科学 Notebook

2022-09-03
阅读 3 分钟
1.7k
【编者按:本文主要介绍什么是 Notebook,Notebook 在数据科学领域的应用的重要性与优势,以及数据科学家/算法团队在选择 Notebook 时需考虑哪些关键因素。同时,基于 Notebook 的筛选考量维度,对常见的 Notebook 进初步对比分析,为数据科学家、算法工程师提供参考。】
封面图

Notebook在复现数据科学研究成果中的丝滑使用

2022-06-13
阅读 3 分钟
1.5k
IDP中提供自研notebook交互式编程环境,它非常适合做数据分析与代码展示,主要功能包括:智能开发、自适配环境、一键运行、一键连接数据源、各种其他平台工具集成、可视化工作流管理等等。
封面图

叮咚!请查收来自一线数据科学家和大数据工程师的实战经验| IDP Meetup No.02 回顾

2022-04-20
阅读 2 分钟
1.3k
4 月 16 日我们举行了 IDP Meetup No.02,邀请到领先互联网企业的一线数据科学家和大数据工程师——腾讯赵喜生和领先金融科技公司李峰,分别从个性化推荐场景和大数据处理的角度分享 AI 开发生产平台在其日常工作中的实践和经验。同时,白海科技联合创始人兼技术负责人刘喆与大家探讨了编程辅助功能及其在 IDP 中的实现。
封面图

如何成为更好的AI专业人员?请查收这7条实战经验

2022-04-12
阅读 4 分钟
1.2k
在从事机器学习、人工智能和开发工作近六年后,我列出了我多年来从成功和失败的项目中总结的七条经验教训。最核心的一点是,尽管学习了无数的模型和技术,一名高效、专业的数据科学家和算法工程师要学会尽可能避免复杂性。毕竟真正驱动商业价值的是对紧迫问题的有效解决,而非盲目追求最先进的技术。
封面图

由 Figma 封停大疆,看国产 IDE 如何应对与突围?

2022-03-16
阅读 3 分钟
5k
3 月 12 日,UI 设计协作工具软件 Figma 封停大疆,中国企业使用国际软件的不确定性加剧。UI 设计工具的禁用是否只是开端?目前被国际软件和开源工具垄断的 IDE(集成开发环境)是否将成为下一个封停对象?
封面图

这场汇聚行业顶级大咖的 Meetup,有哪些不容错过的干货?| IDP Meetup 01 亮点回顾

2022-03-10
阅读 4 分钟
1.3k
2022 年 3 月 5 日,首次 IDP Meetup 成功举办。此次 IDP Meetup 以“AI 开发生产平台及其共荣生态”为主题,6 位业界顶级大咖汇聚一堂,与关注、热爱 AI 和基础技术的极客们共创了一场精彩的知识盛宴。
封面图

IDP 深度 | 企业到底需要何种数据分析挖掘工具?

2022-02-22
阅读 4 分钟
1.6k
随着大数据技术的发展,商业智能(BI, Business Intelligence)和大数据技术之间的边界逐渐模糊。许多 BI 工具在提供行业定制应用方案时也开始融入大数据和 AI 技术。这也给很多企业在选择数据分析工具时带来了困扰——BI 工具与 IDP 这类灵活的数据分析挖掘及 AI 开发工具是否可以相互替代?
封面图

AI冬奥 | 未来已来?走进元宇宙入口-虚拟数字人

2022-02-14
阅读 4 分钟
1.6k
2022年2月4日,冬奥会正式开幕。在开幕式及冬奥会赛事进程中,人工智能、5G、AR、裸眼3D和云等多种硬科技大显神通。其中,作为元宇宙场景入口和连接纽带的虚拟数字人技术尤为引人注目。本次冬奥会的手语主播和气象主播均为虚拟数字人。
封面图

使用CodeMirror打造数据科学家使用的IDE(一)

2022-01-24
阅读 4 分钟
2.9k
CodeMirror是一个用 JavaScript 实现的通用文本编辑器,它专门用于代码编辑,内置多种开发语言模式和插件,支持代码高亮、自动补全、查找、快捷键等。
封面图

AI开发平台系列2:集成式机器学习平台对比分析

2022-01-20
阅读 4 分钟
3.5k
【编者按:在上一期中,我们介绍了算法开发平台的发展背景和驱动力,算法开发平台的主要分类——集成式机器学习平台和AI基础软件平台,以及算法开发平台的核心价值。在本期的分享中,我们将上期所提到的云厂商集成式机器学习平台进行功能和技术的具体分析和对比】
封面图

AI开发平台系列1:AI开发平台“家族”概览

2022-01-14
阅读 4 分钟
3.2k
【编者按:AI技术蓬勃发展,已逐渐渗透进国民经济的各行各业。但企业在AI技术的应用仍面临数据、算法、技术等方面的挑战,需专业AI开发与计算工具帮助企业降低AI应用门槛,加速创新。在此趋势下,AI开发平台纷纷涌现。白海科技将通过系列文章,梳理典型AI开发平台,并对其技术与功能进行对比分析,为广大企业与行业伙伴...
封面图