10万+,超大规模人手交互视频数据集!面向可泛化机器人操作|CVPR 2025
新智元 新智元 新智元报道 编辑:LRST【新智元导读】香港中文大学(深圳)的研究团队发布TASTE-Rob数据集,含100856个精准匹配语言指令的交互视频,助力机器人通过模仿学习提升操作泛化能力。团队还开发三阶段视频生成流程,优化手部姿态,显著提升视频真实感和机器人操作准确度。随着具身智能的不断发展,机器人操作...
2025-04-25
5秒完成3D生成,合成数据集已开源,上交港中文框架超越Instant3D
他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型。这个框架能够自动生成任意数量的高质量的多视角图片数据,助力多视图扩散模型的训练。
2024-06-09
R语言马尔可夫区制转移模型Markov regime switching
本文简要介绍了一种简单的状态转移模型,该模型构成了隐马尔可夫模型(HMM)的特例。这些模型拟合时间序列数据中的非平稳性。从应用的角度来看,这些模型在评估经济/市场状态时非常有用。这里的讨论主要围绕使用这些模型的科学性。
2022-01-11
数字孪生心脏全球首次实现0.84秒超实时模拟!智源突破计算极限,180倍性能提升
新智元 新智元 新智元报道 编辑:编辑部 HYZ【新智元导读】突破计算极限,智源研究院开发出实时3D模拟数字孪生心脏仿真系统。这一划时代技术突破,将为心脏疾病临床诊疗开启精确模拟的全新纪元。心脏,作为重要器官之一,其功能正常与否直接影响人类的生命延续。电生理特性反映了心脏的健康和疾病状态。心脏电生理活动...
2024-11-28
NeurIPS 2021 | 物体检测与分割的零标签视觉学习
编者按:随着自监督学习的研究逐步深入,迁移学习的范式已经广泛应用于视觉学习的各个领域,大量的视觉任务都通过使用自监督预训练和有监督微调的方式来部署任务。而微软亚洲研究院的研究员们希望打破这一范式,在 NeurIPS 2021 发表的论文中,研究员们提出了一个可以从无标签视频中学习物体检测和分割的模型,使得自监...
2021-12-03
给AI一张高清照片,分分钟还你细节满满的3D人体模型,GitHub标星3.6k | 在线可玩
手动对人体进行3D建模并非易事。但现在,只给AI一张高清照片,它还真就能分分钟搞定这件事。甚至还挺高清,衣服褶皱、面部表情,细节一点不少。这项新研究来自南加州大学和Facebook,中选CVPR 2020。并且已经在GitHub上开源,标星3.6k,还在一天内就涨了207颗星,登上GitHub热榜。一起来看看,这究竟是如何实现的。多级...
2020-11-07
1p-frac:已开源,仅用单张分形图片即可媲美ImageNet的预训练效果 | ECCV 2024
分形几何是一个数学分支,主要应用于作图方面。一般来说,分形经过无数次递归迭代后的结果。比如取一条线段,抹去中间的三分之一,会得到长度是原三分之一长的两条线段,中间隔着相同长度的间隙。然后重复这个动作,直到所有的线段都被抹掉,就将会得到被以固定模式出现的间隙隔开的无限多的点,这就是康托尔集合。目前...
2024-09-04
图像视频压缩:深度学习,有一套
Ballé1 提出了一种基于变分自编码器的端到端图像压缩模型,采用结合边信息(side information)的超先验的方案。模型如下图所示。
MindSpore分类指标之准确率、AUC/ROC详解(一)
本文将详细的介绍一下在教程中的图片分类项目为什么要用准确率(Accuracy)来作为评价指标。使用准确率(Accuracy)的时候,数据需要满足那些条件。
2022-01-25
终于有人把各路StyleGAN做了个大汇总 | Reddit超热
其实只通过预训练和潜空间上的一点小操作,就可以让StyleGAN直接上手各种“活儿”,包括全景图生成、从单张图像生成、特征插值、图像到图像翻译等等。
2021-11-15
一文读懂深度学习:从神经元到BERT
阿里妹导读:自然语言处理领域的殿堂标志 BERT 并非横空出世,背后有它的发展原理。今天,蚂蚁金服财富对话算法团队整理对比了深度学习模型在自然语言处理领域的发展历程。从简易的神经元到当前最复杂的BERT模型,深入浅出地介绍了深度学习在 NLP 领域进展,并结合工业界给出了未来的 NLP 的应用方向,相信读完这篇文章...
LSTM(长短期记忆网络)
在上篇文章一文看尽RNN(循环神经网络)中,我们对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long Short-Term Memory),它可以避免常规RNN的梯度消失,因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。
2020-03-20
没有绿幕,AI也能完美视频抠图,发丝毕现,毫无违和感 | CVPR
在阳台上给小姐姐拍个视频:再把她P到喷泉广场:需要几步?现在,无需绿幕,AI 就能搞定这件事。就像这样,随便用手机给小姐姐拍张照片,再在同一地点拍张不带人像的背景图。深度神经网络就能自动分析出 alpha 遮罩和前景色,把小姐姐的发丝都抠得根根分明。视频也是如此。让憋着笑的同事在实验室白板前表演一段广播体操...
2020-04-08
别再卷数据了,LLM也怕「过劳死」!CMU等揭秘灾难性过度训练
新智元 新智元 新智元报道 编辑:KingHZ【新智元导读】颠覆LLM预训练认知:预训练token数越多,模型越难调!CMU、斯坦福、哈佛、普林斯顿等四大名校提出灾难性过度训练。如果训练数据越多那么LLM越好。这到底对不对?不对!这就是「灾难性过度训练」现象。图1:经过高强度预训练的语言模型,可能出现「灾难性过度训练...
2025-05-03
【视频】ARIMA时间序列模型原理和R语言ARIMAX预测实现案例
ARIMA是可以拟合时间序列数据的模型,根据自身的过去值(即自身的滞后和滞后的预测误差)“解释” 给定的时间序列,因此可以使用方程式预测未来价值。任何具有模式且不是随机白噪声的“非季节性"时间序列都可以使用ARIMA模型进行建模。
2023-06-13
CycleGan实现图像转换
1873年的一个春日,在阿让特伊的塞纳河畔,莫奈用纤细的笔触和明亮的调色板记录下了眼前塞纳河畔美丽的田园风光。我们不免想象如果当时有相机的话,会留下一张怎样的照片呢。在一个凉爽的夏日傍晚,面对卡西斯港口的美丽景色,我们拿起相机时是否又会想象莫奈会如何来记录眼前的此番景象呢。尽管我们没有看到莫奈画作的...
2019-09-18
KDD 2019论文解读:多分类下的模型可解释性
日前,由阿里巴巴研究型实习生张雪舟、蚂蚁金服高级算法专家娄寅撰写的论文《Axiomatic Interpretability for Multiclass Additive Models》入选全球数据挖掘顶级会议KDD 2019,本文为该论文的详细解读。论文地址:[链接]
2019-08-26