多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。然而,一个关键问题仍然值得追问:多模态大模型(MLLMs),真的能“看懂图”了吗?特别是在面对结构复杂、细节密集的图像时,它们是否具备细粒度视觉理解与空间推理能力,比如挑战一下高清地铁图这种。为此,来自西湖...
2025-06-07
一个有效的图表图像数据提取框架
在本文中,作者通过采用最先进的计算机视觉技术,在数据挖掘系统的数据提取阶段,填补了研究的空白。如图1所示,该阶段包含两个子任务,即绘制元素检测和数据转换。为了建立一个鲁棒的Box detector,作者综合比较了不同的基于深度学习的方法,并找到了一种合适的高精度的边框检测方法。为了建立鲁棒point detector,采用...
2023-03-30
可智能生成刺绣图案!武汉纺织大学可视计算与数字纺织团队发布首个多缝线刺绣生成对抗网络模型,被顶级期刊 TVCG 录用
绣成安向春园里,引得黄莺下柳条。作为非物质文化遗产的重要代表,我国的刺绣艺术历史悠久、技艺精湛,工匠通过不同的针脚、各色的丝线,将主题丰富的图案活灵活现地展示于一方绣布之上。过去,刺绣工艺复杂、门槛极高,需要有专业知识与实践经验的工匠才能完成。近年来,卷积神经网络 (CNN) 在图像分类、目标检测、图像...
2024-09-23
国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet
又一个国产多模态大模型开源!XVERSE-V,来自元象,还是同样的无条件免费商用。此前元象曾率先发布国内规模最大的开源大模型,如今开源家族系列又多了一个。最新的多模态大模型支持任意宽高比图像输入,在主流评测中保持着效果领先——在多项权威多模态评测中,XVERSE-V超过零一万物Yi-VL-34B、面壁智能OmniLMM-12B及深度...
2024-04-28
单张图像就可以训练GAN!Adobe改良图像生成方法 | 已开源
数据集太小了,无法训练GAN?试试从单个图像入手吧。去年谷歌就提出了SinGAN,是第一个拿GAN在单幅自然图像学习的非条件生成模型(ICCV 2019最佳论文)。而最近,来自Adobe和汉堡大学的研究人员,对这个方法做了改进,探讨了几种让GAN在单幅图像提高训练和生成能力的机制。研究人员将改进的模型称作ConSinGAN。那么,先来...
2020-03-30
原型设计工具介绍-01-moqups 介绍
拓展阅读常见免费开源绘图工具OmniGraffle 创建精确、美观图形的工具UML-架构图入门介绍 starUMLUML 绘制工具 starUML 入门介绍PlantUML 是绘制 uml 的一个开源项目UML 等常见图绘制工具绘图工具 draw.io / diagrams.net 免费在线图表编辑器绘图工具 excalidraw 介绍绘图工具 GoJS 介绍 绘图 js原型设计工具介绍-01-moqu...
2024-04-08
Matlab创建向量自回归(VAR)模型分析消费者价格指数 (CPI) 和失业率时间序列
varm 对象的关键组成部分 包括时间序列的数量和多元自回归多项式 ( p )的阶数,因为它们完全指定了模型结构。其他模型组件包括将相同的外生预测变量与每个序列相关联的回归成分,以及常数和时间趋势项。
2021-11-18
机器学习理论与实践的交融
摘要:概率统计在机器学习领域中扮演着至关重要的角色,它是数据分析和预测模型构建的基础。本文旨在深入探讨机器学习中的概率统计理论,分析其在数据预处理、模型构建、参数估计以及模型评估等环节中的应用,并结合实际案例,阐述概率统计如何助力机器学习模型性能的提升。
2024-07-04
「DeepSeek-V3 技术解析」:DeepSeek-V3-Base 预训练阶段解析
编者按: 这篇技术解析详细阐述了 DeepSeek-V3-Base 的预训练阶段所采用的关键技术。文章重点介绍了三项核心技术:Document Packing 技术有效解决了输入序列长度差异导致的资源浪费问题;Fill-in-the-Middle(FIM)采用 PSM 框架和特殊 tokens,使模型具备上下文感知的中间内容生成能力;基于 YaRN 的长上下文窗口扩展技...
2025-04-21
基于异构图的大规模微服务系统性能问题诊断
简介:本文介绍由南开大学、清华大学、腾讯、国家超级计算天津中心共同合作的论文:基于异构图的大规模微服务系统性能问题诊断。该论文已被IEEE Transactions on Services Computing期刊录用论文标题:Diagnosing Performance Issues for Large-Scale Microservice Systems with Heterogeneous Graph
2024-05-22
在Python中使用LSTM和PyTorch进行时间序列预测|附代码数据
最近我们被客户要求撰写关于LSTM的研究报告,包括一些图形和统计输出。顾名思义,时间序列数据是一种随时间变化的数据类型。例如,24小时内的温度,一个月内各种产品的价格,一年中特定公司的股票价格
2023-10-13
在Python中使用LSTM和PyTorch进行时间序列预测|附代码数据
最近我们被客户要求撰写关于LSTM的研究报告,包括一些图形和统计输出。顾名思义,时间序列数据是一种随时间变化的数据类型。例如,24小时内的温度,一个月内各种产品的价格,一年中特定公司的股票价格
2024-06-12
仅需文本或图像精准编辑3D场景,CustomNeRF入选CVPR 2024
美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3D场景编辑方法——CustomNeRF,同时支持文本描述和参考图像作为3D场景的编辑提示,该研究成果已被CVPR 2024接收。
2024-04-09
Python深度学习之图像识别
Python在机器学习(人工智能,AI)方面有着很大的优势。谈到人工智能,一般也会谈到其实现的语言Python。前面有几讲也是关于机器学习在图像识别中的应用。今天再来讲一个关于运用google的深度学习框架tensorflow和keras进行训练深度神经网络,并对未知图像进行预测。
2019-11-21
Python机器学习算法KNN、MLP、NB、LR助力油气钻井大数据提速参数优选及模型构建研究
随着机器学习和大数据分析技术的发展,帮助客户进行油气行业数字化转型势在必行,钻井提速参数优选呈现由经验驱动、逻辑驱动向数据驱动转变的趋势。机械钻速最大化、机械比能最小化是钻井过程中常考虑的双目标,有利于提高钻头破岩能量利用率、降低非生产时间和钻井成本,而提速预测模型与钻井参数的优选是核心痛点。
2024-12-17
Eviews用向量自回归模型VAR实证分析公路交通通车里程与经济发展GDP协整关系时间序列数据和脉冲响应可视化
河源市是国务院1988年1月7日批准设立的地级市,为了深入研究河源市公路交通与经济发展的关系,本文选取了1988-2014年河源市建市以来24年的地区生产总值(GDP)和公路通车里程(GL)的时间序列数据,其中公路通车里程(GL)用来反映河源市公路交通发展状况,地区生产总值(GDP)反映河源市的经济增长状况。为了消取数据...
2022-07-21
ICASSP 2024|字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题
在本届ICASSP 2024 各类音频国际挑战赛中,字节跳动流媒体音频团队联合西北工业大学音频语音与语言处理研究实验室,在丢包补偿(Packet Loss Concealment, PLC)与音质修复(Speech Signal Improvement, SSI)两个挑战赛道中,多项指标上表现优秀,分别取得第一和第二的成绩,达到国际领先水平。
2024-01-06