相关词

  1. 数据分析
  2. 多模态
  3. 大模型
  4. agent
  5. openai
  6. deepseek

前言

不管是学生还是科研人员还是职场人士,处理和分析文件已成为当今时代的日常。面对堆积如山的 txt、pdf、word 等各类文档,如何高效提取关键信息?今天,笔者尝试了市面上 5 款顶尖 AI 工具,分别测试文件识别以及数据分析能力,感兴趣的话欢迎阅读~

参赛选手

  1. DeepSeek:美股杀手,国产 AI 新锐,包含 V3 和 R1 两个版本
  2. 豆包:字节跳动旗下 AI 产品,提供多种分析模式
  3. Gemini Pro:谷歌推出的高性能 AI,2.5 Pro 版本表现突出
  4. Grok 3:埃隆·马斯克旗下 xAI 开发的 AI 系统
  5. Claude Pro:以强大编码能力著称的 Anthropic 旗舰模型

比赛环境与方法

  • 数据类型:两份 txt 文件,一份是 67Kb 的视频信息汇总文件,一份是 4kb 的字幕文件
  • 数据内容:两份数据都是小电视站的视频文本版,包含视频基础信息、视频描述、视频评论、视频弹幕、视频字幕等。
  • 操作步骤:单次对话中同时发送提示词和视频汇总文件。
  • 测评规则:在最少时间内输出最多有效信息。
  • 测试机配置:大约 100 兆网络。
  • 提示词:同样一份提示词,要求按指定步骤来分析最后进行汇总

评分规则

  1. 响应速度:从提交请求到完成输出的时间
  2. 成本效益:免费/付费模式下的性价比
  3. 内容准确度:信息提取的精确程度
  4. 指令遵循:对提示词要求的执行情况
  5. 可视化呈现:分析结果的表现形式

比赛实录

71kb 文件数据分析

解析视频为:《4 个可以让你性张力拉满的肢体语言,同样的话,不同的肢体语言,感觉会完全不同》

1.Deepseek

首先上场的是曾经的美股杀手,国产之光。

👆 V3

👆 R1

可以看到在 相同提示词情况下,V3 输出较为普通,并且有崩图的现象,而 R1 因为是推理模型,会自己给自己加戏,并且这几天有了一次优化更新,所以输出的内容看起来更广,看起来也更舒服。

综合评分:★★★★☆(4.5/5)

R1 思考时间不到一分钟,总输出时间在 两分钟内,文件内容读取准确,步骤一到步骤五都按要求生成了,可视化方面也聪明的使用了 markdown 来显示,已经超出笔者预料了,并且生态好、中文语料多、免费镜像站多、使用成本低。

豆包

豆包官方写着有三个模式,常规模式,深度思考模式,同时还提供了一个数据分析模式,由于篇幅问题,笔者这次只放深度思考模式和数据分析模式的(常规模式效果不咋地)。

👆开了深度思考

👆数据分析模式

综合评分:★★☆(2.5/5)

勉勉强强,数据分析模式还没深度思考模式输出的好,试了几次都有图裂的问题,可视化做得一般般,对比上面的 deepseek 差点意思。

Gemini

由于 Gemini 2.5 Flash 表现太差,单次输出内容太少了,这里只放 2.5 Pro 的对话,同时因为笔者领了会员,所以测的是付费版本,在算力方面比其他选手有先天优势。

👆Gemini 2.5 Pro

👆Gemini 2.5 Pro 深度研究模式

实在是恐怖,我们的Gemini2.5 Pro 选手开了深度研究模式后,直接生成了一份 41 页 6000Kb+ 的报告,虽然上面常规 Gemini2.5 Pro 已经不错了,但这样一对比,简直被吊打,笔者猜测单从内容方面看,将会吊打本次所有参赛选手,不过生成耗费的时间也是最高的,已经有 12 分钟以上了,比视频时长还长。

比较适合科研党使用,对生成报告感兴趣的,可以点击下面链接自行查看无密码 👇

《视频内容深度分析与商业化》报告链接

综合评分:★★★☆(3.5/5)

虽然深度研究很猛,但对于笔者来说日常用不上这种重量级功能,并且此次使用的是付费版本,按厂商惯例,免费版性能起码减低 30% 或进行限流,所以使用成本可能偏高,要是性能没差别,可以恢复到 4★。

Grok

算是冷门点的平台,然后笔者没有开 grok 的会员,所以本次测试只测了免费版。

👆常规模式

👆深度思考模式

可能是没付费的原因,笔者感觉 grok 这 agent 深度思考一通后,效果还没常规模式好,并且因为长推理导致了一定程度的提示词忽视,连图表都没生成,但常规模式的生成非常全面。

综合评分:★★★★☆(4.5/5)

常规模式很不错,生成时间很快,并且能同时保持质量,可视化做得也可以,多模态做得很 ok,然后该有的功能都有,免费版性能非常够用,整体体验还算满意。

Claude Pro

作为目前最强的代码模型,我们来看看做数据分析又是什么水平。(此为付费版本)

👆 Claude Opu4

👆Claude Opu4 深度思考

不出意料,先不论分析出来的内容准不准确,起码可视化吊打其他选手,但就日常分析使用来说,笔者觉得有点花里胡哨了。

综合评分:★★★(3/5)

数据读的不是很准,免费版文件体积限制太严重,几十 kb 的文件传过去都显示超出,并且没有深度思考,不过要分析的步骤也没漏,可视化是顶级水平。

总结

日常视频的分析推荐 deepseek 和 grok 常规模式组合使用,前者中文语料充足,R1 在识别小规模数据时很少出错;后者文件识别很可以,支持上传的文件体积非常大,能做数据量更大的分析,同时默认支持网络搜索功能。

科研首选 Gemini pro,首月免费,学生免年费,超长上下文处理能力、学术规范输出格式、深度文献分析能力等都很突出,但不要用 2.5 flash 模型,性能惨不忍睹。

豆包那几个模式的性能和体验都有待提高。

Claude 免费版的性能太弱了,而且就算买了 pro 版,用高性能模型也有限流,在高频访问时就不大够用了,目前作用的最多的应该还是代码领域。

PS: 仅代表笔者个人想法,娱乐向,非专业测评

本文由mdnice多平台发布


三_清
113 声望1 粉丝