头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、英伟达推出 Eagle 系列模型,能处理高达 1024×1024 像素分辨率的图像

英伟达最近推出的 Eagle 多模态大语言模型在 AI 领域引起了广泛关注。这个模型在视觉问答和文档理解等任务上取得了显著进展,是多模态 AI 领域的一个重要里程碑。Eagle 模型的关键创新之一是其能够处理高达 1024×1024 像素分辨率的图像,这使得它在光学字符识别和精细物体识别等任务中能够捕捉到微小的细节。这种高分辨率处理能力为医疗影像分析、卫星图像解读等多个应用领域带来了新的可能性。

Eagle 采用了多专家视觉编码器架构,集成了多个专门的视觉编码器,每个编码器都针对物体检测、文本识别、图像分割等特定任务进行了专门训练,从而实现了全面和深入的图像理解。研究团队发现,将一组互补视觉编码器的视觉标记连接起来,与更复杂的混合架构或策略一样有效。

Eagle 模型的应用前景广阔,可以用于提升法律、金融、医疗行业的文档处理效率,电子商务行业的产品搜索和推荐系统的准确性,支持教育领域更先进的数字学习工具,以及开发无障碍技术领域的辅助技术。研究人员已经将 Eagle 开源,发布了完整的代码和模型权重,以推动 AI 生态系统的发展。(@DeepTech 深科技)

2、1X Technologies 发布全新一代家务机器人 NEO 原型,动作丝滑逼近人类

OpenAI 押注的初创公司 1X Technologies 正式宣布,最新的通用家务机器人 NEO beta 测试版上线。NEO 身高 5 英尺 5 英寸,大概 1 米 65,体重 30 公斤,步行速度 2.5 英里 / 小时(1.12 m/s),跑步速度 7.5 英里 / 小时(3.35 m/s),NEO 专为做家务而设计,能够穿衣服并完成家务任务,如泡咖啡、拿起物品等。可以承重 20 公斤,运行时间可达 2 到 4 个小时。

NEO 的设计目标是在安全性和实际性能之间取得平衡,采用类似人体肌腱的柔性驱动技术和串联弹性驱动器,使其在与人类的互动中更加安全。此外,NEO 还集成了 AI 技能,能够在家庭环境中学习和适应,其训练过程允许非专业人员参与。1X 团队计划将之前的 EVE 机器人经验迁移到 NEO 上,并预计到 2027 年,机器人将在各个领域变得 「足够智能」。据悉,NEO 的 CEO Bernt Børnich 和 AI 副总裁 Eric Jang 对 NEO 的技术细节进行了揭秘,并表示 NEO 计划最快今年内发售,价格将努力控制在经济型小汽车的水平。(@雷锋网)

3、Kotaemon:一个开源、干净且可定制的 RAG UI 可以于与你的文档聊天

Kotaemon 是一个基于检索增强生成(RAG)的开源工具,旨在实现与文档对话的功能。该工具为最终用户和开发者提供了一个干净且可定制的 UI,使用户能够在自己的文档上进行问答,并允许开发者构建自己的 RAG 管道。

特点:

  • RAG : 基于 RAG 能从文档中检索信息并生成答案。
  • 多模型支持 :包括 OpenAI、Azure OpenAI、Cohere,及本地模型等。
  • 用户界面 :提供了一个功能丰富、可定制的用户界面,可以轻松与文档交互。
  • 可定制 :可根据需求调整设置,包括检索和生成过程的配置等。
  • 多模态支持 :支持对包含图表和表格的多模态文档进行问答。
  • 复杂问题处理 :支持复杂推理方法,比如问题分解和基于代理的推理等。

(@GitHub宝典)

4、斯坦福、NYU 用 GPT-4 模仿人类,高精度复制社会科学实验

斯坦福和 NYU 的一项研究发现,GPT-4 能够很好地模拟人类,高精度地复制社会科学实验。

研究者通过向 AI 提供人口统计特征和实验刺激,模拟了 1 万名「AI 人」的反应,生成了社会科学实验报告。结果显示,AI 的预测准确性在 70 项研究中与实际观察结果高度一致,甚至超过了人类专家。研究还发现,尽管训练数据存在不平等,AI 预测的准确性在不同亚组间仍具有可比性。这项研究为低成本、快速的社会科学实验提供了可能。(@腾讯科技)

5、中国科学院开发出基于语义记忆的动态神经网络:相比静态最高减少 48.1% 计算量

中国科学院微电子研究所等将人工神经网络与大脑的动态可重构性相结合,开发出基于语义记忆的动态神经网络。

大脑神经网络具有复杂的语义记忆和动态连接性,可将不断变化的输入与庞大记忆中的经验联系起来,高效执行复杂多变的任务。

目前,人工智能系统广泛应用的神经网络模型多是静态的。随着数据量不断增长,它在传统数字计算系统中产生大量能耗和时间开销,难以适应外界环境的变化。

与静态网络相比,语义记忆动态神经网络能够根据计算资源权衡识别准确性和计算效率,可在资源受限设备或分布式计算环境中展现出色的性能。

在对 2D 图像数据集 MNIST 和 3D 点云数据集 ModelNet 的分类任务中,该设计实现了与软件相当的准确率,相比于静态神经网络减少了 48.1% 和 15.9% 的计算量,相比传统数字硬件系统降低了计算能耗。(@IT 之家)

02 有态度的观点

1、微软副总裁 Vik Singh:AI 聊天机器人需「学会求助」而非「制造幻觉」

微软公司副总裁 Vik Singh 在接受采访时说,「坦率地说,如今(生成式 AI)真正缺少的能力,即是当模型无法确定(自身答案是否准确)时,能够主动说‘嘿,我不确定,我需要帮助’。」

自去年以来,微软、谷歌及其竞争对手一直在迅速部署如 ChatGPT、Gemini 等生成式 AI 应用,这些应用可以按需生成各种内容,并给用户一种「无所不知」的错觉。尽管生成式 AI 的开发取得了进展,它们仍然会出现「幻觉」或编造答案,有时甚至是危险的信息。造成「幻觉」的原因之一,是训练数据不准确、泛化能力不足以及数据采集过程中的副作用。

Vik Singh 坚持认为,「真正聪明的人」正在努力找到方法,让聊天机器人在不知道正确答案时「承认并寻求帮助」。

与此同时,云端软件巨头 Salesforce 的首席执行官 Marc Benioff 也在上周表示,他看到许多客户对微软 Copilot 的误导性表现越来越感到沮丧。(@IT 之家)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
647 声望966 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。