AI与人类联手,智能排序人类决策:RLHF标注工具打造协同标注新纪元,重塑AI训练体验

2 月 27 日
阅读 2 分钟
297
RLHF 标注工具 是一个简单易用的,可以在大模型进行 RLHF(基于人类反馈的强化学习)标注排序的工具,旨在帮助用户在友好的图形界面中对生成式模型生成的答案进行排序标注。
封面图

医疗大模型:数据+知识双轮驱动实现医学推理、医患问答、病历自动生成、临床决策,为未来医疗服务提供全新可能性

2 月 23 日
阅读 7 分钟
911
目前大多数开源的ChatLLM项目使用的是其他模型(如:ChatGPT)生成的指令数据,其不可避免的存在数据幻想的问题,数据幻想问题将严重影响LLM在实际场景中的应用和拓展。因此,本项目为了提高医疗领域的知识问答的准确性,使用如下方式构造指令数据集:
封面图

跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)

2 月 22 日
阅读 6 分钟
393
介绍:首先在 Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的预训练语言模型(pre-trained model),之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调(SFT),使得模型具备中医古籍知识问答能力。
封面图

探秘SuperCLUE-Safety:为中文大模型打造的多轮对抗安全新框架

2 月 21 日
阅读 7 分钟
490
进入2023年以来,ChatGPT的成功带动了国内大模型的快速发展,从通用大模型、垂直领域大模型到Agent智能体等多领域的发展。但是生成式大模型生成内容具有一定的不可控性,输出的内容并不总是可靠、安全和负责任的。比如当用户不良诱导或恶意输入的时候,模型可能产生一些不合适的内容,甚至是价值观倾向错误的内容。这些...
封面图

Sora文生视频模型深度剖析:全网独家指南,洞悉98%关键信息,纯干货

2 月 20 日
阅读 8 分钟
1.4k
Sora文生视频模型深度剖析:全网独家指南,洞悉98%关键信息,纯干货Sora是一个以视频生成为核心的多能力模型,具备以下能力:文/图生成视频视频生成视频1分钟超长高质量视频生成视频裂变多视角生成准工业级数字孪生游戏/科幻片等特效,物理引擎能力1.Sora 与 Runway Gen2、Pika 等能力差异对比能力项OpenAl Sora其它模型...
封面图

探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来

2 月 19 日
阅读 10 分钟
517
由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。在Sora横空出世之前,Runway一直被视为AI生成视频的默认选择,尤其是自去年11月推出第二代模型以来,Runway还被称为“AI视频界的MidJourney”。第二代模型Gen-2不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题,...
封面图

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC分词实践

2 月 5 日
阅读 19 分钟
494
GRU(Gate Recurrent Unit)门控循环单元,是[循环神经网络](RNN)的变种种,与 LSTM 类似通过门控单元解决 RNN 中不能长期记忆和反向传播中的梯度等问题。与 LSTM 相比,GRU 内部的网络架构较为简单。
封面图

英伟达系列显卡大解析B100、H200、L40S、A100、H100、V100如何选择,含架构技术和性能对比带你解决疑惑

1 月 29 日
阅读 11 分钟
2k
近期,AIGC领域呈现出一片繁荣景象,其背后离不开强大算力的支持。以ChatGPT为例,其高效的运行依赖于一台由微软投资建造的超级计算机。这台超级计算机配备了数万个NVIDIA A100 GPU,并利用60多个数据中心的数十万个GPU辅助,为ChatGPT提供了强大的算力支持。这种规模的算力部署不仅体现了AIGC技术的先进性,也预示着人...
封面图

知识图谱之图数据库如何选型:知识图谱存储与图数据库总结、主流图数据库对比

1 月 26 日
阅读 11 分钟
512
知识图谱之图数据库如何选型:知识图谱存储与图数据库总结、主流图数据库对比(JanusGraph、HugeGraph、Neo4j、Dgraph、NebulaGraph、Tugrapg)图数据库每月排名 1.知识图谱1.1 KG简单知识点数据模型知识图谱的两种主流数据模型(数据的结构、操作和约束):RDF 图模型和属性图模型数据模型特性数据模型特性RDF 图模型属...
封面图

搜索推荐DeepFM算法详解:算法原理、代码实现、比赛实战

1 月 26 日
阅读 14 分钟
403
1、Deepfm 的原理,DeepFM 是一个模型还是代表了一类模型,DeepFM 对 FM 做了什么样的改进,FM 的公式如何化简并求解梯度(滴滴) 2、FM、DeepFM 介绍一下(猫眼) 3、DeepFm 模型介绍一下(一点资讯) 4、DeepFM 介绍下 & FM 推导(一点资讯)
封面图

NLP国内外大模型汇总列表[文心一言、智谱、百川、星火、通义千问、盘古等等]

1 月 25 日
阅读 6 分钟
348
NLP国内外大模型汇总列表[文心一言、智谱、百川、星火、通义千问、盘古等等]中国大模型列表大全,全面收集有明确来源的大模型情况,包括机构、来源信息和分类等,随时更新。Awesome family related to LLMS includes:[链接][链接][链接]大模型相关的Awesome系列包括:大模型评测数据集:[链接]中国大模型列表:[链接]开...

QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答

1 月 22 日
阅读 8 分钟
1.2k
QAnything (Question and Answer based on Anything) 是致力于支持任意格式文件或数据库的本地知识库问答系统,可断网安装使用。
封面图

深入理解TF-IDF、BM25算法与BM25变种:揭秘信息检索的核心原理与应用

1 月 8 日
阅读 12 分钟
496
在信息检索, 文本挖掘和自然语言处理领域, IF-IDF 这个名字, 从它在 20 世纪 70 年代初被发明, 已名震江湖近半个世纪而不曾衰歇. 它表示的简单性, 应用的有效性, 使得它成为不同文本处理任务文本特征权重表示的首选方案. 如果要评选一个 NLP 领域最难以被忘记的公式, 我想, TF-IDF 应该是无可争议的第一和唯一. 虽然在以...
封面图

玩转字词句魔法:打造超强样本集的数据增强策略,句式变换揭秘同义句生成与回译在数据增强中的创新应用

2023-12-18
阅读 14 分钟
386
OpenHowNet API由清华大学自然语言处理实验室(THUNLP)开发,提供方便的义原信息查询、义原树展示、基于义原的词相似度计算等功能。网站体验词语义原在线查询和展示功能。
封面图

Nougat:结合光学神经网络,引领学术PDF文档的智能解析、挖掘学术论文PDF的价值

2023-12-13
阅读 5 分钟
607
Nougat:结合光学神经网络,引领学术PDF文档的智能解析、挖掘学术论文PDF的价值这是Nougat的官方存储库,Nougat是一种学术文档PDF解析器,可以理解LaTeX数学和表格。Project page: [链接]1.安装From pip: {代码...} From repository: {代码...} Note, on Windows: If you want to utilize a GPU, make sure you first in...

GPTs prompts灵感库:创意无限,专业级创作指南,打造吸睛之作的秘诀

2023-12-13
阅读 12 分钟
285
GPTs prompts灵感库:创意无限,专业级创作指南,打造吸睛之作的秘诀优质prompt展示1.1 极简翻译中英文转换 {代码...} 1.2 完蛋,我被美女包围了(AI同人)哦no,我该喜欢哪个呢 {代码...} 1.3 科技文章翻译将科技文章、论文翻译成简体中文。 {代码...} {意译结果} {代码...} 1.4 游戏创建仙侠MUD {代码...} 1.5 广告文案...
封面图

聊天记录年度报告一览无余:轻松多格式导出永久保存,深度智能分析

2023-12-12
阅读 5 分钟
481
一个用于提取微信聊天记录的工具,支持将聊天记录导出成HTML、Word、CSV文档,以实现永久保存。此外,该工具还具有对聊天记录进行分析的功能,可以生成年度聊天报告,帮助用户更好地了解和回顾与他人的沟通。是一款强大的微信聊天管理工具
封面图

人工智能的新篇章:深入了解大型语言模型(LLM)的应用与前景

2023-12-04
阅读 11 分钟
772
LLM 技术的主要特点是可以从大规模文本数据中学习到丰富的语言知识和语言模式,使得模型能够对自然语言的语义、语法等进行理解和生成,具备更强的语言处理能LLM 技术在自然语言处理领域具有广泛的应用前景。以下是一些应用前景的示例:
封面图

全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性

2023-11-23
阅读 7 分钟
281
为了解决这一问题,之前的研究人员提出了检索增强生成(RAG),它通过检索相关知识来增强 LMs 的效果,尤其在需要大量知识的任务,如问答中,表现出色。
封面图

应对数据爆炸时代,揭秘向量数据库如何成为AI开发者的新宠,各数据库差异对比

2023-11-22
阅读 11 分钟
876
随着大模型的爆火,向量数据库也越发成为开发者关注的焦点。为了方便大家更好地了解向量数据库,我们特地推出了《Hello, VectorDB》系列,本文将从宏观角度、向量数据库与其他算法库的区别、技术难点及如何选择向量数据库等方面,带大家认识真正的向量数据库。
封面图

Milvus 2.3.功能全面升级,核心组件再升级,超低延迟、高准确度、MMap一触开启数据处理量翻倍、支持GPU使用!

2023-11-21
阅读 13 分钟
556
Milvus 2.3.0 不仅包含大量的社区呼声很高的新功能,还带来了诸如 GPU 支持、Query 架构升级、更强的负载均衡、调度能力、新的消息队列Arm 版本镜像、可观测性、运维工具升级等能力,这标志着 Milvus 2.x 系列从 production ready,走向成熟、可靠、生态繁荣、运维更友好的发展路径。
封面图

激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相

2023-11-21
阅读 3 分钟
236
CogVLM-17B 在 10 个经典跨模态基准测试上取得了 SOTA 性能,包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC,而在 VQAv2、OKVQA、TextVQA、COCO captioning 等方面则排名第二,超越或与 PaLI-X 55B 持平。您可以通过线上 demo 体验 CogVLM 多模态对...
封面图

Milvus性能优化提速之道:揭秘优化技巧,避开十大误区,确保数据一致性无忧,轻松实现高性能

2023-11-15
阅读 12 分钟
346
Milvus 是全球最快的向量数据库,在最新发布的 Milvus 2.2 benchmark中,Milvus 相比之前的版本,取得了 50% 以上的性能提升。值得一提的是,在 Master branch 的最新分支中,Milvus 的性能又更进一步,在 1M 向量串行执行的场景下取得了 3ms 以下的延迟,整体 QPS 甚至超过了 ElasticSearch 的 10 倍。那么,如何使用 M...
封面图

突破性的多语言代码大模型基CodeShell:引领AI编程新时代

2023-11-03
阅读 5 分钟
301
CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。它拥有70亿参数,经过对五千亿Tokens的训练,并具有8192的上下文窗口长度。CodeShell在权威的代码评估Benchmark(HumanEval与MBPP)上取得了同等规模最好的性能。这个项目为多语言代码处理和理解提供了有力的工具
封面图

Elasticsearch实战:常见错误及详细解决方案

2023-11-02
阅读 6 分钟
402
可以看到"read_only_allow_delete" : "true",说明此时无法插入数据,当然,我们也可以模拟出来这个错误:
封面图

ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制

2023-11-02
阅读 13 分钟
440
elasticsearch 提供了几个内置的分词器:standard analyzer(标准分词器)、simple analyzer(简单分词器)、whitespace analyzer(空格分词器)、language analyzer(语言分词器)
封面图

ElasticSearch深度解析入门篇:高效搜索解决方案的介绍与实战案例讲解,带你避坑

2023-10-31
阅读 6 分钟
248
如:当系统数据量上了 10 亿、100 亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题: 1)用什么数据库好?(mysql、oracle、mongodb、hbase…) 2)如何解决单点故障;(lvs、F5、A10、Zookeep、MQ) 3)如何保证数据安全性;(热备、冷备、异地多活) 4)如何解决检索难题;(数据库代理中间件:mysql-proxy、Co...

多模态对比语言图像预训练CLIP:打破语言与视觉的界限

2023-10-31
阅读 6 分钟
420
一种基于多模态(图像、文本)对比训练的神经网络。它可以在给定图像的情况下,使用自然语言来预测最相关的文本片段,而无需为特定任务进行优化。CLIP的设计类似于GPT-2和GPT-3,具备出色的零射击能力,可以应用于多种多模态任务。
封面图

释放搜索潜力:基于ES(ElasticSearch)打造高效的语义搜索系统,让信息尽在掌握

2023-10-27
阅读 10 分钟
490
PaddleNLP Pipelines 是一个端到端智能文本产线框架,面向 NLP 全场景为用户提供低门槛构建强大产品级系统的能力。本项目将通过一种简单高效的方式搭建一套语义检索系统,使用自然语言文本通过语义进行智能文档查询,而不是关键字匹配。
封面图

logstash 与ElasticSearch:从CSV文件到搜索宝库的导入指南

2023-10-24
阅读 8 分钟
379
使用 logstash 导入数据到 ES 时,由三个步骤组成:input、filter、output。整个导入过程可视为:unix 管道操作,而管道中的每一步操作都是由 "插件" 实现的。使用 ./bin/logstash-plugin list 查看 logstash 已安装的插件。
封面图