十二种必须掌握的降维知识(Python代码)
你是否曾经处理过具有一千多个特征的数据集?5万多个特征呢?我曾经有过,让我告诉你这是一项非常具有挑战性的任务,特别是如果你不知道从哪里开始的时候!拥有大量的变量既是好事,也是坏事。我们有大量的数据用于分析,这很棒,但由于规模太大,它变得非常具有挑战性。
2019-05-14
多模态-跨模态检索历史工作及先行跨模态图文检索算法对比汇总-Jason Freed
1976年 MCGURK H, MACDONALD H. Hearing lips and seeingvoices[J]. Nature, 1976, 264(5588): 746-748.提出视觉对言语感知的影响,后被用于视听语音识别(AVSR)称为多模态概念雏形。
2022-09-28
神马搜索如何提升搜索的时效性?
简介: 什么是搜索的时效性?有哪些特征?如何优化?本文分享神马搜索在搜索排序时效性问题上的实践和探索,从基础特征优化开始,通过标注数据进行排序和召回模型优化,以及时效性排序的召回体系和收录体系。较长,同学们可收藏后再看。
数据分析/数据科学Python常用代码块
换源_python {代码...} 模型服务keras 部署服务 {代码...} 可部署为服务的 Python 脚本 {代码...} SQL操作连接 PostgreSQL {代码...} 单表导出数据 {代码...} 使用 WHERE 语句过滤 {代码...} 使用 HAVING 语句过滤 {代码...} 取出前N条数据 {代码...} 多表导出数据 {代码...} 使用聚合函数 {代码...} 使用 Subquery {代...
2023-08-04
机器学习、人工智能、搜索推荐、广告系统优质学习资料整理
AI架构、搜索系统、 推荐系统、广告系统等技术资料整理。这篇文章意图是收集市面上质量不错的后端架构、AI架构、搜索、 推荐、 广告引擎技术资料,内容来源包括开源项目官网(Lucene、Solr、Elastic)、综合技术网站(AIQ 、infoQ、Stackoverflow、github 等、国内外知名互联网公司技术博客(阿里中间件团队博客、美团技...
<HTTP权威指南>记录 ---- 网络爬虫
网络爬虫(web crawler)能够在无需人类干预的情况下自动进行一系列Web事务处理的软件程序。很多爬虫会从一个Web站点逛到另一个Web站点,获取内容,跟踪超链,并对它们找到的数据进行处理。根据这些爬虫自动探查Web站点的方式,网络爬虫也可称作网络蜘蛛、蚂蚁、机器人等。
2018-07-31
「可视化搭建系统」——从设计到架构,探索前端的领域和意义
阿里巴巴集团前端委员会主席 @圆心 对前端未来期许有四点:搭建服务, Serverless,智能化,IDE。仔细想想,一个「可视化搭建系统」的想象空间,正能完美命中这些方面。前端的边界在哪里,对于业务的价值又在哪里,我们不妨静下来,一起从「可视化搭建系统」的角度来思考。
美团外卖智能陪伴型导购的探索与实践
在外卖场景中,用户停留时间相比传统电商较短,因此对于实时发现和反馈用户兴趣的能力有着更高的要求。为解决该问题,美团外卖算法团队摸索出了一套适用于外卖场景的智能陪伴型导购架构和策略。这一举措已经取得了显著成效,本文将详细介绍外卖搜索技术团队搭建智能陪伴型导购时,所遇到的挑战以及解决思路,希望能对大...
2023-07-14
微信扫物上线,全面揭秘扫一扫背后的识物技术!
导语|12月23 日,微信扫物 iOS 版本正式上线。从识别特定编码形态的图片,到精准识别自然场景中商品图片,有哪些难点需要去克服? 扫物以图片作为媒介,聚合微信内部有价值的生态内容如电商,百科,资讯进行展示, 会催生哪些新的落地场景?本文将细细道来。
2019-12-30
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(上篇)[xgboots/lightgbm/Catboost等模型]
赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。
2023-05-17
RAG系统评测实践详细版:Coze及相关产品评测对比,以及下一代RAG技术
RAG(检索增强生成)是一种 AI 框架,它将传统信息检索系统(例如数据库)的优势与生成式大语言模型 (LLM) 的功能结合在一起,通过将这些额外的知识与自己的语言技能相结合,AI 可以撰写更准确、更具时效性且更贴合您的具体需求的文字。
2024-10-08
Advanced RAG 09:『提示词压缩』技术综述
编者按: 如何最大限度地发挥 LLMs 的强大能力,同时还能控制其推理成本?这是当前业界研究的一个热点课题。针对这一问题,本期精心选取了一篇关于"提示词压缩"(Prompt Compression)技术的综述文章。正如作者所说,提示词压缩技术的核心目标是压缩向 LLMs 输入的上下文信息,删减非关键内容,保留语义核心,从而在不影响...
2024-06-29
网络知识平面简介
随着网络规模的扩大和结构越来越复杂,传统的网络管理模式遇到了严重挑战。本文提出知识平面作为下一代网络管理的核心组件,依赖人工智能和认知技术满足网络管理的不确定性和复杂性需求。原文: A Knowledge Plane for the Internet
2023-08-28
⭐《ElasticSearch核心技术与实战》笔记 - 1. 入门
相关链接极客时间课程: [链接]课程配套 Github: [链接]每个部分都有一份课堂上 ppt 的 pdf 版本.概述ElasticSearch 简介及其发展历史ElasticSearch 是一个开源的分布式搜索与分析引擎, 提供了近实时搜索和聚合两大功能.ES 版本与升级0.4: 2010年2月1.0: 2014年1月2.0: 2015年10月5.0: 2016年10月Lucene 6.xType 标记为 d...
美团搜索中查询改写技术的探索与实践
查询改写是对用户Query拓展改写词,用更好的表述,帮用户召回更多符合需求的结果。查询改写对于文本布尔检索系统是非常重要的扩召回手段,通过优化该算法模块能够直接且显著地提升搜索体验。本文主要讲述在美团的搜索场景下查询改写项目的迭代方向和实现思路,希望能对从事搜索、广告、推荐中召回相关工作的同学有所启发...
ios - 收藏集 - 掘金
天弘基金移动 App 客户端架构优化之路 - iOS - 掘金天弘基金移动App客户端架构优化之路 随着移动互联网时代的到来,移动技术也随之飞速发展。如今,APP已成为绝大多数互联网企业用来获取用户的核心渠道。与此同时,伴随着业务量的增长,愈来愈多的APP也在不断地...
2017年数据库技术盘点
作者 | 那海蓝蓝,腾讯金融云数据库技术专家作者 | 小编0.7,腾讯TDSQL分布式数据库专家作者 | 大米,腾讯TDSQL分布式数据库专家责编 | 仲培艺由腾讯技术工程官方号发布在云+社区