吴说 - SegmentFault 思否

玩转大模型（一）环境配置

2024-06-11

阅读 3 分钟

1.2k

自从前年年底大模型出来了以后，就想着搞一台台式机来学习学习大模型和机器学习，免得落伍太多了，看配置，看B站视频，选配置，看二手显卡，一手显卡，对比显存，仿佛又到了大学时期那个攒机器的时代，这么过去了几个月，一直没有下手，感觉这里面水实在是太深了，二手的不敢随便买，太便宜的怕遇到矿卡，太贵的又觉得有...

封面图

一只爬虫（一）

2019-11-30

阅读 3 分钟

2.7k

本篇无标题，都说爬虫写得好，牢饭吃到饱，本来不想写爬虫的，毕竟风险有点高，但是作为一个搞搜索的人，怎么能不了解一下爬虫呢，怎么能不自己深入了解一下爬虫的原理呢，而且，知道了爬虫的一般性原理和一些开源的爬虫框架以后，写出一个自己的小爬虫并不是一件很难的事情，而一个自己的小爬虫，有时候还是很有用的，...

Lucene系列（一）代码结构

2017-08-17

阅读 2 分钟

6.1k

最近一直在看Lucene的源码和文档，把看到的一些东西总结一下，整个Lucene的代码也大体的撸了一遍了，Lucene的代码写得真是不错，结构简单明了，扩展性也非常强，基本上所有的模块都是接口型的，几乎都有扩展的可能，并且可以以非侵入式的方式进行扩展，后来的在Lucene之上的Elasticsearch也很好的继承了这一点，扩展性也...

简单的流量控制系统

2017-07-03

阅读 4 分钟

10k

在一个后台系统中，流量控制属于基础组件的功能，其实，在很久之前的通讯时代，流量控制就已经非常成熟了，在路由器交换机上面几乎都有全面的流量控制的解决方案，像QoS这类流量整形的方案，都已经是在网络模型的各个层来进行流量的控制和分发了，可以按照通道，按照端口，IP，MAC，业务类型等各个维度对流量进行整形和...

你真的了解跳跃表吗

2017-05-24

阅读 3 分钟

11.5k

最近换了工作，因为工作的需要，也正好自己想好好研究一下Java这门牛逼的语言，看了一下ElasticSearch和Lucene的源码，之前从来没有写过也没有看过Java的东西，所以也算是恶补了一下Java吧，由于是从C程序员开始的，所以对这种带虚拟机的语言总有一些偏见，老觉得内存不好控制，所以一直以来都没有怎么碰过Java，最近静...

输入一个URL

2017-05-11

阅读 3 分钟

4.4k

前几天看到一个题目，问在浏览器中输入一个URL会发生神马，这好像是网上比较流行的面试题，而且也被回答烂了，仔细想下来，要是自己遇到这个题目能不能答上来，后来一想，这个题目要完全答出来可以把大学开始的几乎所有知识都用上。呵呵，为了模拟面试，所以都凭印象说的，没有查网络资料，所以估计很多地方都不对，欢迎...

我爬了价值1800亿的商品信息

2017-03-18

阅读 5 分钟

4.4k

好久没来了，今天来聊聊个有意思的吧，这些天由于一些原因，自己撸了个爬虫框架，因为要测试一下效果，于是到处爬东西，爬了不少有意思的数据，后面也会说一些别的数据，那天，连爬了四天绿中介的网站，说句实在的，绿中介反爬做得还行，阵亡好多代理ip，而且有些个代理还没用就已经被封了，当然，对于这种不需要登录的...

年度语言 golang 使用感受

2017-01-16

阅读 4 分钟

18.1k

2016年已经过去，16年的年度语言给了go语言，而正好这一年我都是用go用得比较多，而且版本从1.2一直用到了1.8，有一些感受，来说说我对这个年度编程语言的一些粗浅理解吧。之前也写过一篇go语言的文章，但是那时候用得还不是很多，有些特性没有用上，所以理解上和今天的有些不同。

流量和广告

2016-12-06

阅读 4 分钟

6.1k

今天来聊聊一个轻松点的话题，同时也是水很深的话题，那就是互联网的流量和广告，也就是目前为止，互联网最基础的赚钱方式，一旦你有了互联网的流量，把流量变成广告进行变现是最直接，也是最容易想到的赚钱方式。

机器学习中的模型和数据

2016-11-09

阅读 3 分钟

14.5k

很久很久没有更新了，并不是我自己不想，确实是最近太忙了，不管是工作上还是生活上都很忙，唉，之前希望自己能够坚持写博客，没有坚持下来，最近这段时间也是，其实时间吧，能挤还是能挤出来的，但是好不容易挤出来一点时间，不是用来刷手机，就是用来看书了，因为买了一大堆的书也没时间看，后来想想，自己也不是总理...

后端的轮子（四）--- 容器

2016-08-12

阅读 10 分钟

10.5k

容器，目前最火的话题了，在后端的开发中，容器的运用也已经是主流技术了，今天，我们就来说说容器技术，之前我对这一块的了解不是很多，但是最近有些特殊原因转成运维工程师了，而公司的全线服务都是docker的，以一个开发人员的习惯，转成运维以后，还是想对这种东西总想深入了解一下，于是看了不少相关资料并且看了一...

后端的轮子（三）--- 缓存

2016-07-30

阅读 8 分钟

11.8k

今天这一篇没想到会这么长，后面有一段是写网络模型的，和缓存本身的关系不大，只是写到那里就想到了这个问题，多写了一些，那一段是我自己的理解，肯定有不对的地方，欢迎讨论拍砖。

后端的轮子（二）--- 数据库

2016-07-18

阅读 4 分钟

6.4k

本篇趟个雷，把数据库纳入到轮子中了，前面说到了数据库其实不算轮子，也说到了其实我写不出来数据库，这里所说的数据库严格来说是关系型数据库，他比轮子复杂多了，是一个和操作系统差不多复杂度的东西，所以才能通过一个oralce养活一家全球50强的公司，其次，数据库太复杂了，要写出来实在是力所不能及，但是后来有想...

后端的轮子（一）

2016-07-07

阅读 2 分钟

8.3k

最近读了一下kafka的源码，真的是很蛋疼，本来准备写一篇长的关于消息队列的文章，结果看到某团的技术团队有一篇文章了，而且消息队列的东西基本上写全了，就不凑热闹了。

技术文章的正确打开方式

2016-06-30

阅读 3 分钟

3.3k

今天这篇文章是想起来随便扯的，大概花了一小时，没有营养别见怪。自觉关闭赞赏：）写了将近两个月的，最开始希望把自己懂的东西都写出来分享出来，毕竟也不是什么很高深的东西，写的这两个月时间中发现一些问题，自己觉得挺有意思的，分享出来给大家看看。这两个月写了不少文章，我发现有几篇文章点击率明显高于其他的...

相关搜索 --- 离线和在线的结合

2016-06-30

阅读 6 分钟

7.9k

在说正题之前还是先来闲扯一下，都说产品经理的想象和最后工程师的实现之间差了十万八千里，同样的，算法的模型和最后的工程化部分也是差了十万八千里。看到一个好的算法的论文，一看卧槽这么牛逼，感觉能解决一切问题，于是想尽一切办法想要用到系统中，发现实现的过程中坑无数，这样的例子数不胜数。

Trie树结构

2016-06-27

阅读 4 分钟

9.9k

在计算机科学中，trie，又称前缀树或字典树，是一种有序树，用于保存关联数组，其中的键通常是字符串。与二叉查找树不同，键不是直接保存在节点中，而是由节点在树中的位置决定。一个节点的所有子孙都有相同的前缀，也就是这个节点对应的字符串，而根节点对应空字符串。一般情况下，不是所有的节点都有对应的值，只有叶...

相关搜索 --- 搜索中的推荐

2016-06-20

阅读 6 分钟

13.2k

互联网从开始出现，如果就信息获取方面的话，到现在经历了三个大的时期，最开始是人工信息的分类时期，作为一个上了岁数的人，是经历过那个时期的，那个时期如何来找信息呢？我们来看看几张图，下面这张图是1999年1月的搜狐主页，中间那一片就是人工整理出来的分类。

坑系列 --- 时间和空间的平衡

2016-06-16

阅读 7 分钟

5.2k

这是坑系列的最后一弹了，这篇文章非常长，希望你能看完，要是看完有很酣畅的感觉就最好了。这一篇的坑主要来说说架构中时间和空间的平衡吧，这里的时间指代比较广，可能是开发时间，但大部分指的是执行时间，也就是算法的时间复杂度了，而空间就是算法中经常说的空间换时间中的空间了，一个好的系统，设计出来必然是各...

坑系列 —— 缓存+哈希=高并发？

2016-06-12

阅读 5 分钟

10.9k

今天继续坑系列，高可用已经讲过了，当前互联网时代，怎么少的了高并发呢？高并发和高可用一样，已经变成各个系统的标配了，如果你的系统QPS没有个大几千上万，都不好意思跟人打招呼，虽然可能每天的调用量不超过100。

坑系列 --- 高可用架构的银弹

2016-06-07

阅读 3 分钟

7.2k

呵呵，题图是一队困在坑中的鸭子：）作为一个搬砖的，我经常被困着。今天高考，想起15年前的今天（哦，那时候是七月高考），恩，考完了，还不错，然而15年后还是搬砖：）

坑系列 --- 重构过程中的过度设计

2016-06-02

阅读 4 分钟

7.6k

这个系列是坑系列，会说一些在系统设计，系统架构上的坑，这些都是我想到哪说到哪，有像这篇一样比较宏观的坑，后面的文章也会有到具体技术细节的（比如某个函数，某个系统调用）坑，总之，到处都是坑，这些坑有些是我经历过的，有些是听说的，你也可以留言说说你遇到的坑。

推荐系统技术文本相似性计算（三）实战篇

2016-05-31

阅读 8 分钟

13.5k

前两篇可以直接看我的专栏或者文本相似性计算(一)文本相似性计算(二)前面说了两篇了，分别介绍了TFIDF和向量空间的相关东西，然后介绍了主题模型，这一篇我们就来试试这两个东西。词向量就不在这篇试了，词向量和这两个关系不大，不好对比，不过我最后也给出了代码。

推荐系统技术 --- 文本相似性计算（二）

2016-05-29

阅读 4 分钟

6.7k

第一篇地址：[链接]上一篇中我们的小明已经中学毕业了，今天这一篇继续文本相似性的计算。首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量，并没有任何上下文的关系，所以思想还停留在机器层面，还没有到更高的层次上来，正因为这样才有了自然语言处理这门课程了。

搞机器学习要哪些技能

2016-05-27

阅读 5 分钟

16.8k

本来这篇标题我想的是算法工程师的技能，但是我觉得要是加上机器学习在标题上，估计点的人会多一点，所以标题成这样了，呵呵，而且被搜索引擎收录的时候多了一个时下的热门词，估计曝光也会更多点。不过放心，文章没有偏题，我们来说正经的。

分布式搜索引擎（二）

2016-05-25

阅读 3 分钟

5.7k

前面已经有一篇分布式搜索引擎了，主要介绍的是搜索引擎的索引分片和数据同步，实际上是解决的分布式的问题，最后我给出了一个图这个图最后出来的是一个低可用的分布式搜索引擎，今天我们要解决的问题是把这个低变成高，今天这篇非常简单，没有任何高级技术，看完你就知道了。 1. 为什么会是低可用我们得知道为什么这...

推荐系统技术之文本相似性计算（一）

2016-05-24

阅读 4 分钟

14.4k

推荐系统分为两种，一种是基于用户的，根据某个用户的特性推荐一些东西，还有一种是根据内容，推荐一些相似的内容，或者是两种的结合，任何推荐系统，仔细分析下来，都属于这两种情况的组合。

面壁人VS智子 --- 搜索排序的作弊和反作弊

2016-05-23

阅读 5 分钟

4.3k

搜索引擎已经是目前网络流量最大入口，在大搜上，基本上大家打开网页做的第一件事情就是打开一个搜索引擎，然后键入你感兴趣的内容，然后开始浏览。如果是个电商的网站，你打开以后，基本上也是直接键入你感兴趣的内容，然后开始浏览。

分布式搜索引擎设计

2016-05-19

阅读 6 分钟

9.7k

我个人感受啊，分布式和高可用是随着最近这些年阿里的双11活动火起来的，放眼全球，好像没有哪个公司的系统会在瞬间承接这么大的流量，并且还是绝对不能出错的交易流量，所以阿里确实积累了全球最丰富的高可用和分布式的经验，再加上各种技术大会一分享，这两个词就变成一个互联网公司技术系统的标配了。

用Golang写一个搜索引擎（0x0B）--- 第一部分结束

2016-05-18

阅读 3 分钟

5.6k

这一篇算给这一个系列告一个小的段落，之前开始写这些文章的时候，只是想把自己最近用Golang写的这个搜索引擎说一说，准备了大概3，4篇的量，但是一写下来，发现有点收不住，写到后面其实和Golang没什么关系了，主要在写搜索引擎的架构和一些数据结构了，我觉得这比写代码注释有用吧，而且通过这样写下来，我自己对这些...

1

1