DMLLLLL - SegmentFault 思否

didi云 gpu服务器使用记录

2020-12-18

阅读 1 分钟

1.2k

这两天使用了一下didi云的gpu服务器总的来说不能直接用，开始有很多的东西要装didi云的gpu服务器大概是3块钱一小时，p4 8g的显存我选择的是ubuntu16.04 cuda10.1的操作系统上去后一看没有tensorflow, 没有深度学习环境那只能自己装了tensorflow1.14.0可用，装上能识别然后还要安装cv2和mtcnn，这两个也挺费时间这些都装...

tensorflow实现简单的cnn

dmlllll

2020-02-13

阅读 3 分钟

1.7k

使用tensroflow实现简单的cnn的代码如下，仅供参考 {代码...}

tensorflow实战-感知机的实现

dmlllll

2020-02-10

阅读 1 分钟

1.5k

tensorflow实现感知机还是非常方便的，这里我们先实现一个简单的例子, 这里是最简单的感知机的例子, 可以做为入门的调试代码用 {代码...}

sklearn中的gbdt源码分析

dmlllll

2016-06-29

阅读 1 分钟

6.3k

简单看了一下sklearn中的gbdt源码在这里记录一下，目前来说还不能把gbdt的所有理论都搞清楚sklearn有两个类似于gbdt的实现

xgboost的windows安装 python版

dmlllll

2016-06-17

阅读 1 分钟

4.4k

xgboost是很有用的机器学习工具包，主要是实现了gbdt类型的算法这个包的好处，懂的人自然明白这里就说了一下windows安装python版的xgboost的方法首先去下载编译好的xgboost工具：

python做adf检验

dmlllll

2016-05-18

阅读 1 分钟

17.8k

adf检验是用来检验序列是否平稳的方式一般来说是时间序列中的一种检验方法python中可使用现成的工具statsmodels来实现adf检验

sklearn做交叉验证

dmlllll

2016-05-13

阅读 1 分钟

7.2k

交叉验证是经常用到的验证方法使用sklearn可以很大程度上简化交叉验证的过程使用过程见下方： {代码...} 这就是简单的用法，只有scoring比较复杂，其他都比较简单

python 下的unicode字符串转成中文

dmlllll

2016-05-09

阅读 1 分钟

5.1k

python中文支持已经很不错了，也会出现有些问题就如同下面这种情况u6d4bu8bd5u957fu5ea6这一看就是unicode的字符，但是却存成了字符串的样子转化成中文：

文本相似度的计算

dmlllll

2016-05-06

阅读 1 分钟

4.3k

文本相似度的计算方法有很多，这里简单记录一下传统的VSM模型： {代码...} LSI(Latent semantic indexing) 的方式 {代码...}

邮件信息抽取

dmlllll

2016-02-29

阅读 1 分钟

2.2k

公司的一个项目，首先需要过滤一下邮件邮件的主要内容就是应聘信息当然会产生很多的垃圾邮件，比如智联招聘发的广告、猎头邮件和网易广告等这里首先要过滤一下邮件，把没有用处的垃圾邮件过滤掉

异步机制的不懂之处

dmlllll

2016-01-14

阅读 1 分钟

2.1k

记录一下异步机制的一些问题和不理解的地方贴一个地址：[链接] {代码...}

amazon access代码分析和记录

dmlllll

2016-01-12

阅读 2 分钟

1.9k

这是一个kaggle项目的冠军代码看起来还是比较麻烦，这里记录一下这个冠军代码的一些处理方法这部分使用了集成学习的方法主要使用了LR、RF、GB这三种学习方法每一种学习方法大概使用了四五次，也就是对数据集也进行了各种处理

微博爬虫

dmlllll

2016-01-12

阅读 1 分钟

3.4k

写微博爬虫还是比较麻烦的一般来说使用cookie和模拟登陆的方式都可以来爬取数据但是我只试用成功了模拟登陆的方式基本的步骤如下： {代码...}

用户权限项目预测分析

dmlllll

2016-01-04

阅读 1 分钟

1.7k

这个项目用来预测某用户是否对某资源是否有需求数据的字段如下： {代码...} 训练集和测试集的字段都是一样的，训练集给出了所有的action信息，而目的就是预测action信息

spark自带的kmeans例子分析

dmlllll

2016-01-04

阅读 2 分钟

8.5k

分析一下自带的kmeans代码，这个要稍微复杂一些 {代码...} 这里就是整个过程了，说起来结合了numpy来使用还比较简单

spark运行python代码

dmlllll

2016-01-04

阅读 1 分钟

7.4k

spark运行python代码一般使用命令spark-submit test.py这样的形式来运行如果代码中设置了参数的话，还需要在命令行中传入参数

spark自带的python例子的分析

dmlllll

2015-12-23

阅读 1 分钟

4.5k

这里分析一下spark自带的求PI的例子，做为入门的代码首先要介绍一下这个求PI的原理其实也算是使用的蒙特卡洛模拟算法，基本的方法就是考虑一下边长为1的正方形其中以正方形的一个点为中心，以1为半径画圆的话，可以有1/4个圆画到正方形中，根据这个原理来随机的生成（1， 1）之间的点如果满足x2 + y2 <= 1的话，那...

使用java命令行把工程打包成jar文件

dmlllll

2015-12-22

阅读 1 分钟

4.6k

这个功能还是经常要用到的一般在做hadoop或者storm开发的时候，都需要把程序打包后提交到平台上运行其实这个方法也很简单，在hadoop和storm平台中都有class文件所以我们只要关注自己写的java代码即可需要引入的jar包可以不用考虑

spark单一部署版

dmlllll

2015-12-22

阅读 2 分钟

2.8k

再记录一下spark的单机版部署最后可以跑通spark自带的例子，不过可能有些参数还需要调整假设你已经部署好了hadoop首先下载scala和spark

storm单机版部署

dmlllll

2015-12-22

阅读 1 分钟

2.8k

storm可以看做是跟hadoop平行的产品，部署storm并不依赖于hadoop而之前部署的hbase、hive、spark等都或多或少的依赖hadoop这里简单记录一下storm的部署过程需要下载包：

hive的安装和初步使用

dmlllll

2015-12-21

阅读 2 分钟

2.7k

单机版安装过程如下：首先确保已经安装好了hadoop， hdfs可以正常使用下载hive:[链接] 确保下载的是安装包而不是源码包然后解压安装包配置环境变量/etc/profile：

刚刚安装好了hadoop的单机版，这里记录一下其实hadoop是免安装的，直接下载包就可以使用关键是单机版的配置 hadoop下载地址：[链接]注意不要把源码下载下来，要下载binary包下载好之后主要配置一下几个地方： hadoop-env.sh：主要配置JAVA_HOME core-site.xml： {代码...} hdfs-site.xml: {代码...} mapred-site.xml:...