作者:<span class="vcard">linukey</span>

使用机器学习处理iris数据集

from sklearn.datasets import load_iris import pandas as…


机器学习分类笔记

import numpy as np import struct import matplotlib.pypl…


机器学习新手入门参考笔记

# 注:在jupyter上运行 # 从一堆数据到训练好数据的机器学习模型,中间有很多过程,每个过程往往又有很多…


使用hadoop进行数据集求交

背景 之前业务里面遇到一个问题,就是有两批url,都是亿级的,里面有一些相同的url,我们需要找出这些相同的u…


Hadoop Streaming

背景 业务里面由于涉及到的数据量比较大,所以很多任务不可避免的必须要用分布式集群来处理,由于工程方面都是用的C…


hadoop-streaming issues & solves

背景 这篇文章用来记录使用hadoop过程中遇到的一些问题以及解决方案~ 问题一:hadoop quota限制…


LCS问题

背景 最近项目里面有业务需求需要计算文本相似度,这方面的算法挺多的,lcs就是其中的一个,lcs,就是求两个文…


空间换时间(Trie)+状态转移(KMP)=AC自动机(多模匹配)

背景 之前项目里面的切词模块用到了AC自动机,一直没有好好总结一下,惭愧Orz…,今天总结一下。 …


linux文件描述符以及背后知识

背景 在Linux上做过开发的应该对输入输出的重定向是非常熟悉的,但是估计大多数人都不知道背后的原理。最近在看…


LRU—缓存淘汰机制

背景 最近学习nginx源码,了解到lru算法,lru算法一般应用在缓存的数据淘汰。还没有来得及详细了解lru…