心明录

最大期望算法原理与推导

发表于 2019-09-09 | 更新于 2019-09-11 | 分类于机器学习 | 评论数： | 阅读次数：

本文字数： 723 | 阅读时长 ≈ 1 分钟

简介 EM算法，即最大期望算法（Expectation-maximization algorithm，又译期望最大化算法）在统计中被用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然估计。在统计计算中，最大期望（EM）算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐性变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类（Data Clu ...

阅读全文 »

常见数据预处理SQL方法

发表于 2019-08-20 | 分类于机器学习 | 评论数： | 阅读次数：

本文字数： 1.3k | 阅读时长 ≈ 1 分钟

简介本文主要介绍几个在风控或者推荐的机器学习项目中数据处理的几种SQL实现方法保留原始列，并新增一列很多情况下，对于变换后新增的列，希望它补充到最后一列，而非作为唯一输出。这种情况下，可以采用以下方法。 SQL实现方法如下： SELECT *, {其他脚本} FROM t1 注：{其他脚本}例如后文“类型转换”的 CAST (col_name as int ...

阅读全文 »

AI行业相关思考

发表于 2019-06-27 | 更新于 2019-09-03 | 分类于行业思考 | 评论数： | 阅读次数：

本文字数： 1.5k | 阅读时长 ≈ 1 分钟

现状从现状来看，人工智能技术方面的应用类型笔者认为可以大致分为CV（计算机视觉）、NLP（自然语言处理）、RL（强化学习）、数据挖掘。这几类当中，CV的落地大致在安防、娱乐、生物识别等方面，RL的落地大致在游戏AI、终端设备控制等方面，而NLP与数据挖掘则落地在搜索、推荐、广告、风控等方面。从技术的短期变现能力而言，NLP与数据挖掘的变现能力是最强的。这个原因是CV和RL的技术应用主要还是要凝 ...

阅读全文 »

Otsu算法

发表于 2019-05-27 | 更新于 2019-09-09 | 分类于图像处理 | 评论数： | 阅读次数：

本文字数： 3.1k | 阅读时长 ≈ 3 分钟

简介在图像处理中我们经常会遇到（灰度图）二值化的需求，一般情况下可以指定全局阈值进行二值化，那这种时候我们如何知道这个阈值的好坏呢？答案就是不停的尝试。如果是一副双峰图像（双峰图像是指图像直方图中存在两个峰），直观上应该是在两峰之间的峰谷附近取一个值。Otsu就是处理这个问题的，即根据图像直方图自动算出一个阈值。本文会先介绍和简单推导一下公式，然后再脑洞清奇地用代码探索一下Otsu的二值化和k ...

阅读全文 »

票据识别的图片前处理

发表于 2019-05-20 | 更新于 2019-05-28 | 分类于图像处理 | 评论数： | 阅读次数：

本文字数： 1.4k | 阅读时长 ≈ 1 分钟

问题背景在银行的票据识别的过程中，并非所有的票据都是完整的一张图，有一些票据图片是倾斜并且有背景的，这种在票据识别的版式（也称模板）粗切时，会出现大量的粗切不准现象。所以对这类OCR的票据识别的图片，有必要对其进行规整。处理算法这里的处理主要还是看图片本身的情况如何，我们接触到的图片，前景为浅色的矩形，大多数是整张票据，但有部分图片中的票据有某几边是存在较深颜色的背景的。并且在深颜色的 ...

阅读全文 »

目标检测R-CNN系算法

发表于 2019-04-23 | 分类于深度学习 | 评论数： | 阅读次数：

本文字数： 4.1k | 阅读时长 ≈ 4 分钟

简介图像分类，检测及分割是计算机视觉领域的三大任务。图像分类模型是将图像划分为单个类别，通常对应于图像中最突出的物体。但是现实世界的很多图片通常包含不只一个物体，此时如果使用图像分类模型为图像分配一个单一标签其实是非常粗糙的，并不准确。对于这样的情况，就需要目标检测模型，目标检测模型可以识别一张图片的多个物体，并可以定位出不同物体（给出边界框）。目标检测模型的主要性能指标是检测准确度和速度 ...

阅读全文 »

文本定位算法

发表于 2019-04-18 | 更新于 2019-04-23 | 分类于深度学习 | 评论数： | 阅读次数：

本文字数： 2k | 阅读时长 ≈ 2 分钟

简介⽂本定位主要适⽤于识别图⽚中⽂本的位置信息。利⽤计算机视觉智能识别图⽚中的⽂本信息并进⾏定位，⽣成的带有类别信息的⽬标候选框，经常应⽤于带有多种⽂本信息的票据，证件识别中。本文主要介绍如下两种文本定位算法： Deeptext CTPN Deeptext Deeptext算法原理 DeepText是基于Faster R-CNN针对⽂本定位进⾏改进的Two-Stage模型。D ...

阅读全文 »

提升树原理与推导

发表于 2019-04-11 | 分类于机器学习 | 评论数： | 阅读次数：

本文字数： 1.3k | 阅读时长 ≈ 1 分钟

简介本文主要讲提升树的模型与算法，并会在最后对梯度提升树进行比较与描述。在看XGBoost原理与推导前，可先看本文，对提升树有一个基本了解。提升树模型我们先来看一下提升树的模型，提升方法实际采用的仍然是加法模型(即基函数的线性组合)和前向分步算法。当基函数是决策树的时候，这个提升方法就叫提升树。根据上述，我们可以把提升树的模型公式表示出来： \[f_M(x)=\sum_{m=1}^MT ...

阅读全文 »

回归树原理与推导

发表于 2019-04-10 | 更新于 2019-04-11 | 分类于机器学习 | 评论数： | 阅读次数：

本文字数： 1.6k | 阅读时长 ≈ 1 分钟

CART简介本文主要讲回归树和最小二乘回归树的算法，目的是对决策树做回归有一个认识，并且熟悉经典的最小二乘回归树。我们这里只关注CART的回归树， CART(classification and regressioin tree)是在给定输入随机变量\(X\)条件下输出随机变量\(Y\)的条件概率分布的学习方法。CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”。其中的回归决策树 ...

阅读全文 »

XGBoost原理与推导

发表于 2019-04-08 | 更新于 2019-08-13 | 分类于机器学习 | 评论数： | 阅读次数：

本文字数： 4.7k | 阅读时长 ≈ 4 分钟

简介本文不讲如何使用XGBoost也不讲如何调参，主要会讲一下作为GBDT中的一种，XGBoost的原理与相关公式推导。为了循序渐进的理解，读者可先从简单的回归树再到提升树再来看本文。关于回归树与提升树占位链接如下。我们现在直接从XGBoost的目标函数讲起。回归树原理与推导提升树原理与推导 XGBoost公式推导 XGBoost的目标函数如下： \[ obj=\sum_{ ...

阅读全文 »