机器学习扫盲
在工作中,经常遇到很多事情会涉及到算法机器学习,然而似乎有不少人会对算法亦或是机器学习有着这样那样的误解。于是我准备收拾一下,机器学习的基础知识,以辅助大家了解机器学习,知道机器学习是干什么的,它又是怎么工作的。🤗
特征处理之(四):缺失值和组合
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已!
很多情况下,数据总有可能缺失,但是若是放任不管可能造成严重的后果甚至模型无法收敛,所以我们得利用已有的信息进行数据填充来降低损失。特征组合是将不同的特征进行组合,生成新的特征,这种方式能提升模型更大的非线性能力和拟合能力。
特征处理之(三):离散化
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已!
离散化简化了模型训练的复杂性,降低模型过拟合的风险,对异常数据有更强的鲁棒性。另外离散化之后可以进行特征编码,提升训练时间,也能模型提升表达能力。是个非常重要的特征处理方式。
特征处理之(二):无量纲化和哑编码
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已!
无量纲化能提升特征可比性,优化训练时间;哑编码能降低模型复杂度,提升特征表达能力,提升运算时间,提升非线性能力。
中文切词方法学习
前段时间有小伙伴问了我好几次中文切词是怎么切的,我想着应该是我没表达清楚所以小伙伴才会重复问多次,是我表达能力不够,临时说也说不上来。所以就写一篇了简单的中文切词方法的短文,一方面是锻炼下自己的表达能力,另一方面下次小伙伴再问就直接扔给他Y(^o^)Y
拉格朗日乘数法笔记
在求解函数最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法。函数有等式约束时使用拉格朗日乘子法,函数有不等约束时使用KKT条件。本文简要的复习下拉格朗日乘数法的浅层次问题。
python版本共存和虚拟环境
python有很多版本,如何在同一台系统中共存这些版本而且不会冲突,是python开发者一个重要的需求,所以诞生出了Python版本管理器pyenv。另外每个Python项目都会有很多包需要导入,而另一些项目并不需要,如果所有包都加入到系统Python的包目录下的话一方面不好管理另一方面容易出现包的冲突,因此需要为每个项目建立一个虚拟的独立的Python环境就太好了,于是virtualenv和conda工具就出现了。