简介 本文不讲如何使用逻辑回归,主要会讲一下逻辑回归的算法和模型背后的假设。主要分为两部分,一个是逻辑回归公式的推导,其次会讲述一下如何理解sigmoid函数。 逻辑回归推导 首先我们知道逻辑回归的一个sigmoid假设,这个假设背后的由来我们会在后面给出,请先记得这个假设。公式如下: \[ p(y=1|x) = \frac {1} {1+e^{-(\theta^Tx+b)}} \tag1\ ...
parquet转csv
parquet是什么 Apache Parquet 是一种 列式存储 格式可用于 Hadoop 生态系统中的任何组件,无论是数据处理框架,数据模型,或者编程语言。Parquet 文件格式包含几个支持数据仓库风格操作的功能 : - 列式存储设计 - 仅仅从数据文件或者表中读取一小部分数据时查询可以检测和执行计算所有值中的一个列。 - 灵活的压缩选项 - 数据能够使用几种编码器压缩。可以将不同的数据 ...
airflow使用
Airflow基本概念 Airflow中的相关概念如下: - Operators:Airflow定义的一系列算子/操作符,更直接的理解就是python class。不同的Operator类实现了具体的功能,比如: - BashOperator:可以执行用户指定的一个Bash命令 - PythonOperator:可以执行用户指定的一个python函数 - EmailOperator:可以进行邮件 ...
WSL自定义安装路径
WSL是什么 Windows Subsystem for Linux(简称WSL)是一个为在Windows 10上能够原生运行Linux二进制可执行文件(ELF格式)的兼容层。它是由微软与Canonical公司合作开发,目标是使纯正的Ubuntu映像能下载和解压到用户的本地计算机,并且映像内的工具和实用工具能在此子系统上原生运行。 在windows 10专业版上面可以使用。可以免去虚拟机安装的 ...
airflow 从入门到放弃
airflow是什么 Airflow 被 Airbnb 内部用来创建、监控和调整数据管道。任何工作流都可以在这个使用 Python 编写的平台上运行(目前加入 Apache 基金会孵化器)。 Airflow 允许工作流开发人员轻松创建、维护和周期性地调度运行工作流(即有向无环图或成为DAGs)的工具。在Airbnb中,这些工作流包括了如数据存储、增长分析、Email发送、A/B测试等等这些跨越 ...