博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Logistic Regression
阅读量:5973 次
发布时间:2019-06-19

本文共 966 字,大约阅读时间需要 3 分钟。

Logistic Regression

This is an iterative machine learning algorithm that seeks to find the best hyperplane that separates two sets of points in a multi-dimensional feature space. It can be used to classify messages into spam vs non-spam, for example. Because the algorithm applies the same MapReduce operation repeatedly to the same dataset, it benefits greatly from caching the input data in RAM across iterations.

 

val points = spark.textFile(...).
map(parsePoint).
cache()
var w = Vector.random(D)
// current separating plane
for (i <- 1 to ITERATIONS) {
  
val gradient = points.
map(
p =>
    (1 / (1 + exp(-p.y*(w dot p.x))) - 1) * p.y * p.x
  
).
reduce(
_ + _)
  w -= gradient
}
println(
"Final separating plane: " + w)

 

Note that w gets shipped automatically to the cluster with every map call.

The graph below compares the performance of this Spark program against a Hadoop implementation on 30 GB of data on an 80-core cluster, showing the benefit of in-memory caching:

转载地址:http://hqbox.baihongyu.com/

你可能感兴趣的文章
CentOS6.5安装ntopng
查看>>
mysql事务rollback&commit
查看>>
Node.js搭建Web服务器
查看>>
Shell脚本学习
查看>>
JAX-RS入门 五: 自动类型转换
查看>>
连连看 欢迎玩耍 :)
查看>>
JAVA经典算法40题(13)
查看>>
Java程序员,你的简历到底问题在哪?
查看>>
MaxCompute读取分析OSS非结构化数据的实践经验总结
查看>>
抽象的理解
查看>>
用Python自带的包建立简单的web服务器
查看>>
构建ant-framework框架的pom.xml文件配置
查看>>
SpringCloud之服务消费者Feign(三)
查看>>
Python运算符:算术,逻辑,比较,赋值,按位和优先
查看>>
LAMP架构介绍
查看>>
C#实现基于ffmpeg加虹软的人脸识别demo及开发分享
查看>>
ppwjs之bootstrap文字排版:创建缩小字号元素
查看>>
activiti--History 历史配置
查看>>
大数据时代从驾驭到消费
查看>>
远程访问MySQL数据库
查看>>