自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

岸芷汀兰

每天进步一点点

  • 博客(173)
  • 资源 (2)
  • 收藏
  • 关注

翻译 SparkR

简介SparkR是一个提供从R中使用Spark的轻量级前端的R包。在Spark1.6以后,SparkR提供了分布式数据框,它支持selection,filtering,aggregation等操作。也支持使用MLlib分布式机器学习。SparkR数据框类似于R中的数据框,数据源有结构化数据文件,Hive表,外部数据库或者本地R数据框。Starting up:SparkContext,SQLConte

2016-01-17 16:11:25 1533

原创 Spark canopy算法

canopy算法 概念与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再使用K-means进行进一步“细”聚类。这种Canopy+K-means的混合聚类方式分为...

2016-01-16 16:27:44 2779

原创 SparkML实战之五:SVM

package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetricsi

2016-01-14 10:11:37 2230

原创 SparkML实战之四:回归

package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.regression.LinearRegressionModelimport org.apache.spa

2016-01-14 10:05:22 1486

原创 SparkML实战之三:Logistic回归

package MLlibimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionModel}import org.apache

2016-01-14 10:01:12 2179

原创 SparkML实战之二:Kmeans

package class8import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectors/**

2016-01-14 09:59:16 1689

原创 SparkML实战之一:线性回归

package class8import org.apache.log4j.{Logger, Level}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LinearRegr

2016-01-14 09:56:47 2824

原创 sparkcookbook-GettingStarted with ML

创建向量$ spark-shellimport org.apache.spark.mllib.linalg.{Vectors,Vector}val dvPerson = Vectors.dense(160.0,69.0,24.0)val svPerson = Vectors.sparse(3,Array(0,1,2),Array(160.0,69.0,24.0)密集向量方法定义:def de

2015-09-06 14:11:35 856

原创 sparkCookbook4-SparkSQL

catalyst优化器由两个主要目标:方便的添加新的优化技术允许外部开发者扩展优化器 sparkSQL在四个阶段使用catalyst转换框架1, Analyzing a logical plan to resolve references 2,Logical plan optimization 3, Physical planning 4,Code generation to compi

2015-09-02 16:35:30 594

原创 sparkcookbook阅读笔记

sparkcookbook

2015-08-27 11:01:40 854

原创 linux ip命令使用

测试文章发布

2024-09-26 09:17:53 852

原创 一键自动化博客发布工具

概念秒懂发布。

2024-09-26 08:59:05 436

原创 云原生概念秒懂

概念秒懂发布。

2024-09-25 09:24:14 1076 1

原创 Kubernetes部署与卸载

创建 Kubernetes cluster(单机版)最简单的方法是。国内网络环境下也可以考虑使用的 AllInOne 部署。

2024-03-14 15:54:38 1667

原创 【Spark的五种Join策略解析】

Spark将参与Join的两张表抽象为流式遍历表(streamIter)和查找表(buildIter),通常streamIter为大表,buildIter为小表,我们不用担心哪个表为streamIter,哪个表为buildIter,这个spark会根据join语句自动帮我们完成。对于每条来自streamIter的记录,都要去buildIter中查找匹配的记录,所以buildIter一定要是查找性能较优的数据结构。

2023-09-12 09:56:16 2961

原创 【无标题】

mac安装rar

2022-10-18 16:59:47 601 1

原创 博客搬迁啦

[新博客地址:大数据那点事儿](https://luckywind.github.io/)

2022-06-26 22:10:29 297

原创 ubuntu install jdk

1 查看系统版本file /etc/init2 查看是否已经安装jdkjava -version3 卸载自带openjdksudo apt-get purge openjdk*4 下载相应版本jdk并解压到指定目录tar jdk* -C /usr/local/5 配置环境变量vi /etc/profileJAVA_HOME=/usr/local/java/jdk1.8.0_20 JRE_HOM

2017-04-21 23:36:04 596

原创 hostname

hostname配置在哪里? hostname是Linux系统下的一个内核参数,它保存在/proc/sys/kernel/hostname下,但是它的值是Linux启动时从rc.sysinit读取的。而/etc/rc.d/rc.sysinit中HOSTNAME的取值来自与/etc/sysconfig/network下的HOSTNAME.修改了hostname后,如何使其立即生效而不用重启操作系统

2017-02-23 10:43:04 902

转载 MapReduce中的Shuffle和Sort分析

MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去

2017-02-21 15:52:22 594

原创 ubuntu设置有线上网

原有文件xingfu@moon:~$ cat /etc/network/interfaces# interfaces(5) file used by ifup(8) and ifdown(8)auto loiface lo inet loopbackxingfu@moon:~$ xingfu@moon:~$ cat /etc/resolv.conf# Dynamic resolv.con

2017-01-01 18:05:05 9625

原创 欢迎使用CSDN-markdown编辑器

idea开发mapreduce实战我的intellij idea版本是14,Hadoop版本2.6,使用《hadoop权威指南》的天气统计源码作为示例。下面附上源码,数据集在http://hadoopbook.com/code.html可以下载1901和1902两年数据:代码package com.hadoop.maxtemperature; import java.io.IOException;

2016-12-19 23:21:41 784

原创 win7无法安装msi解决办法

解决方案如下: 新建一个文本文件,输入msiexec /i d:\Setup.msi(假设文件名为Setup.msi ,放在d盘根目录下,即是安装程序的绝对路径)保存改扩展名为.cmd格式 右键鼠标—-然后以管理员身份运行这个程序就可以。如果再报错a network error occurred while attempting to read from the file : 注意报错后的文件

2016-12-06 17:16:24 12594 2

原创 hbase权威指南-客户端API高级特性

1.过滤器层次结构过滤器层次结构的最底层是Filter接口和FilterBase抽象类,它们实现了过滤器的空壳和骨架 大部分过滤器直接继承自FilterBase,用户定义一个所需要的过滤器实例,同时把定义好的过滤器实例传递给Get或Scan实例:setFilter(filter)2比较运算符继承自CompareFilter的过滤器比基类FilterBase多了一个compare()方法,它需要传入

2016-07-01 17:11:03 729

原创 hadoop权威指南(一)

Chap1 初始hadoopMapReduce比较适合以批处理方式处理需要分析整个数据集的问题,尤其是动态分析。MapReduce对非结构化或半结构化数据非常有效,因为它是中处理数据时才对数据进行解释。即MapReduce输入的键和值并不是数据固有的属性,而是由分析数据的人来选的。MapReduce是一种线性可伸缩编程模型,我们需要写map函数和reduce函数,每个函数定义一个键值对集合到另

2016-06-26 00:36:37 6318

原创 3 hbase基础知识

创建Put实例时用户需要提供一个行键row 创建Put实例之后,就可以向该实例添加数据类了。 Put add() 每次调用add()都可以特定地添加一列数据。 获取Put实例内部添加的KeyValue实例需要调用get()方法或者getFamilyMap()方法。 若要频繁地重复修改某些行,用户有必要创建一个RowLock实例来防止其他客户端访问这些行。KeyValue类

2016-06-25 16:31:04 542

转载 mac压缩为zip

最通俗的用法zip -q -r -e -m -o [yourName].zip someThing-q 表示不显示压缩进度状态-r 表示子目录子文件全部压缩为zip //这部比较重要,不然的话只有something这个文件夹被压缩,里面的没有被压缩进去-e 表示你的压缩文件需要加密,终端会提示你输入密码的// 还有种加密方法,这种是直接在命令行里做的,比如zip -r -P Password01!

2016-04-25 17:22:42 902

原创 在pyspark上配置ipython notebook

1.为Spark创建一个iPython notebook配置xcheng@Admins-MacBook-Pro-24:~/Spark/pyspark $ipython profile create spark[ProfileCreate] Generating default config file: u'/Users/xcheng/.ipython/profile_spark/ipython_c

2016-04-23 11:56:39 1686

原创 对三个超市销量、品牌数、均价聚类

K的选择kmeans++ k=2Within Set Sum of Squared Errors=118.06743855554647kmeans++ k=3Within Set Sum of Squared Errors=73.04285624370425kmeans++ k=4Within Set Sum of Squared Errors=56.56478515239625kmeans+

2016-04-23 10:11:52 1070

原创 烟草零售聚类1、KM_classic

package tobaccoimport org.apache.spark.mllib.clustering.{KMeans, KMeansModel}import org.apache.spark.mllib.feature.StandardScalerimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.r

2016-04-19 15:43:38 1469

原创 零售户logistics回归分类

package tobaccoimport data.copy._import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD}import org.apache.spark.mllib.clustering.KMeansimport org.apache

2016-04-14 15:34:51 953

原创 零售户决策树分类

package tobaccoimport data.copy._import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.evaluation.BinaryClassificationMetricsimport org.apache.spark.mllib.feature.StandardScal

2016-04-14 14:07:45 1491

原创 单机spark绑定端口

在IDE里配置SPARK_MASTER_IP=127.0.0.1SPARK_LOCAL_IP=127.0.0.1

2016-04-09 11:57:11 1190

原创 Integrating Apache Spark with PyCharm

参考 在/Applications/PyCharm CE.app/Contents/bin 下写了一个pycharm.shexport PYTHONPATH=/usr/local/share/spark1626/python/:/usr/local/share/spark1626/python/lib/py4j-0.9-src.zipexport SPARK_HOME=/usr/local/s

2016-04-01 13:41:39 652

原创 mac 上安装rsqldf

> install.packages("sqldf") % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 0 0 0

2016-03-31 12:57:25 1961

原创 插网线仍连不上网?

打开网络和共享中心–>更改适配器设置->选择一个本地连接属性->IPv4->自动获得IP地址-OK!

2016-03-20 15:26:39 8277

原创 pyspark初探(一)LearningSpark

启动pysparkIPYTHON=1 pysparkIPYTHON_OPTS="notebook" pyspark(set IPYTHON=1 pyspark for windows)执行python脚本spark-submit my_script.py初始化sparkcontextfrom pyspark import SparkConf,SparkContextconf = Spark

2016-03-15 17:01:51 4383

原创 mac安装Hadoop和hive

参考MACbrew install hadoop

2016-03-15 15:25:17 2366

原创 Spark读取csv数据

项目地址一、spark-shell方式$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.4.0IDE方式方式一逗号分隔法方式二参考

2016-03-14 12:02:38 6112

原创 mac下安装配置Spark

安装scala参考陋室 1. 解压scala到/usr/local/share/scala下 2. 配置scala环境变量 sudo su vi etc/profile 添加 export PATH=”$PATH:/usr/local/share/scala/bin”配置Spark参考

2016-03-08 17:54:48 3552

高清超级无敌python教程

高清pdf,包含Python 的方方面面,从安装开始,一步一步教你成为python高手

2015-06-01

hadoop开发所需类

开发hadoop必须的类,用于操作hadoop的文件系统

2015-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除