数据挖掘机器学习R语言

关注数据挖掘、机器学习、R语言、php、创业等

Latest articles

用R语言做数据分析(5)——数据框

用R语言做数据分析(5)——数据框 2014-05-12 数据挖掘机器学习R语言 前面几篇文章对R语言、R包以及R向量与矩阵等对象做了简单介绍,本篇继续介绍R数据框的相关内容。数据框的创建通过data.frame函数来创建数据框,该函数包含的主要参数为:data.frame(..., row.names = NULL, check.rows = FALSE, check.names = TRUE, stringsAsFactors = default.stringsAsFactors())创建一个数据框Demo_1<-data.frame(name=c('lucy','alice','lei'), ...

用R进行微博分析的初步尝试

之前好奇注册了个公共号,然后就没搭理了 今天上来一看上千人了,看来有很多人对R语言感兴趣,同时也鼓励我来发内容,今天先转发一条帖子,希望大家喜欢,同事期待大家的反馈。PS:苦逼的程序员,都是这么个时候睡觉。。。。新浪微博如火如荼,基于微博的各种应用也层出不穷。有一种共识似乎是:微博数据蕴含着丰富的信息,加以适当的挖掘,能够实现众多商业应用。恰好社会网络分析也是我之前有所了解并持续学习的一个领域,因此我做了微博数据分析方面的一些尝试。这些尝试是比较初步的,属于探索性的阶段,当然不能跟微博分析家这样比较成熟的应用相提并论。并且我的分析基本上都出于想当然的直觉感受,没有具体的理论支撑,这方面需要试着找点书籍来阅读一下,貌似有蛮多可以参考的。一、用R登录并发布微博之所以仍然选择用R来做这个登录和发布的工作,是考虑到分析过程的连续性,毕竟能够在同一个平台下面完成所有的工作,还是很令人身心愉悦的。这里借助了一款命令行浏览器cURL,这个浏览器在R中可以用RCurl实现,简单的介绍建议参考medo的《R不务正业之RCurl》。由于我对HTTP这些东西都属于初级未入门水平,没能实现直接的登录,只好利用了cookie实现间接登录。但是最终结果还是蛮稳定...

用R做数据分析(1)——R简介

R语言是由 Ross Ihaka、Robert Gentleman二位创建的,这也许可以解释为什么叫R语言。现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU项目。 R是为统计计算和作图的一门语言和环境。是一个GNU项目,和S语言和环境很相似,S语言是由BELL实验室的John Chambers和他的同事开发的。R语言可以认为是从S语言衍生而来的,他们之前有很重要的不同,但是大多数用S语言写的代码也可以在R中运行。 目前R在高校非常流行,特别是随着这几年互联网的发展,(R在一些大公司的运用得到的实践,例如:国外的google、linkdin、facebook等,国内一些大型互联网公司也在开始使用R),及随着互联网版权的意识增强,也促使了R在互联网的发展。当然R在很多领域都有很广泛的运用。...

R中的tapply函数

推荐一个微信公众号,有需要买行车记录仪的同学们可以关注下。有时候,我们需要对组数据进行函数计算,怎么办?首先,创建一个分组因子用来识别每个对应的数据组;然后,使用R中tapply函数,它会把一个函数应用到每组数据。语法格式如下。tapply(x, f, fun)说明:x是一个向量,f是一个分组因子,fun是一个函数。函数返回一个对分组数据进行fun运算所得结果而构成的一个向量。关于tapply函数,举例说明如下。> data1 <- c(100, 200, 300, 400, 150, 180)> sum(data1)[1] 1330> mean(data1)[1] 221.6667> f1 <- factor(c("A", "B", "A", "B", "A",...

R语言与机器学习学习笔记(分类算法)

人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统。现代神经网络是一种非线性统计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的模式。人工神经网络从以下四个方面去模拟人的智能行为: 物理结构:人工神经元将模拟生物神经元的功能计算模拟:人脑的神经元有局部计算和存储的功能,通过连接构成一个系统。人工神经网络中也有大量有局部处理能力的神经元,也能够将信息进行大规模并行处理存储与操作:人脑和人工神经网络都是通过神经元的连接强度来实现记忆存储功能,同时为概括、类比、推广提供有力的支持训练:同人脑一样,人工神经网络将根据自己的结构特性,使用不同的训练、学习过程,自动从实践中获得相关知识...

R语言在做为数据分析工具的优点

我从事数据分析工作已经有十年之久。最初是出于工作需要,我的经理给我一堆数据,我需要处理这些数据。当时我一直使用的工具是 Excel,因为这是我熟练掌握的一款工具。三年前,我开始接触到 R,一开始因为功能太多而坚决抵制使用。后来我开始琢磨如何使用。现在我基本不怎么使用 Excel 了。这只是我个人的观点,但是如果你要分析数据,R 更胜任这项任务。下面来说说为什么 R 更适合数据分析。这两款工具的使用方法截然不同。使用Excel时,可以通过鼠标点击完成大部分工作,你可以访问界面内不同位置的各种工具。因此Excel非常便于使用(熟能生巧),但是用Excel处理数据非常费时,而且如果接手一个新项目,你必须单调地重复这些流程。使用R时,则通过代码完成所有操作。你把数据载入内存,然后运行脚本来研究并处理数据。这个工具可能不够人性化,但是有以下几点好处。我认为,从概念上来说,R更便于使用。如果你在处理多列数据,虽然你只是在处理单个任务,但是却会看到所有的数据。而使用R时,数据都在内存中,只有调出数据才能看到。如果你在转换或计算,你会处理相关列或行的子集,其他所有数据都在后台。我觉得这样更便于关注手头的任务。完成任务后,可将其保存在某个数据帧中,其中...

利用R语言对QQ群之间的关系进行分析

偶然一次机会,老江问我03化学的群当中有哪些人很少说话,甚至从没说过话。很好奇的就去查了一下,发现腾讯的QQ群只可以查到群成员最近一次说话的时间,没有更为详细的比如哪位成员发言多,具体有多少,活跃天数怎样等。于是恰好想拿这个数据出来玩玩。,就打算开工做一个呗。数据源:2011-01-01至2012-09-04的多人汇总聊天记录(由于QQ不在线不接受群聊记录,所以结合多人聊天记录去重汇总)分析工具: R (涉及包有stringr, plyr, rmmseg4j, igraph)1. 整体发言量排行榜,按聊天记录汇总倒序。本人,大马,阿铁蝉联三甲,包军同学说是黑榜,原因是他总有几次群内说话而出现在榜单当中。 表一:群内发言量TOP 102. 基于有部分同学,很少上网。但一上网就收不住。说上好几页的。于是按天次做了下面这个统计,即一天在群内不管多少次发言,只算一次,从而分析群内成员的活跃天数。钱妹子毅然进入前三,哈哈,而缪静同学在群里说话不多,但是每天要说上几句。...

用R语言做数据分析(8)——数据的输入与输出之READ函数

非常感谢大家的回复,希望大家多多转发,多多推广,这样我们才会更有动力。read.table() 函数1、用于读入表格(表)类型的数据,同时生成数据框对象。2、读入的数据要求有规则的分隔符,默认有:空格、TAB、换行符、回车符;其它的分隔符,通过sep=来进行指定。read.table(file, header = FALSE, sep = "", quote = "\"'", dec = ".", row.names, col.names, as.is = !stringsAsFactors, na.strings = "NA", colClasses = NA, nrows = -1, skip = 0, check.names...

用R语言做数据分析(7)——数据的输入与输出之Scan函数

前面系列文章,介绍了R语言中的几种数据格式;其它特殊的数据格式将在后续的文章中介绍,接下来的几篇文章,将讨论如何从外部中读入数据或者将其它格式的数据读入到R环境中;scan() 函数scan(file = "", what = double(0), nmax = -1, n = -1, sep = "", quote = if(identical(sep, "\n")) "" else "'\"", dec = ".", skip = 0, nlines = 0, na.strings = "NA", flush = FALSE, fill = FALSE, strip.white = FALSE, quiet = FALSE, blank.lines.skip...

用R做数据分析(4)——矩阵

矩阵的创建在R中用函数matrix()来创建一个矩阵,使用该函数时需要输入必要的参数值。matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE,dimnames = NULL)1. data向量元素列表2. nrow行数3. ncol列数4. byrow 矩阵是按列优先的方式进行排序, 先列后行。byrow项控制排列元素时优先级按行。例如:1) matrix(c(1,2,3,4,5,6),nrow=2,byrow=T)5. Dimnames(Row_name,Col_name)给定行和列的名称,如果不需要给行或者列命名,则以NULL代替。例如:给下面的矩阵列命令2) Demo_1<-matrix(rnorm(15)*10,5,3,dimnames=list(NULL,c('A','B','C')))矩阵的运算1、R矩阵查看矩阵的列/行相关信息#查看矩阵列名colnames(Demo_1)#查看矩阵行名rownames(Demo_1)#给矩阵的行命名rownames(Demo_1)<-c('r1','r2','r3','r4','r5')#矩阵的维度dim(Demo_1)#返回...

Discover, share and read the best on the web

Subscribe to RSS Feeds, Blogs, Podcasts, Twitter searches, Facebook pages, even Email Newsletters! Get unfiltered news feeds or filter them to your liking.

Get Inoreader
Inoreader - Subscribe to RSS Feeds, Blogs, Podcasts, Twitter searches, Facebook pages, even Email Newsletters!