R 语言安装ggtreee 包 安装ggtreee 函数画出来的树都是铺满屏的,有没有什么方法把枝条调短一点

coders:R包干货奉献_coder吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0可签7级以上的吧50个
本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:155贴子:
coders:R包干货奉献
先思考,后动手,能让你减少很多无谓的功夫,加快完成任务的效率。按照一定的逻辑思路来行事,更是如此,比如按照一定的通用流程在数据科学项目中使用R语言。特此奉上使用R语言的正确姿势。【在实际工作中,每个数据科学项目各不相同,但基本都遵循一定的通用流程。具体如下】【下面列出每个步骤最有用的一些R包】1.数据导入以下R包主要用于数据导入和保存数据:feather:一种快速,轻量级的文件格式;在R和python上都可使用readr:实现表格数据的快速导入readxl:读取Microsoft Excel电子表格数据openxlsx:读取Microsoft Excel电子表格数据googlesheets:读取google电子表格数据haven:读取SAS,SPSS和Stata统计软件格式的数据httr:从网站开放的API中读取数据rvest:网页数据抓取包xml2:读取HTML和XML格式数据webreadr:读取常见的Web日志格式数据DBI:数据库管理系统通用接口包RMySQL:用于连接MySQL数据库的R包RPostgres:用于连接PostgreSQL数据库的R包bigrquery用于连接Google BigQuery的R包PivotalR:用于读取Pivitol(Greenplum)和HAWQ数据库中的数据dplyr:提供了一个访问常见数据库的接口data.table:data.table包的fread()函数可以快速读取大数据集git2r:用于访问git仓库2.数据整理以下R包主要用于数据整理,以便于你后续建模分析:tidyr:用于整理表格数据的布局dplyr:用于将多个数据表连接成一个整齐的数据集purrr:函数式编程工具,在做数据整理时非常有用broom:用于将统计模型的结果整理成数据框形式zoo:定义了一个名zoo的S3类型对象,用于描述规则的和不规则的有序的时间序列数据3.数据可视化以下R包用于数据可视化:ggplot2及其扩展:ggplot2包提供了一个强大的绘图系统,并实现了以下扩展ggthemes:提供扩展的图形风格主题ggmap:提供Google Maps、Open Street Maps等流行的在线地图服务模块ggiraph:绘制交互式的ggplot图形ggstance:实现常见图形的横向版本GGally:绘制散点图矩阵ggalt:添加额外的坐标轴、geoms等ggforce:添加额外geoms等ggrepel:用于避免图形标签重叠ggraph:用于绘制网络状、树状等特定形状的图形ggpmisc:光生物学相关扩展geomnet:绘制网络状图形ggExtra:绘制图形的边界直方图gganimate:绘制动画图plotROC:绘制交互式ROC曲线图ggspectra:绘制光谱图ggnetwork:网络状图形的geomsggradar:绘制雷达图ggTimeSeries:时间序列数据可视化ggtree:树图可视化ggseas:季节调整工具lattice:生成栅栏图rgl:交互式3D绘图ggvis:交互式图表多功能系统htmlwidgets:一个专为R语言打造的可视化JS库leaflet:绘制交互式地图dygraphs:绘制交互式时间序列图plotly:交互式绘图包rbokeh:用于创建交互式图表和地图Highcharter:绘制交互式Highcharts图visNetwork:绘制交互式网状图networkD3:绘制交互式网状图d3heatmap:绘制交互式热力图DT:用于创建交互式表格threejs:绘制交互式3d图形和地球仪 –rglwidget:绘制交互式3d图形DiagrammeR:绘制交互式图表MetricsGraphics:绘制交互式MetricsGraphics图rCharts:提供了对多个javascript数据可视化库(highcharts/nvd3/polychart)的R封装coefplot:可视化统计模型结果quantmod:可视化金融图表colorspace:基于HSL的调色板viridis:Matplotlib viridis调色板munsell:Munsell调色板RColorBrewer:图形调色板igraph:用于网络分析和可视化latticeExtra:lattice绘图系统扩展包sp:空间数据工具4.数据转换以下R包用于将数据转换为新的数据类型:dplyr:一个用于高效数据清理的R包magrittr:一个高效的管道操作工具包tibble:高效的显示表格数据的结构stringr:一个字符串处理工具集lubridate:用于处理日期时间数据xts:xts是对时间序列数据(zoo)的一种扩展实现,提供了时间序列的操作接口。data.table:用于快速处理大数据集vtreat:一个对预测模型进行变量预处理的工具stringi:一个快速字符串处理工具Matrix:著名的稀疏矩阵包5.统计建模与推断下述R包是统计建模最常用的几个R包,其中的一些R包适用于多个主题:car:提供了大量的增强版的拟合和评价回归模型的函数Hmisc:提供各种用于数据分析的函数multcomp:参数模型中的常见线性假设的同时检验和置信区间计算,包括线性、广义线性、线性混合效应和生存模型pbkrtest用于线性混合效应模型的参数Bootstrap检验MatrixModels:用于稠密矩阵和稀疏矩阵建模mvtnorm:用于计算多元正态分布和t分布的概率,分位数,随机偏差等SparseM:用于稀疏矩阵的基本线性代数运算lme4:利用C++矩阵库 Eigen进行线性混合效应模型的计算。broom:将统计模型结果整理成数据框形式caret:一个用于解决分类和回归问题的数据训练综合工具包glmnet:通过极大惩罚似然来拟合广义线性模型gbm:用于实现随机梯度提升算法xgboost:全称是eXtreme Gradient Boosting。是Gradient Boosting Machine的一个c++实现。目前已制作了xgboost工具的R语言接口randomForest:提供了用随机森林做回归和分类的函数ranger:用于随机森林算法的快速实现h2o:H2O是0xdata的旗舰产品,是一款核心数据分析平台。它的一部分是由R语言编写的,另一部分是由Java和Python语言编写的;用户可以部署H2O的R程序安装包,之后就可以在R语言环境下运行了ROCR:通过绘图来可视化分类器的综合性能pROC:用于可视化,平滑和对比ROC曲线6.沟通交流以下R包用于实现数据科学结果的自动化报告,以便于你跟人们进行沟通交流:rmarkdown :用于创建可重复性报告和动态文档knitr:用于在PDF和HTML文档中嵌入R代码块flexdashboard:基于rmarkdown,可以轻松的创建仪表盘bookdown:以R Markdown为基础,用于创作书籍和长篇文档rticles:提供了一套R Markdown模板tufte:用于实现Tufte讲义风格的R Markdown模板DT:用于创建交互式的数据表大圣众包威客平台()pixiedust:用于自定义数据表的输出xtable:用于自定义数据表的输出highr:用于实现R代码的LaTeX或HTML格式输出formatR:通过tidy_source函数格式化R代码的输出yaml:用于实现R数据与YAML格式数据之间的通信7.自动化分析以下R包用于创建自动化分析结果的数据科学产品:shiny:一个使用R语言开发交互式web应用程序的工具shinydashboard:用于创建交互式仪表盘shinythemes:给出了Shiny应用程序的常用风格主题shinyAce:为Shiny应用程序开发者提供Ace代码编辑器shinyjs:用于在Shiny应用程序中执行常见的JavaScript操作miniUI:提供了一个UI小部件,用于在R命令行中集成交互式应用程序shinyapps.io:为创建的Shiny应用程序提供托管服务Shiny Server Open Source:为Shiny应用程序提供开源免费的服务器Shiny Server Pro:为企业级用户提供一个Shiny应用程序服务器rsconnect:用于将Shiny应用程序部署到shinyapps.ioplumber:用于将R代码转化为一个web APIrmarkdown:用于创建可重复性报告和动态文档rstudioapi:用于安全地访问RStudio IDE的API8.程序开发以下这些包主要用于开发自定义的R包:RStudio Desktop IDE:R的IDE。大家都懂,不用解释。RStudio Server Open Source:开源免费的RStudio服务器RStudio Server Professional:商业版RStudio服务器devtools:一个让开发R包变得简单的工具集packrat:创建项目的特定库,用于处理包的版本问题,增强代码重现能力。drat:一个用于创建和使用备选R包库的工具testthat:单元测试,让R包稳定、健壮,减少升级的痛苦roxygen2:通过注释的方式,生成文档,远离Latex的烦恼purrr:一个用于 提供函数式编程方法的工具profvis:用于可视化R代码的性能分析数据Rcpp:用于实现R与C++的无缝整合R6:R6是R语言的一个面向对象的R包,可以更加高效的构建面向对象系统。htmltools:用于生成HTML格式输出nloptr:提供了一个NLopt非线性优化库的接口minqa:一个二次近似的优化算法包rngtools:一个用于处理随机数生成器的实用工具NMF:提供了一个执行非负矩阵分解的算法和框架crayon:用于在输出终端添加颜色RJSONIO:rjson是一个R语言与json进行转的包,是一个非常简单的包,支持用 C类库转型和R语言本身转型两种方式jsonlite:用于实现R语言与json数据格式之间的转化RcppArmadillo:提供了一个Armadillo C++ Library(一种C++的线性代数库)的接口9.实验数据以下R包给出了案例实战过程中可用的训练数据集:babynames:包含由美国社会保障局提供的三个数据集neiss:年期间提供给美国急诊室的所有事故报告样本数据yrbss:美国疾病控制中心年期间青年危险行为监测系统数据USAboundaries:2011年全年休斯顿机场的所有航班数据rworldmap:国家边界数据usdanutrients:美国农业部营养数据库fueleconomy:美国环保署年期间的燃油经济数据nasaweather:包含了一个覆盖中美洲的非常粗糙的24*24格地理位置和大气测量数据。mexico-mortality:墨西哥死亡人数数据data-movies和ggplotmovies:来自互联网电影数据库的数据pop-flows:2008年全美人口流动数据data-housing-crisis:经过清洗后的2008美国房地产危机数据gun-sales:纽约时报提供的有关枪支购买的每月背景调查统计分析数据stationaRy:从成千上万个全球站点收集到的每小时气象数据gapminder:摘自Gapminder的数据janeaustenr:简·奥斯丁小说全集数据更多R包介绍查看CRAN任务视图希望以上能为你的生活与工作带去实际的帮助。(更多大数据与商业智能领域干货、兼职机会及行业资源分享等请关注大圣众包微信服务号、“大圣众包”微博,或添加大圣妹个人微信号(dashengmeme),注明“行业+职业”,拉你入big data &BI交流群。)作者: 雪晴数据网
贴吧热议榜
使用签名档&&
保存至快速回贴在实际工作中,每个数据科学项目各不相同,但基本都遵循一定的通用流程。具体如下:数据科学工作流程数据导入数据整理反复理解数据数据可视化数据转换统计建模作出推断(比如预测)沟通交流自动化分析程序开发下面列出每个步骤最有用的一些R包:数据导入以下R包主要用于数据导入和保存数据feather:一种快速,轻量级的文件格式。在R和python上都可使用readr:实现表格数据的快速导入。中文介绍可参考这里readxl:读取Microsoft Excel电子表格数据openxlsx:读取Microsoft Excel电子表格数据googlesheets:读取google电子表格数据haven:读取SAS,SPSS和Stata统计软件格式的数据httr:从网站开放的API中读取数据rvest:网页数据抓取包xml2:读取HTML和XML格式数据webreadr:读取常见的Web日志格式数据DBI:数据库管理系统通用接口包RMySQL:用于连接MySQL数据库的R包RPostgres:用于连接PostgreSQL数据库的R包bigrquery用于连接Google BigQuery的R包PivotalR:用于读取Pivitol(Greenplum)和HAWQ数据库中的数据dplyr:提供了一个访问常见数据库的接口data.table:data.table包的fread()函数可以快速读取大数据集git2r:用于访问git仓库数据整理以下R包主要用于数据整理,以便于你后续建模分析:tidyr:用于整理表格数据的布局dplyr:用于将多个数据表连接成一个整齐的数据集purrr:函数式编程工具,在做数据整理时非常有用。broom:用于将统计模型的结果整理成数据框形式zoo:定义了一个名zoo的S3类型对象,用于描述规则的和不规则的有序的时间序列数据。数据可视化以下R包用于数据可视化:ggplot2及其扩展:ggplot2包提供了一个强大的绘图系统,并实现了以下扩展ggthemes:提供扩展的图形风格主题ggmap:提供Google Maps,Open Street Maps等流行的在线地图服务模块ggiraph:绘制交互式的ggplot图形ggstance:实现常见图形的横向版本GGally:绘制散点图矩阵ggalt:添加额外的坐标轴,geoms等ggforce:添加额外geoms等ggrepel:用于避免图形标签重叠ggraph:用于绘制网络状、树状等特定形状的图形ggpmisc:光生物学相关扩展geomnet:绘制网络状图形ggExtra:绘制图形的边界直方图gganimate:绘制动画图plotROC:绘制交互式ROC曲线图ggspectra:绘制光谱图ggnetwork:网络状图形的geomsggradar:绘制雷达图ggTimeSeries:时间序列数据可视化ggtree:树图可视化ggseas:季节调整工具lattice:生成栅栏图rgl:交互式3D绘图ggvis:交互式图表多功能系统htmlwidgets:一个专为R语言打造的可视化JS库leaflet:绘制交互式地图dygraphs:绘制交互式时间序列图plotly:交互式绘图包,中文介绍详见这里rbokeh:用于创建交互式图表和地图,中文介绍Highcharter:绘制交互式Highcharts图visNetwork:绘制交互式网状图networkD3:绘制交互式网状图d3heatmap:绘制交互式热力图,中文介绍DT:用于创建交互式表格threejs:绘制交互式3d图形和地球仪 -rglwidget:绘制交互式3d图形DiagrammeR:绘制交互式图表MetricsGraphics:绘制交互式MetricsGraphics图rCharts:提供了对多个javascript数据可视化库(highcharts/nvd3/polychart)的R封装。coefplot:可视化统计模型结果quantmod:可视化金融图表colorspace:基于HSL的调色板viridis:Matplotlib viridis调色板munsell:Munsell调色板RColorBrewer:图形调色板igraph:用于网络分析和可视化latticeExtra:lattice绘图系统扩展包sp:空间数据工具数据转换以下R包用于将数据转换为新的数据类型dplyr:一个用于高效数据清理的R包。视频学习课程magrittr:一个高效的管道操作工具包。tibble:高效的显示表格数据的结构stringr:一个字符串处理工具集lubridate:用于处理日期时间数据xts:xts是对时间序列数据(zoo)的一种扩展实现,提供了时间序列的操作接口。data.table:用于快速处理大数据集vtreat:一个对预测模型进行变量预处理的工具stringi:一个快速字符串处理工具Matrix:著名的稀疏矩阵包统计建模与推断下述R包是统计建模最常用的几个R包,其中的一些R包适用于多个主题。car:提供了大量的增强版的拟合和评价回归模型的函数。Hmisc:提供各种用于数据分析的函数multcomp:参数模型中的常见线性假设的同时检验和置信区间计算,包括线性、广义线性、线性混合效应和生存模型。pbkrtest用于线性混合效应模型的参数Bootstrap检验MatrixModels:用于稠密矩阵和稀疏矩阵建模mvtnorm:用于计算多元正态分布和t分布的概率,分位数,随机偏差等SparseM:用于稀疏矩阵的基本线性代数运算lme4:利用C++矩阵库 Eigen进行线性混合效应模型的计算。broom:将统计模型结果整理成数据框形式caret:一个用于解决分类和回归问题的数据训练综合工具包glmnet:通过极大惩罚似然来拟合广义线性模型gbm:用于实现随机梯度提升算法xgboost:全称是eXtreme Gradient Boosting。是Gradient Boosting Machine的一个c++实现。目前已制作了xgboost工具的R语言接口。详见统计之都的一篇介绍randomForest:提供了用随机森林做回归和分类的函数ranger:用于随机森林算法的快速实现h2o:H2O是0xdata的旗舰产品,是一款核心数据分析平台。它的一部分是由R语言编写的,另一部分是由Java和Python语言编写的。用户可以部署H2O的R程序安装包,之后就可以在R语言环境下运行了。ROCR:通过绘图来可视化分类器的综合性能。pROC:用于可视化,平滑和对比ROC曲线沟通交流以下R包用于实现数据科学结果的自动化报告,以便于你跟人们进行沟通交流。rmarkdown :用于创建可重复性报告和动态文档knitr:用于在PDF和HTML文档中嵌入R代码块flexdashboard:基于rmarkdown,可以轻松的创建仪表盘bookdown:以R Markdown为基础,用于创作书籍和长篇文档rticles:提供了一套R Markdown模板tufte:用于实现Tufte讲义风格的R Markdown模板DT:用于创建交互式的数据表pixiedust:用于自定义数据表的输出xtable:用于自定义数据表的输出highr:用于实现R代码的LaTeX或HTML格式输出formatR:通过tidy_source函数格式化R代码的输出yaml:用于实现R数据与YAML格式数据之间的通信。自动化分析以下R包用于创建自动化分析结果的数据科学产品:shiny:一个使用R语言开发交互式web应用程序的工具。中文教程shinydashboard:用于创建交互式仪表盘shinythemes:给出了Shiny应用程序的常用风格主题shinyAce:为Shiny应用程序开发者提供Ace代码编辑器。shinyjs:用于在Shiny应用程序中执行常见的JavaScript操作miniUI:提供了一个UI小部件,用于在R命令行中集成交互式应用程序shinyapps.io:为创建的Shiny应用程序提供托管服务Shiny Server Open Source:为Shiny应用程序提供开源免费的服务器Shiny Server Pro:为企业级用户提供一个Shiny应用程序服务器rsconnect:用于将Shiny应用程序部署到shinyapps.ioplumber:用于将R代码转化为一个web APIrmarkdown:用于创建可重复性报告和动态文档rstudioapi:用于安全地访问RStudio IDE的API程序开发以下这些包主要用于开发自定义的R包:RStudio Desktop IDE:R的IDE。大家都懂,不用解释。RStudio Server Open Source:开源免费的RStudio服务器RStudio Server Professional:商业版RStudio服务器devtools:一个让开发R包变得简单的工具集packrat:创建项目的特定库,用于处理包的版本问题,增强代码重现能力。drat:一个用于创建和使用备选R包库的工具testthat:单元测试,让R包稳定、健壮,减少升级的痛苦。roxygen2:通过注释的方式,生成文档,远离Latex的烦恼。purrr:一个用于 提供函数式编程方法的工具profvis:用于可视化R代码的性能分析数据Rcpp:用于实现R与C++的无缝整合。详见统计之都文章R6:R6是R语言的一个面向对象的R包,可以更加高效的构建面向对象系统。htmltools:用于生成HTML格式输出nloptr:提供了一个NLopt非线性优化库的接口minqa:一个二次近似的优化算法包rngtools:一个用于处理随机数生成器的实用工具NMF:提供了一个执行非负矩阵分解的算法和框架crayon:用于在输出终端添加颜色RJSONIO:rjson是一个R语言与json进行转的包,是一个非常简单的包,支持用 C类库转型和R语言本身转型两种方式。jsonlite:用于实现R语言与json数据格式之间的转化RcppArmadillo:提供了一个Armadillo C++ Library(一种C++的线性代数库)的接口实验数据以下R包给出了案例实战过程中可用的训练数据集:babynames:包含由美国社会保障局提供的三个数据集neiss:年期间提供给美国急诊室的所有事故报告样本数据yrbss:美国疾病控制中心年期间青年危险行为监测系统数据hflights:USAboundaries:2011年全年休斯顿机场的所有航班数据rworldmap:国家边界数据usdanutrients:美国农业部营养数据库fueleconomy:美国环保署年期间的燃油经济数据nasaweather:包含了一个覆盖中美洲的非常粗糙的24*24格地理位置和大气测量数据。mexico-mortality:墨西哥死亡人数数据data-movies和ggplotmovies:来自互联网电影数据库的数据pop-flows:2008年全美人口流动数据data-housing-crisis:经过清洗后的2008美国房地产危机数据gun-sales:纽约时报提供的有关枪支购买的每月背景调查统计分析数据stationaRy:从成千上万个全球站点收集到的每小时气象数据gapminder:摘自Gapminder的数据janeaustenr:简·奥斯丁小说全集数据更多R包介绍查看CRAN任务视图点击左下角【阅读原文】,浏览链接详情...雪晴数据网(xueqingdata)
 文章为作者独立观点,不代表大不六文章网立场
xueqingdata雪晴数据网是以数据科学为主题的在线教育平台,包含R语言、Python、数据挖掘、大数据技术等课程热门文章最新文章xueqingdata雪晴数据网是以数据科学为主题的在线教育平台,包含R语言、Python、数据挖掘、大数据技术等课程&&&&违法和不良信息举报电话:183-
举报邮箱:Copyright(C)2017 大不六文章网1904人阅读
机器学习&R&python(20)
一、一些函数包大汇总转载于:/thread--1.html时间上有点过期,下面的资料供大家参考基本的R包已经实现了传统多元统计的很多功能,然而CRNA的许多其它包提供了更深入的多元统计方法,下面要综述的包主要分为以下几个部分:&1) 多元数据可视化(Visualising multivariate data):&绘图方法:&基本画图函数(如:pairs()、coplot())和lattice包里的画图函数(xyplot()、splom())可以画成对列表的二维散点图,3维密度图。car包里的scatterplot.matrix()函数提供更强大的二维散点图的画法。cwhmisc包集合里的cwhplot包的pltSplomT()函数类似pair()画散点图矩阵,而且可以在对角位置画柱状图或密度估计图。除此之外,scatterplot3d包可画3维的散点图,aplpack包里bagplot()可画二变量的boxplot,spin3R()可画可旋转的三维点图。misc3d包有可视化密度的函数。YaleToolkit包提供许多多元数据可视化技术,agsemisc也是这样。更特殊的多元图包括:aplpack包里的faces()可画Chernoff’s face;MASS包里的parcoord()可画平行坐标图(矩阵的每一行画一条线,横轴表示矩阵的每列);graphics包里的stars()可画多元数据的星状图(矩阵的每一行用一个星状图表示)。ade4包里的mstree()和vegan包里的spantree()可画最小生成树。calibrate包支持双变量图和散点图,chplot包可画convex hull图。geometry包提供了和qhull库的接口,由convexhulln()可给出相应点的索引。ellipse包可画椭圆,也可以用plotcorr()可视化相关矩阵。denpro包为多元可视化提供水平集树形结构(level set trees)。graphics包里的mosaicplot()和vcd包里的mosaic()函数画马赛克图(mosaic plot)。gclus包提供了针对聚类的散点图和平行坐标图。rggobi包和DescribeDisplay包是GGobi的接口,DescribeDisplay的图可达到出版质量的要求;xgobi包是XGobi和XGvis的接口,可实现动态交互的图。最后,iplots包提供强大的动态交互图,尤其是平行坐标图和马赛克图。seriation包提供seriation方法,能重新排列矩阵和系统树。&数据预处理:&AIS包提供多元数据的初步描述函数。Hmisc包里的summarize()和summary.formula()辅助描述数据,varclus()函数可做聚类,而dataRep()和find.matches()找给定数据集的典型数据和匹配数据。KnnFinder包里的nn()函数用kd-tree找相似变量的个数。dprep包为分类提供数据预处理和可视化函数,如:检查变量冗余性、标准化。base包里的dist()和cluster包里的daisy()函数提供距离计算函数;proxy包提供更多的距离测度,包括矩阵间的距离。simba包处理已有数据和缺失数据,包括相似性矩阵和重整形。&2) 假设检验(Hypothesis testing):&ICSNP包提供霍特林(Hotellings)T2检验和许多非参检验方法,包括基于marginal ranks的位置检验(location test),计算空间中值和符号,形状估计。cramer包做两样本的非参检验,SpatialNP可做空间符号和秩检验。&3) 多元分布(Multivariate distributions):&描述统计(Descriptive measures):&stats包里的cov()和and cor()分别估计协方差和相关系数。ICSNP包提供几种数据描述方法,如:spatial.median()估计空间中值,其它的函数估计scatter。MASS包里的cov.rob()提供更健壮的方差/协方差矩阵估计。covRobust包用最近邻方差估计法估计协方差。robustbase包的covMCD()估计协方差和covOGK()做Orthogonalized Gnanadesikan-Kettenring。rrcov包提供可扩展和稳健的估计函数covMcd()、covMest()。corpcor包可计算大规模的协方差和偏相关矩阵。&密度估计和模拟(Densities (estimation and simulation)):&MASS包的mvrnorm()产生多元正态分布的随机数。Mvtnorm包有多元t分布和多元正态分布的概率和分位数函数,还可计算多元正态分布的密度函数。mvtnormpcs包提供基于Dunnett的函数。mnormt包提供元t分布和多元正态分布的密度和分布函数,并可产生随机数。sn包提供多元偏t分布和偏正态分布的密度、分布、随机数函数。delt包提供了许多估计多元密度的函数方法,如:CART和贪婪方法。CRAN的Cluster任务列表()有更全面的信息,ks包里的rmvnorm.mixt()和dmvnorm.mixt()函数产生随机数和估计密度,bayesm包里有多种拟合方法。很多地方都提供了模拟Wishart分布的函数,如:bayesm包里的rwishart(),MCMCpack包里的rwish(),而且MCMCpack包还有密度函数dwish()。KernSmooth 包里的bkde2D()和MASS包的kde2d()做分箱(binned)或不分箱二维核密度估计。ks包也像ash和GenKern包样可做核平滑(kernel smoothing)。prim包用法找高维多元数据的高密度区域,feature包可计算多元数据的显著特征。&正态检验(Assessing normality):&mvnormtest包提供Shapiro-Wilks检验的多元数据延伸方法,mvoutlier包检测多元离群点(outlier),ICS包可检验多元正态分布。energy 包里的mvnorm.etest()基于E统计量做正态检验,k.sample()检验多个数据是否来自同一分布。dprep 包里的mardia()用Mardia检验正态性。stats包里的mauchly.test()可检验Wishart分布的协方差矩阵。&连接函数(Copulas):&copula包提供常规的copula函数的程序,包括:normal, t, Clayton, Frank, Gumbel。fgac包提供generalised archimedian copula,mlCopulaSelection包可做二变量的copula。&4) 线形模型(Linear models):&stats包里的lm()可做多元线形模型,anova.mlm()比较多个多元线形模型,manova()做多元方差分析(MANOVA)。sn包的msn.mle()和 and mst.mle()可拟合多元偏正态和偏t分布模型。pls包提供偏最小二乘回归(PLSR)和主成分回归;ppls包可做惩罚偏最小二乘回归;dr包提供降维回归方法,如.:片逆回归法(Sliced Inverse Regression)、片平均方差估计(sliced average variance estimation)。plsgenomics包做基于偏最小二乘回归的基因组分析。relaimpo包可评估回归参数的相对重要性。&5) 投影方法(Projection methods):&主成分(Principal components):&stats包的prcomp()(基于svd())和princomp()(基于eigen())能计算主成分。sca包做单分量分析。nFactors可评价碎石图(Scree plot),paran包可评估主成分分析得到的主成分和因子分析得到的因子。pcurve包做主曲线(Principal Curve)分析和可视化。gmodels包提供适合大矩阵的fast.prcomp()和fast.svd()。kernlab包里的kpca()用核方法做非线性的主成分分析。pcaPP包用投影寻踪(projection pursuit)法计算稳健/鲁棒(robust)主成分。amap包的acpgen()和acprob()函数分别针对广义(generalized)和稳健(robust)主成分分析。主成分在很多方面也有相应的应用,如:涉及生态的ade4包,感官的SensoMinR包。psy包里有用于心理学的各种程序,与主成分相关的有:sphpca()用球形直观表示相关矩阵,类似于3D的PCA;fpca()图形展示主成分分析的结果,而且允许某些变量间有相关性;scree.plot()图形展示相关或协方差矩阵的特征值。PTAk包做主张量分析(Principal Tensor Analysis)。smatr包提供关于异速生长(allometry)的函数。&典型相关(Canonical Correlation):&stats包里的cancor()是做典型相关的函数。kernlab包提供更稳健的核方法kcca()。concor包提供了许多concordance methods。&冗余度分析(Redundancy Analysis):&calibrate包里的rda()函数可做冗余度分析和典型相关。fso包提供了模糊集排序(Ordination)方法。&独立成分(Independent Components):&fastICA包用fastICA算法做独立成分分析(ICA)和投影寻踪分析(Projection Pursuit),mlica包提供独立成分分析的最大似然拟合,PearsonICA包用基于互信息的打分函数分离独立信号。ICS包能执行不变坐标系(invariant coordinate system)和独立成分分析(independent components)。JADE包提供就JADE算法的接口,而且可做一些 ICA。&普鲁克分析(Procrustes analysis):&vegan包里的procrustes()可做普鲁克分析,也提供排序(ordination)函数。更一般的普鲁克分析可由FactoMineR包里的GPA()实现。&6) 主坐标/尺度方法(Principal coordinates / scaling methods):&stats包的cmdscale()函数执行传统的多维尺度分析(multidimensional scaling,MDS)(主坐标分析Principal Coordinates Analysis),MASS包的sammon()和isoMDS()函数分别执行Sammon和Kruskal非度量多维尺度分析。vegan包提供非度量多维尺度分析的包装(wrappers)和后处理程序。&7) 无监督分类(Unsupervised classification):&聚类分析:&CRAN的Cluster任务列表全面的综述了R实现的聚类方法。stats里提供等级聚类hclust()和k-均值聚类kmeans()。cluster包里有大量的聚类和可视化技术,clv包里则有一些聚类确认程序,e1071包的classAgreement()可计算Rand index比较两种分类结果。Trimmed k-means聚类分析可由trimcluster包实现,聚类融合方法(Cluster Ensembles)由clue包实现,clusterSim包能帮助选择最佳的聚类,hybridHclust包提供一些混合聚类方法。energy包里有基于E统计量的距离测度函数edist()和等级聚类方法hclust.energy()。LLAhclust包提供基于似然(likelihood linkage)方法的聚类,也有评定聚类结果的指标。fpc包里有基于Mahalanobis距离的聚类。clustvarsel包有多种基于模型的聚类。模糊聚类(fuzzy clustering)可在cluster包和hopach包里实现。Kohonen包提供用于高维谱(spectra)或模式(pattern)的有监督和无监督的SOM算法。clusterGeneration包帮助模拟聚类。CRAN的Environmetrics任务列表里也有相关的聚类算法的综述。mclust包实现了基于模型的聚类,MFDA包实现了功能数据的基于模型的聚类。&树方法:&CRAN的MachineLearning任务列表有对树方法的细节描述。分类树也常常是重要的多元方法,rpart包正是这样的包,rpart.permutation包还可以做rpart()模型的置换(permutation)检验。TWIX包的树可以外部剪枝。hier.part包分割多元数据集的方差。mvpart包可做多元回归树,party包实现了递归分割(recursive partitioning),rrp包实现了随机递归分割。caret包可做分类和回归训练,进而caretLSF包实现了并行处理。kknn包的k-近邻法可用于回归,也可用于分类。&8) 有监督分类和判别分析(Supervised classification and discriminant analysis):&MASS包里的lda()和qda()分别针对线性和二次判别分析。mda包的mda() and fda()允许混合和更灵活的判别分析,mars()做多元自适应样条回归(multivariate adaptive regression splines),bruto()做自适应样条后退拟合(adaptive spline backfitting)。earth包里也有多元自适应样条回归的函数。rda包可用质心收缩法(shrunken centroids regularized discriminant analysis)实现高维数据的分类。VR的class包的knn()函数执行k-最近邻算法,knncat包里有针对分类变量的k-最近邻算法。SensoMineR包的FDA()用于因子判别分析。许多包结合了降维(dimension reduction)和分类。klaR包可以做变量选择,可处理多重共线性,还有可视化函数。superpc包利用主成分做有监督的分类,classPP包则可为其做投影寻踪(projection pursuit),gpls包用广义偏最小二乘做分类。hddplot包用交叉验证的线性判别分析决定最优的特征个数。supclust包可以根据芯片数据做基因的监督聚类。ROCR提供许多评估分类执行效果的方法。predbayescor包可做朴素贝叶斯(na&ve Bayes)分类。关于监督分类的更多信息可以看MachineLearning任务列表。&9) 对应分析(Correspondence analysis):&MASS包的corresp()和mca()可以做简单和多重对应分析。ca包提供单一、多重和联合(joint)对应分析。ade4包的ca()和mca()分别做一般的和多重对应分析。vegan包里也有类似的函数。cocorresp可实现两个矩阵间的co-correspondence分析。FactoMineR 包的CA()和MCA()函数也能做类似的简单和多重对应分析,还有画图函数。homals执行同质分析(homogeneity)。&10) 前向查找(Forward search):&Rfwdmv包执行多元数据的前向查找。&11) 缺失数据(Missing data):&mitools包里有缺失数据的多重估算(multiple imputation)的函数, mice包用chained equations实现了多重估算,mvnmle包可以为多元正态数据的缺失值做最大似然估计(ML Estimation),norm包提供了适合多元正态数据的估计缺失值的期望最大化算法(EM algorithm),cat包允许分类数据的缺失值的多重估算,mix包适用于分类和连续数据的混合数据。pan包可为面版数据(panel data)的缺失值做多重估算。VIM包做缺失数据的可视化和估算。Hmisc包的aregImpute()和transcan()提供了其它的估算缺失值方法。EMV包提供了knn方法估计缺失数据。monomvn包估计单调多元正态数据的缺失值。&12) 隐变量方法(Latent variable approaches):&stats包的factanal()执行最大似然因子分析,MCMCpack包可做贝叶斯因子分析。GPArotation包提供投影梯度(Gradient Projection)旋转因子法。FAiR包用遗传算法作因子分析。ifa包可用于非正态的变量。sem包拟合线形结构方程模型。ltm包可做隐含式语义分析 (Latent semantic analysis),eRm包则可拟合Rasch模型(Rasch models)。FactoMineR包里有很多因子分析的方法,包括:MFA()多元因子分析,HMFA()等级多元因子分析,ADFM()定量和定性数据的多元因子分析。tsfa包执行时间序列的因子分析。poLCA包针对多分类变量(polytomous variable)做潜类别分析(Latent Class Analysis)。&13) 非高斯数据建模(Modelling non-Gaussian data):&bivpois包建模Poisson分布的二变量。mprobit包提供了适合二元和顺序响应变量的多元概率模型。MNP包实现了Bayesian多元概率模型。polycor包可计算多组相关(olychoric correlation)和四分相关(tetrachoric correlation)矩阵。bayesm包里有多种模型,如:表面非相关回归(Seemingly unrelated Regression),多元logit/probit模型, 工具变量法(Instrumental Variables)。VGAM包里有:广义线形和可加模型(Vector Generalised Linear and Additive Models),减秩回归(Reduced Rank regression)。&14) 矩阵处理(Matrix manipulations):&R作为一种基于向量和矩阵的语言,有许多处理矩阵的强有力的工具,由包Matrix和,SparseM实现。matrixcalc包增加了矩阵微积分的功能。spam包提供了更深入的针对稀疏矩阵的方法。&15) 其它(Miscellaneous utitlies):&DEA包执行数据包络分析(data envelopment analysis,DEA)。abind包组合多维array。Hmisc&包的mApply()扩充了apply()的功能。除了前面描述的功能,sn包还未偏正态和偏t分布提供边缘化(marginalisation)、仿射变换(affine transformations)等。SharedHT2包执行芯片数据的Hotelling's T2检验。panel包里有面版数据(panel data)的建模方法。mAr包可做向量自回归模型(vector auto-regression),MSBVAR包里有贝叶斯向量自回归模型。Hmisc包的rm.boot()函数bootstrap重复测量试验(Repeated Measures Models)。compositions包提供复合数据分析(compositional data analysis)。&cramer包为两样本数据做多元非参Cramer检验。psy里有许多心理学的常用方法。cwhmisc包集合的cwhmath包里有许多有趣的功能,如各种旋转函数。desirability包提供了基于密度函数的多变量最优化方法。geozoo包可以画geozoo包里定义的几何对象。————————————————————————————————————————————————二、以下所有资讯都来自与的&转载于:/note//是计算机科学和统计学的边缘交叉领域,R关于机器学习的包主要包括以下几个方面:&1)神经网络(Neural Networks):nnet包执行单隐层前馈神经网络,nnet是VR包的一部分()。2)递归拆分(Recursive Partitioning):递归拆分利用树形结构模型,来做回归、分类和生存分析,主要在rpart包()和tree包()里执行,尤其推荐rpart包。Weka里也有这样的递归拆分法,如:J4.8, C4.5, M5,包Rweka提供了R与Weka的函数的接口()。party包提供两类递归拆分,能做到无偏的变量选择和停止标准:函数ctree()用非参条件推断法检测自变量和因变量的关系;而函数mob()能用来建立参数模型()。另外,party包里也提供二分支树和节点分布的可视化展示。mvpart包是rpart的改进包,处理多元因变量的问题()。rpart.permutation包用置换法(permutation)评估树的有效性()。knnTree包建立一个分类树,每个叶子节点是一个knn分类器()。LogicReg包做逻辑回归分析,针对大多数自变量是二元变量的情况()。maptree包()和pinktoe包()提供树结构的可视化函数。3)随机森林(Random Forests):randomForest 包提供了用随机森林做回归和分类的函数()。ipred包用bagging的思想做回归,分类和生存分析,组合多个模型()。party包也提供了基于条件推断树的随机森林法()。varSelRF包用随机森林法做变量选择()。4)Regularized and Shrinkage Methods:lasso2包()和lars包()可以执行参数受到某些限制的回归模型。elasticnet包可计算所有的收缩参数()。glmpath包可以得到广义线性模型和COX模型的L1 regularization path()。penalized包执行lasso (L1) 和ridge (L2)惩罚回归模型(penalized regression models)()。pamr包执行缩小重心分类法(shrunken centroids classifier)()。earth包可做多元自适应样条回归(multivariate adaptive regression splines)()。5)Boosting :gbm包()和boost包()执行多种多样的梯度boosting算法,gbm包做基于树的梯度下降boosting,boost包包括LogitBoost和L2Boost。GAMMoost包提供基于boosting的广义相加模型(generalized additive models)的程序()。mboost包做基于模型的boosting()。6)支持向量机(Support Vector Machines):e1071包的svm()函数提供R和LIBSVM的接口 ()。kernlab包为基于核函数的学习方法提供了一个灵活的框架,包括SVM、RVM……() 。klaR 包提供了R和SVMlight的接口()。7)贝叶斯方法(Bayesian Methods):BayesTree包执行Bayesian Additive Regression Trees (BART)算法(,)。tgp包做Bayesian半参数非线性回归(Bayesian nonstationary, semiparametric nonlinear regression)()。8)基于遗传算法的最优化(Optimization using Genetic Algorithms):gafit包()和rgenoud包()提供基于遗传算法的最优化程序。9)关联规则(Association Rules):arules包提供了有效处理稀疏二元数据的,而且提供函数执Apriori和Eclat算法挖掘频繁项集、最大频繁项集、闭频繁项集和关联规则()。10)模型选择和确认(Model selection and validation):e1071包的tune()函数在指定的范围内选取合适的参数()。ipred包的errorest()函数用重抽样的方法(交叉验证,bootstrap)估计分类错误率()。svmpath包里的函数可用来选取支持向量机的cost参数C()。ROCR包提供了可视化分类器执行效果的函数,如画ROC曲线()。caret包供了各种建立预测模型的函数,包括参数选择和重要性量度()。caretLSF包()和caretNWS()包提供了与caret包类似的功能。11)统计学习基础(Elements of Statistical Learning):书《The Elements of Statistical Learning: Data Mining, Inference, and Prediction 》()里的数据集、函数、例子都被打包放在ElemStatLearn包里()。12)R统计软件的Lars算法的软件包提供了Lasso算法。根据模型改进的需要,数据挖掘工作者可以借助于Lasso算法,利用AIC准则和BIC准则精炼简化统计模型的变量集合,达到降维的目的。因此,Lasso算法是可以应用到数据挖掘中的实用算法。glasso(graphical lasso)是lasso方法的一种扩展,采用加罚的极大似然方法估计变量间协方差矩阵的逆矩阵(这个逆矩阵在图模型中被称为Concentration Matrix或者Precision Matrix),加以适当整理之后,可以得到变量间的稀疏化的偏相关系数矩阵,其中的零元素表示了变量间的条件独立关系。我们可以利用其中的非零元素生成图模型。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:264128次
积分:4112
积分:4112
排名:第6317名
原创:153篇
转载:52篇
评论:136条
技术与技法日进千里,快速迭代过程中,真正能够留下的是应用场景的重构与对新商业范式的思考。
——微信公众号:素质云笔记
文章:21篇
阅读:45695
文章:26篇
阅读:62716
(6)(21)(20)(7)(13)(19)(6)(18)(2)(18)(17)(30)(4)(9)(3)}

我要回帖

更多关于 gg网络语言啥意思 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信