首页 文章
  • 2 votes
     answers
     views

    当从二项式随机变量建模值时,Stan / RStan中if()条件的问题

    我正在尝试使用Stan和R来拟合一个模型,呃,模拟观察到的实现y_i = 16,9,10,13,19,20,18,17,35,55,它们来自二项式分布随机变量,比方说,Y_i,参数m_i(试验次数)和p_i(每次试验中的成功概率) . yi = c(16, 9, 10, 13, 19, 20, 18, 17, 35, 55) 出于本实验的目的,我将假设所有m_i都是固定的并由m_i = 74,9...
  • 3 votes
     answers
     views

    用Stan实现预测后验分布

    Background 我有一个例子,试图在正常测量模型的背景下证明后验预测分布 . 使用的数据如下: speed <- c(28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30, 23, 29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26...
  • 5 votes
     answers
     views

    评估线性混合模型中的似然函数(lme4)

    我目前正在编写一个脚本来评估用于线性混合模型的(受限制的)对数似然函数 . 我需要它来计算模型的可能性,其中一些参数固定为任意值 . 也许这个脚本对你们中的一些人也有帮助! 我使用 lme4 和 logLik() 中的 lmer() 来检查我的脚本是否正常工作 . 而且看起来,它没有!由于我的教育背景并不真正关注这一级别的统计数据,我有点迷失了 . 接下来,您将找到一个使用sleepstudy-d...
  • 1 votes
     answers
     views

    如何从sm.regression中提取摘要统计信息?

    我正在使用包 sm 中的 sm.regression 功能来完成我的大学任务,并遇到了一些我无法在网上找到答案的问题 . The task is: 使用二维内核平滑拟合二元平滑项,用于响应Y和X和Z之间的双变量项 . 应使用非常高的平滑参数来强制线性关系,同时应确定Z的平滑度水平在可视化数据 . My code: require(sm) x <- cbind(Z,X) y <- Y...
  • 14 votes
     answers
     views

    将igraph对象转换为R中的数据框

    我正在使用iGraph库,我需要在网络上运行一些统计分析 . 我正在使用iGraph计算几个变量,然后想要将这些指标用作几个回归中的因变量,将顶点属性用作模型中的自变量 . 所以,我能够加载数据,运行igraph分析,但是我无法将igraph对象转回数据框 . 我真的不需要保留边缘,只需将每个顶点转换为观察结果,每个行中的属性作为列 . 我尝试了以下方法: fg <- fastgreedy....
  • 0 votes
     answers
     views

    分类任务的显着性检验

    假设对于分类任务,我有算法A和算法B,以及大小为M的标记数据集 . 算法A和算法B都是“确定性”机器学习方法,也就是说,算法没有一些参数是一个随机种子,因此即使使用相同的数据集,给定不同的随机种子,训练的分类器也可以是不同的 . 我的问题是,如果我想证明算法A在统计上比算法B更好(或更差),我应该怎么做?
  • 2 votes
     answers
     views

    Power BI小计行

    我想改变一个表的视图 . 我附上了一张图片: 我喜欢做的只是显示最后一个百分比列并隐藏其他2个子小计百分比列,这些列填充-100%或无穷大 . 这是百分比列在2017年和2018年之间计算的原因 . 有人可以向我解释我如何隐藏/删除前2个百分比并保留最后一个? 提前致谢
  • 0 votes
     answers
     views

    在具有相同功能的不同模型中聚合要素重要性的最佳方法是什么?

    我在类似的生物数据集上训练了16种不同的模型来预测特定疾病(目标)的发生,从~17000个生物超途径(特征) . 每个数据集具有相同的功能,但不是相同的模型体系结构 . 此外,一半数据集代表现实世界疾病发生率(~5%),而另一半数据集通过重新采样阳性类别来 balancer . 还有一些其他数据转换,以便每个模型都会强调数据的不同属性 . 以下是所有模型和数据集中要素的索引(来自有序要素重要性的...
  • 3 votes
     answers
     views

    如果SQL Server统计信息在负载与非峰值使用情况下更新,它们是否会收集不同的数据?

    直截了当,基本问题是:有没有人听到任何暗示统计数据需要在日常使用中更新才能生效而非高峰时段? 我们最近遇到了一个数据库问题,其中查询计划偏离轨道并决定使用表扫描而不是搜索 . 当然,这会导致严重的锁定问题,并在我们追踪索引并更新正确的统计数据时导致客户延迟 . 查询计划似乎是我们在系统上每周运行一次的维护计划的结果 . 该计划的最后一步是更新统计数据 . 最近唯一改变的是统计更新被设置为10%的样...
  • 0 votes
     answers
     views

    Oracle如何更新统计数据?

    Oracle实例版:“Oracle Database 11g企业版11.2.0.1.0版 - 64位 生产环境 版” 创建一个新表[ord],表中没有任何内容,我们使用[select * from ord]来检查统计信息,成本是2 我们在[ord]表中插入1000条记录并执行以下脚本来收集统计信息,现在成本为9 EXEC dbms_stats.gather_table_stats(...
  • 177 votes
     answers
     views

    统计分析和报告编写的工作流程

    有没有人对与自定义报告编写相关的数据分析工作流程有任何了解?用例基本上是这样的: 客户委托使用数据分析的报告,例如水区的人口估计和相关 Map . 分析师下载一些数据,发送数据并保存结果(例如,为每单位人口添加一列,或根据地区边界对数据进行子集化) . 分析师分析(2)中创建的数据,接近她的目标,但看到需要更多数据,所以回到(1) . 冲洗重复,直到表格和图形符合QA / QC并...
  • 0 votes
     answers
     views

    根据另一个时间序列的季节性调整时间序列数据

    因此,我将调用两个成本数据集:(1)成本(2)实现成本 (1)按日常频率和(2)按月计算 . 我想通过在一个月内取每日平均值将(2)投影到每日数字中,然后通过应用(1)中的季节性因子来基本调整(2) . 我有两年的两组数据,并希望从(1)中提取一周的趋势和一年中的一个月趋势,并将它们应用于(2)以进行调整 . 我不确定如何提取这些趋势 . 我尝试过为一周中的某一天和一年中创建指标变量(1,0),然...
  • 81 votes
     answers
     views

    如何使用'sweep'功能

    当我查看R Packages的源代码时,我看到函数 sweep 经常使用 . 有时候,当一个更简单的函数已经足够时(例如, apply ),它会被使用,有时它会在没有花费相当多的时间来逐步完成它所在的代码块的情况下使用它 . 事实上,我可以重现 sweep 's effect using a simpler function suggests that i don' t了解 sweep 's ...
  • 0 votes
     answers
     views

    计算多行的相关性

    我试图用几行不同的滞后来计算自相关 . 我现在有一个代码来计算一行的自相关: import pandas as pd import numpy as np df = pd.read_excel("file.xlsx") def autocorr(x, t): return np.corrcoef(np.array([x[0:len(x)-t], x[t:len(x)]...
  • 488 votes
     answers
     views

    宇宙射线:它们对程序产生影响的概率是多少?

    我再一次进行了设计评审,并且遇到了一个声称特定情景的概率“低于宇宙射线的风险”影响该程序的说法,并且我发现我没有最清楚的想法是什么概率是 . “因为2-128是340282366920938463463374607431768211456中的1个,我认为我们在这里 grab 机会是合理的,即使这些计算已经减少了几十亿......我们对宇宙射线的风险更大我相信,把我们搞砸了 . “ 这个程序员是...
  • 0 votes
     answers
     views

    剩余情节:残存物是否适合残留物与残留物相比?

    我对Residuals Plot的基本理解是残差与独立值的关系 . [http://stattrek.com/regression/residual-analysis.aspx] 这是一个描述我最初理解的网站.. [http://blog.minitab.com/blog/adventures-in-statistics/why-you-need-to-check-your-residual-p...
  • -1 votes
     answers
     views

    模拟6个特征的beta分布

    如何在R中为1000个项目(行)生成1和0的矩阵,其中每个项目对于6种可能性(列)特征中的单个特征只能为1,特征A,B,C,D,E和F例如 item A B C D E F 1 1 0 0 0 0 0 2 0 1 0 0 0 0 3 1 0 0 0 0 0 4 0 0 0 0 1 0 ...
  • 3 votes
     answers
     views

    一种对集合进行分区以从子集中获得最小方差总和的策略

    问题是:我有一组数字,需要将其分为 k 个子集。我必须找到最佳的分区策略,以使每个子集的方差最小。没有子集可以为空(方差是标准 deviation.)的平方 k 是大于 0 的整数。近似值可以是 1e 7 到目前为止,这是我的解决方案,适用于一些示例,但并非总是如此: 以升序对样本(一组数字)进行排序。 计算两个连续元素的距离。构造一个列表列表,子列表具有左元素和距离的索引(i.e.[[1...
  • -1 votes
     answers
     views

    获得以下相关系数是否合乎逻辑且有意义?

    在给定的表中,我们有从独立变量到因变量的一对多关系?相关系数是否有意义?如果所有值都是12,我们可以推断出什么?
  • 0 votes
     answers
     views

    绘制残差与R中的预测响应

    Plot残差与预测响应相当于Plot残差与拟合? 如果是这样,那么将由 plot(lm) 和 plot(predict(lm)) 绘制,其中 lm 是线性模型? 我对么?
  • -1 votes
     answers
     views

    统计和AI挑战

    我需要 Build 一个模型来预测每个月的销售额给出产品的畅销商排名 . 这一挑战在于数据 . 对于某个类别,比如“宝贝”,有许多子类别(玩具,衣服等),每个子类别都有自己的子类别 . 它是一种树状结构 . 在兄弟节点中,畅销列表中的产品是唯一的 . 换句话说,兄弟姐妹中没有重复的产品 . 对于每个类别,我只列出了1000个最畅销的商品,尽管该类别中可能还有更多商品 . 我无法在类别中看到1000...
  • 1 votes
     answers
     views

    Python 2.7 - 计算每行的分位数

    我有一个像这样的熊猫系列: 0 1787 1 4789 2 1350 3 1476 4 0 5 747 6 307 7 147 8 221 9 -88 10 9374 11 264 12 1109 13 502 14 ...
  • 0 votes
     answers
     views

    自定义功能可调用任何采样例程

    前段时间我曾询问过为R的采样函数动态分配参数的方法 . 理想情况下,我只想在开头澄清感兴趣的采样分布,然后在参数列表中放入我想要的任何参数(以任何顺序),我在那里得到了一些精彩的答案: R rnorm Arguments as character 也可以轻松地为pdfs,...等重写此代码 . 1)我现在想将其扩展到多变量分布,但有点卡住并且还没有找到问题的解决方案 . 2)我也想在这个包装器...
  • -3 votes
     answers
     views

    如何计算R中的均值和sd? [等候接听]

    我有一个正态分布,给出P(x <1.5)= 0.24和P(x <2.5)= 0.95 . 如何计算R中的平均值和标准差?请记住,我是新手 .
  • 0 votes
     answers
     views

    为什么计算执行计划需要这么长时间?

    我有一个问题,当我第一次运行我的查询(选择查询)时,某些表的重建或更新统计完成后,它运行得太慢,此查询的持续时间约为30分钟,但之后我运行它再次持续时间约为3秒,如何解决呢? 我在查询中设置统计IO并获得此结果: 第二次 表'table1' . 扫描计数42,逻辑读取963118,物理读取0,预读取读取274,lob逻辑读取0,lob物理读取0,lob预读读取0 . 第一次 表'ta...
  • 0 votes
     answers
     views

    是否有社区存储库来解决开发中的约束?

    我休息后回到编程 . Data structures have grown in size tremendously. 我记得,过去的约束是内存大小,处理器速度和代码大小 . 凭借非常大的数据集和丰富的机器资源,这些约束变得极小 . Correct me if I am wrong, but the goals now are knowing how to: 有效地遍历数据集(数据结构/策略)...
  • 0 votes
     answers
     views

    PostgreSQL中的Beta和lognorm发行版?

    我目前在代码中运行一个相当大的蒙特卡罗模拟,性能还有待提高 . 我想知道是否有办法直接在数据库上运行它,我认为性能会好得多 . 我可以生成随机数,但我没有看到统计分布函数 . 已经对我有很大帮助的第一步是: 我有一个参数表,其中每一行都是一个beta分布及其所有参数 . 我想用这些分布参数生成随机值,并将它们存储在一个单独的表中(蒙特卡罗模拟表,每次模拟运行一行) . 我该怎么做?
  • -1 votes
     answers
     views

    贝叶斯线性回归协方差矩阵

    学习ML决赛 . 想知道是否有人可以帮助我掌握这个概念 . 在贝叶斯线性回归中,我理解我们还需要将预测视为随机变量(随机) . 然而,在我们的一个类幻灯片中,我们仅将额外的方差项添加到预测矢量值的协方差矩阵的对角线 . 为什么这个术语没有添加到协方差矩阵的所有条目中?我猜它的某些属性是我忘记或者还没有看到的协方差 . 谢谢!
  • 14 votes
     answers
     views

    矩阵的所有行对的相关系数和p值

    我有一个m行和n列的矩阵 data . 我曾经使用np.corrcoef来计算所有行对之间的相关系数: import numpy as np data = np.array([[0, 1, -1], [0, -1, 1]]) np.corrcoef(data) 现在我还想看看这些系数的p值 . np.corrcoef 不提供这些; scipy.stats.pearsonr . 但是, sc...
  • 1 votes
     answers
     views

    R中的多重相关系数

    我正在寻找一种方法来计算R http://en.wikipedia.org/wiki/Multiple_correlation中的多重相关系数,是否有内置函数来计算它?我有一个因变量和三个独立变量 . 我无法在网上找到它,任何想法?

热门问题