首页 文章
  • 8 votes
     answers
     views

    加快内核估算的采样

    这是我正在使用的更大代码的 MWE . 基本上,它针对位于特定阈值以下的所有值对KDE(kernel density estimate)执行蒙特卡洛积分(在这个问题上提出了积分方法BTW:Integrate 2D kernel density estimate) . import numpy as np from scipy import stats import time # Generat...
  • 0 votes
     answers
     views

    蒙特卡罗模拟与chaning分布

    我正在尝试蒙特卡罗模拟,我想出了这个有趣的问题 . 假设我们使用正态分布生成随机值,其中St.Dev = 2且均值=生成的最后一个值(马尔可夫过程),我们从值5开始,但每次生成大于9的值时,我们开始生成随机值使用St.Dev = 3的第二个正态分布 . 如果我们生成大于15或小于0的值,我们再次从5开始 . 我们想要找到这个随机过程的期望值 . 现在一种方法是生成大量的样本,但如果我们决定使用更复...
  • 0 votes
     answers
     views

    R:使用模拟计算p值

    我编写了这段代码来对两个随机分布的观察x和y运行一个测试统计 mean.test <- function(x, y, B=10000, alternative=c("two.sided","less","greater")) { p.value <- 0 alternative <- match.arg(alternat...
  • 4 votes
     answers
     views

    蒙特卡罗树搜索,反向传播(备份)步骤:为什么要改变奖励 Value 的视角?

    我一直在阅读Browne等人的Monte Carlo Tree Search调查报告 . 人: http://ccg.doc.gold.ac.uk/papers/browne_tciaig12_1.pdf “蒙特卡罗树搜索方法概述” 我正在和p上的一个伪代码搏斗 . 9.我的问题在Backup和BackupNegamax函数中以类似的形式出现 . 假设我是2人零和游戏中的玩家1 . (所以,使...
  • 2 votes
     answers
     views

    蒙特卡洛树搜索:两个玩家游戏的树策略

    我对MCTS "Tree Policy"的实现方式感到有些困惑 . 我读过的每篇论文或文章都谈到了从当前游戏状态走下树(在MCTS teminology中:玩家即将采取行动的根源) . 我的问题是,即使我处于MIN玩家级别(假设我是MAX玩家),我如何选择最好的孩子 . 即使我选择MIN可能采取的某些特定动作,并且我的搜索树在该节点中越来越深,但是在转弯时MIN玩家也可以选择一...
  • 1 votes
     answers
     views

    蒙特卡罗搜索树如何运作?

    尝试使用像这样的YouTube视频和论文来学习MCST . http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Applications_files/grand-challenge.pdf 然而,除了高级理论解释之外,我没有太多运气了解细节 . 以下是上述论文的一些引用和我的问题 . 选择阶段:MCTS迭代地选择当前状态的得分最高的子节点 . 如果当前状态...
  • 0 votes
     answers
     views

    蒙特卡洛树搜索选择了立即失去的不良动作

    我有一个MCTS的工作实现 . 为方便起见,我在Tic-Tac-Toe上测试它,但真正的目标游戏会更大 . 据我所知,它可以产生正确的胜利计数,并以应有的方式探索树,并且主要产生良好的动作 . 但是,在某些情况下,所选择的行动会立即导致损失 . 同样,它可能不会选择导致强制获胜的举动 . 我对胜利计数的分析是,这些动作实际上是真实的,在随机游戏中,移动将赢得比失败更多的胜利,并且技术熟练的对手所扮...
  • 2 votes
     answers
     views

    蒙特卡洛树搜索:对手在MCTS树边界之前移动

    MCTS算法的步骤是: 选择 扩张 模拟 反向传播 我的问题涉及第三步,模拟 . 我们使用新节点扩展了决策树,并模拟剩余的移动直到游戏结束 . 此模拟可分为两部分: 轮流,我们利用决策树中的政策 转为两个玩家随机移动(或使用特定游戏的替代默认策略) 分离这两个阶段的MCTS树线的可视化在本出版物的图1中:http://www.ru.is/faculty/yngvi/...
  • 0 votes
     answers
     views

    棋盘游戏中的蒙特卡洛树搜索 - 如何实现对手移动

    我正在研究MCTS算法的实现,在具有完美信息的零和棋盘游戏的背景下 . 例如 . 国际象棋,围棋,跳棋 . 据我所知,在算法的每次迭代中,有四个步骤:选择,扩展,模拟和反向传播 . 我的问题是关于对手动作的实施,如何在树中呈现,以及如何在每个阶段实施 . 例如,让我们想象一下GO的游戏,我们(黑色)正在玩AI(白色) . 当黑色从根节点s0做出动作ab时,然后转为白色以进行动作aw . 我最初的想...
  • 2 votes
     answers
     views

    蒙特卡洛树搜索 - “最有前途”的移动功能

    我试图实现tic-tac-toe hello-world MCTS游戏玩家,但我遇到了一个问题 . 在模拟游戏并选择“最有希望的”(利用/探索)节点时,我只考虑总胜数(“利用”部分) - 这会导致某些问题,所得算法根本不具防御性 . 因此在选择之间 移动导致(100次抽奖; 10次失败) 移动导致(1胜; 109输) 选择较差的一个(1; 109),因为我的uct函数贪婪计算avg w...
  • 1 votes
     answers
     views

    如何监控PyMC中的提议协方差?

    我正在测试PyMC中的 AdaptativeMetropolis 步骤方法(记录为here),并希望看到它的实际效果 . 这种步骤方法包括使用多变量跳跃分布来块更新一些变量,其在采样期间调整协方差 . 可以打印提议协方差矩阵与时间?在我看来,这没有记录 . 谢谢 . 编辑:作为一个玩具模型,让我们考虑两个相似骰子的情况(让我们说它们来自同一个工厂) . 我们希望估计它们是否有偏见 . import...
  • 1 votes
     answers
     views

    逆CDF变换采样的错误分布

    背景 我需要从具有已知累积分布函数(CDF)的相当复杂的概率密度函数(PDF)中随机抽样,并且我正在尝试使用inverse transform sampling . 这应该很容易做到,因为我有CDF,只需要在插入统一的随机数时用数字反转它(不可能用代数做) . 但是,由此产生的分布的方差低于预期,我在CDF中找不到任何错误 . 所以我通过从正态分布中抽样来简化和测试我的算法 . 结果是一样的:位置...
  • 0 votes
     answers
     views

    PostgreSQL中的Beta和lognorm发行版?

    我目前在代码中运行一个相当大的蒙特卡罗模拟,性能还有待提高 . 我想知道是否有办法直接在数据库上运行它,我认为性能会好得多 . 我可以生成随机数,但我没有看到统计分布函数 . 已经对我有很大帮助的第一步是: 我有一个参数表,其中每一行都是一个beta分布及其所有参数 . 我想用这些分布参数生成随机值,并将它们存储在一个单独的表中(蒙特卡罗模拟表,每次模拟运行一行) . 我该怎么做?
  • 18 votes
     answers
     views

    蒙特卡洛树搜索:Tic-Tac-Toe的实施

    编辑:如果您想查看是否可以让AI更好地执行,请上传完整的源代码:https://www.dropbox.com/s/ous72hidygbnqv6/MCTS_TTT.rar 编辑:搜索搜索空间并找到导致丢失的移动 . 但是由于UCT算法,不会经常访问导致损失的移动 . 要了解MCTS(蒙特卡罗树搜索),我已经使用该算法为经典的井字游戏制作AI . 我使用以下设计实现了算法: 树策略基于UCT,默认...
  • 2 votes
     answers
     views

    在matlab中存储和处理大数据

    我想做马尔可夫链蒙特卡罗模拟 . 因此,我需要存储生成的状态 . 问题是我想运行我的程序一段时间并生成很多状态,但MATLAB向我显示'OUT OF MEMORY'错误 . 因为我不需要一直知道我的状态的完整历史(我只需要前面的状态来生成下一个状态)我认为我可以在每10000次迭代步骤之后存储我生成的状态并且只保留最后一个 . 然后在最后我想做一些计算,例如像均值,方差和绘制生成数据的直方图,并最...
  • -1 votes
     answers
     views

    使用随机数计算PI

    Having trouble with the following question: 在几何形状中,圆周长与其直径的比率称为π . π的值可以从无限系列的形式估计: π/ 4 = 1 - (1/3)(1/5) - (1/7)(1/9) - (1/11)......还有另一种计算π的新方法 . 想象一下,你有一个2平方的飞镖板 . 它刻有一个单位半径圆 . 圆的中心与正方形的中心重合 . 现在...
  • 20 votes
     answers
     views

    蒙特卡罗树搜索UCT实施

    你能解释一下如何建树吗? 我完全理解如何选择节点,但更好的解释将真正帮助我实现这个算法 . 我已经有一个代表游戏状态的棋盘,但我不知道(理解)如何生成树 . 有人能指出一个评论很好的算法实现(我需要用它来进行AI)吗?还是更好的解释/例子呢? 我没有在网上找到很多资源,这个算法比较新...

热门问题