首页 文章
  • 2 votes
     answers
     views

    用于大型数据集的Tensorflow图像输入管道:加载多个连续图像

    我正在尝试为Tensorflow构建一个有点复杂的输入管道 . 该数据集由257天的图像组成,每天有大约5000张图像(图像大约每8秒拍摄一次并按时间顺序排列) . 它们以jpeg编码 . 我需要能够在每天内按顺序(暂时)访问它们 . 但是,我还需要能够创建洗牌批次(在几天内和一天内随机化) . 此外,一个样本可能包含2或3个连续图像,分别带有最后一个图像的标签 . 另外,我应该能够在一个样本中的...
  • 67 votes
     answers
     views

    什么原因导致Python分段错误?

    我正在用Python实现Kosaraju的强连接组件(SCC)图搜索算法 . 该程序在小数据集上运行良好,但是当我在超大图(超过800,000个节点)上运行它时,它会显示“Segmentation Fault” . 可能是什么原因造成的?谢谢! 附加信息:首先,我在超大型数据集上运行时出现此错误: "RuntimeError: maximum recursion depth excee...
  • 1 votes
     answers
     views

    select2大量记录

    我正在使用select2下拉列表 . 它适用于较少数量的物品 . 但是当列表很大(超过40000项)时,它确实会变慢 . 它在IE中速度最慢 . 否则简单的Dropdownlist工作非常快,直到1000条记录 . 这种情况有没有解决方法?
  • 779 votes
     answers
     views

    使用大熊猫的“大数据”工作流程

    在学习大熊猫的过程中,我试图解决这个问题的答案已有好几个月了 . 我使用SAS进行日常工作,这非常适合它的核心支持 . 然而,由于其他许多原因,SAS作为一款软件非常糟糕 . 有一天,我希望用python和pandas替换我对SAS的使用,但我目前缺乏大型数据集的核心工作流程 . 我不是在谈论需要分布式网络的“大数据”,而是文件太大而无法容纳在内存中,但又足够小以适应硬盘驱动器 . 我的第一个想法...
  • 3 votes
     answers
     views

    调用函数时,Pandas,大数据,HDF表和内存使用情况

    简短的问题 当Pandas在HDFStore上工作时(例如:.mean()或.apply()),它是否将内存中的完整数据作为DataFrame加载,还是作为Serie逐个记录处理? 详细说明 我必须处理大数据文件,我可以指定数据文件的输出格式 . 我打算使用Pandas处理数据,我想设置最佳格式,以便最大化性能 . 我已经看到panda.read_table()已经走了很长一段路,但它仍然至少需要...
  • 1 votes
     answers
     views

    图表库50k点? PHP或Javascript

    经过大量搜索后,我无法找到我的具体用例的答案 . 我一直在使用jQplot进行PHP / Javascript页面绘制100-200个不同的系列,每个系列最多50个点 . 问题是,它将每个单独的系列绘制为自己的画布层,并在浏览器中占用大量内存 . 我想达到绘制2000系列每个30-50分的点,并且可以处理很多javascript图形库所呈现的很多交互功能 . 是否有免费的(公共许可证)图形库可以生...
  • 7 votes
     answers
     views

    在R中的大型数据集上运行回归树

    我正在处理大约150万次观测的数据集 . 我发现在我的数据的一小部分上运行一个回归树(我正在使用 party 包中的 mob() *函数)花费的时间非常长(我不能运行超过50k的子集) . 我可以想到两个主要问题是减慢计算速度 使用整个数据集在每个步骤计算拆分 . 我会对基于数据的随机子集选择变量在每个节点上拆分的结果感到满意,只要它继续补充树中每个子节点处的样本大小即可 . 操作未并行...
  • 52 votes
     answers
     views

    多处理中的共享内存

    我有三个大清单 . 首先包含bitarrays(模块bitarray 0.8.0),另外两个包含整数数组 . l1=[bitarray 1, bitarray 2, ... ,bitarray n] l2=[array 1, array 2, ... , array n] l3=[array 1, array 2, ... , array n] 这些数据结构需要相当多的RAM(总共约16GB) ...
  • 2 votes
     answers
     views

    用于存储天文数字的Java数据类型

    所以我喜欢考虑像Graham's Number这样的大数字 . 其中一部分偶尔会出现快速增长的功能 . 我总是喜欢尝试这些功能,因为Java是我的goto语言,我需要一种方法来存储非常大的数字 . 我想知道一个快速增长的功能,如: f(a,b,c) = f(a-1,f(a-1,b-1,c),f(a-1,b-1,c-1))+1 f(0,b,c) = f(b,b-1,c)+1 f(0,0,c) =...
  • 1 votes
     answers
     views

    如何在C中分配大型动态数组?

    所以 I am currently trying to allocate dynamically a large array of elements in C++ (using "new") . 显然,当"large"变得太大(> 4GB)时,我的程序崩溃了"bad_alloc"异常,因为它无法找到如此大的可用内存块 . 我可以分...
  • 1 votes
     answers
     views

    Keras模型带着forerver用dask数据帧进行训练

    我正在处理具有低内存的大型数据集,并且我已经介绍了Dask数据帧 . 我从文档中了解到Dask没有将整个数据集加载到内存中 . 相反,它创建了多个线程,这些线程将根据需要从磁盘中获取记录 . 所以我认为keras模型的批量大小= 500,在训练时它应该只有500条记录在内存中 . 但是当我开始训练的时候 . 它需要永远 . 可能我做错了 . 请建议 . 训练数据形状:1000000 * 1290 ...
  • 0 votes
     answers
     views

    从sql server 2005中的约2亿行的表中选择时,选择查询需要多长时间?

    我在SQL Server 2005数据库中有一个包含193,569,270行的表 . 该表包含由我们网站的用户执行的活动 . 该表定义为: Name DataType ID int (identity) PK ActivityTime datetime PersonID ...
  • 1 votes
     answers
     views

    SVN checkout项目主干和分支没有标签

    我在SVN中有一个具有经典结构的大型项目: myproject/ branches/ developer1-mybranch1/ developer2-mybranch3/ ... tags/ tag1/ tag2/ .... trunk/ 我想从trunk创建一个新的分支,据我所知,我应该将存储库签出到我的计算机 . 我可以只签出主干...
  • 0 votes
     answers
     views

    使用带有Crypto的std :: string加密大字符*

    我是Crypto的新手 . 我想使用Crypto库来加密/解密C中的大字节数组 . 数据可以是任何数据,因此可以使用其二进制格式 . 首先,我尝试使用“字节数组”(char *或char []) . byte PlainText[] = { 'H','e','l','l','o',' ', 'W','o','r','l','d', 0x0,0x0,0x0,0x0,0x0 }; byt...
  • 0 votes
     answers
     views

    使用Crypto加密大数据的有效方法

    我正在寻找使用Crypto加密/解密大文件(一些GB)的解决方案 . 几天前,我正在考虑在this question中使用StringSource,将整个文件读入char数组,然后使用CTR模式对其进行加密/解密 . 将字符串加密为字符串 string encryptString(string plain, byte key[], int sizeKey, byte iv[], int size...
  • 0 votes
     answers
     views

    具有大数据源的Kendo输入

    我已经为选定的网格行创建了一个Kendo Grid和一个自定义Form . 使用AngularJS,我存储到'formData'变量选定的行数据 . 例如 $scope.fromData = { uid: guid, id: guid, name: string, otherEntityId: guid } 现在在我的表单中,我有一个'otherEntityId'的KendoD...
  • 23 votes
     answers
     views

    针对极大时间序列的最佳索引数据结构

    我想问一些SO'ers他们对用于索引时间序列的最佳数据结构的看法(也就是列式数据,也就是扁平线性) . 基于采样/离散特征存在两种基本类型的时间序列: 定期离散(每个样本采用共同频率) 不规则的离散化(样本在任意时间点进行) 需要的查询: 时间范围内的所有值[t0,t1] 时间范围[t0,t1]中的所有值都大于/小于v0 时间范围[t0,t1]中值范围为[v0,v1]的所有...
  • 2 votes
     answers
     views

    如何使用LOAD DATA INFILE导入大数据文件时保持MYSQL性能?

    我正在使用大型数据库(一些表500000000行) . 每天应使用LOAD DATA INFILE替换3-10百万行,每次导入大约100万行(使用CRON每天3-10次) . 问题是,在进行如此大的文件导入时,MySQL会占用80%的CPU,并且所有来自网站的常见查询变得非常慢或网站性能下降 . 站点在Amazon的EC2 Windows 2008服务器下运行 . 有谁知道如何在一个EC2实例中解...
  • 0 votes
     answers
     views

    删除大型postgresql数据库表中的重复行

    我有一个100 GB大小的postgresql数据库 . 其中一个表有大约5亿个条目 . 为了快速输入数据,重复了一些数据并留待以后修剪 . 其中一列可用于将行标识为唯一 . 我找到了this stackoverflow question,它提出了mysql的解决方案: ALTER IGNORE TABLE table_name ADD UNIQUE (location_id, datetime)...
  • 13 votes
     answers
     views

    检查10亿个手机号码是否有重复

    这是一个面试问题: 有10亿个手机号码,有11个数字,它们随机存储在一个文件中,例如12345678910,第一个数字必须是1.通过这些数字查看是否有一个有重复,只看看是否有重复存在,如果找到重复,则返回True,或返回False . 只允许10 MB内存 . 这是我的解决方案: 使用 hash(num)%1000 将所有这些数字哈希到1000个文件中,然后重复项应该落入同一个文件中 . 散列...

热门问题