我想逐行阅读文本文件 . 我想知道我是否在.NET C#范围内尽可能高效地完成它 .
这是我到目前为止所尝试的:
var filestream = new System.IO.FileStream(textFilePath,
System.IO.FileMode.Open,
System.IO.FileAccess.Read,
System.IO.FileShare.ReadWrite);
var file = new System.IO.StreamReader(filestream, System.Text.Encoding.UTF8, true, 128);
while ((lineOfText = file.ReadLine()) != null)
{
//Do something with the lineOfText
}
9 回答
要找到逐行读取文件的最快方法,您必须进行一些基准测试 . 我在计算机上做了一些小测试,但你不能指望我的结果适用于你的环境 .
Using StreamReader.ReadLine
这基本上就是你的方法 . 由于某种原因,您将缓冲区大小设置为可能的最小值(128) . 增加这一点通常会提高性能 . 默认大小为1,024,其他好的选择是512(Windows中的扇区大小)或4,096(NTFS中的簇大小) . 您必须运行基准测试以确定最佳缓冲区大小 . 更大的缓冲区 - 如果不是更快 - 至少不比较小的缓冲区慢 .
FileStream
构造函数允许您指定FileOptions . 例如,如果您从头到尾依次读取大文件,则可能会受益于FileOptions.SequentialScan
. 再次,基准测试是您可以做的最好的事情 .Using File.ReadLines
这非常类似于您自己的解决方案,除了它是使用
StreamReader
实现的,其固定缓冲区大小为1,024 . 在我的计算机上,与缓冲区大小为128的代码相比,性能稍好一些 . 但是,通过使用更大的缓冲区大小,可以获得相同的性能提升 . 此方法使用迭代器块实现,不消耗所有行的内存 .Using File.ReadAllLines
这与前面的方法非常相似,不同之处在于此方法增加了用于创建返回的行数组的字符串列表,因此内存要求更高 . 但是,它返回
String[]
而不是IEnumerable<String>
,允许您随机访问这些行 .Using String.Split
这种方法相当慢,至少在大文件上(在511 KB文件上测试),可能是由于
String.Split
的实现方式 . 它还为所有行分配一个数组,与您的解决方案相比,增加了所需的内存 .我的建议是使用File.ReadLines,因为它干净而有效 . 如果您需要特殊的共享选项(例如,您使用
FileShare.ReadWrite
),您可以使用自己的代码但是应该增加缓冲区大小 .如果您使用的是.NET 4,只需使用File.ReadLines即可完成所有操作 . 我怀疑它与你的相同,除了它也可能使用FileOptions.SequentialScan和更大的缓冲区(128似乎非常小) .
虽然
File.ReadAllLines()
是读取文件的最简单方法之一,但它也是最慢的方法之一 .如果你只想阅读文件中的行而不做太多,according to these benchmarks,读取文件的最快方法是使用古老的方法:
但是,如果你必须对每一行做很多事情,那么this article得出结论,最好的方法是以下(并且's faster to pre-allocate a string[] if you know how many lines you'将要阅读):
使用以下代码:
这是阅读表现的巨大差异 .
它以内存消耗为代价,但完全值得!
Stack Overflow问题Is 'yield return' slower than "old school" return?中有一个很好的主题 .
它说:
如果文件大小不大,则读取所有文件然后拆分字符串会更快:
如果你的目标是执行速度,那么你是 . 使用StreamReader构造函数可以缩短代码 .
如果你有足够的内存,我通过将整个文件读入memory stream,然后在其上打开一个流阅读器来读取行,我发现了一些性能提升 . 只要你真的计划阅读整个文件,这可以带来一些改进 .
如果要使用现有API读取行,则无法更快地获得 . 但是读取较大的块并手动查找读取中的每个新行缓冲区可能会更快 .