首页 文章

提取一串字符的部分

提问于
浏览
1

我有一串字符(长度为311,522) . 它是.txt格式,全部在一行上 . 数据文件可以在here找到 . 我试着像这样将它导入R:

eya4_lagan_HM_cp <- read.table("C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt", quote="\"")

但我得到警告信息,但不会导入它 .

我需要提取这一串字符的部分内容 . 也就是说,我需要从44184提取到44216,这意味着从第44184个字符(包括)到第44216个字符(包括),然后从151795到151844的字符序列,依此类推 .

我怎样才能做到这一点?

1 回答

  • 1

    有关如何将文件读入字符串的信息,请参阅https://stackoverflow.com/questions/9068397/import-text-file-as-single-character-string,例如,您将使用:

    fileName <- "C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt"
    theData <- readChar(fileName, file.info(fileName)$size)
    

    另请参阅readChar docs .

    有关如何提取子字符串的信息,请参阅substr .

    在您的情况下,您可以使用例如:

    mySubstr <- substr(theData, 44184, 44216)
    

相关问题