我有一个数据集 . 它是数据碎片,非常混乱,它包含ASCII码,HTML和URL .

我试图在它上面运行'langdetect',以便我按语言分开 . 但是,它不断抛出我认为是由数据集中的HTML和特殊字符等引起的错误 .

当我执行NLP时,我需要保留/恢复文本的标点符号 .

我有两个问题,我正在努力解决:

  • 如何在pandas系列中转换ASCII代码,这些代码在抓取到关联的char期间出现,因为我不知道将出现在内容中的ASCII的确切列表

  • 如何删除pandas系列中文本中嵌入的URL?

第一个问题,我研究并没有找到解决方案,真的不知道从哪里开始 .

对于第二个问题,我尝试过这个解决方案,但似乎没有用

def removeurl(raw_html):
    cleanr = re.compile('?P<url>https?://[^\s]+')
    cleantext = re.sub(cleanr, '', raw_html)
    return removeurl

我已经创建了一个示例JSON文件here