我有一个数据集 . 它是数据碎片,非常混乱,它包含ASCII码,HTML和URL .
我试图在它上面运行'langdetect',以便我按语言分开 . 但是,它不断抛出我认为是由数据集中的HTML和特殊字符等引起的错误 .
当我执行NLP时,我需要保留/恢复文本的标点符号 .
我有两个问题,我正在努力解决:
-
如何在pandas系列中转换ASCII代码,这些代码在抓取到关联的char期间出现,因为我不知道将出现在内容中的ASCII的确切列表
-
如何删除pandas系列中文本中嵌入的URL?
第一个问题,我研究并没有找到解决方案,真的不知道从哪里开始 .
对于第二个问题,我尝试过这个解决方案,但似乎没有用
def removeurl(raw_html):
cleanr = re.compile('?P<url>https?://[^\s]+')
cleantext = re.sub(cleanr, '', raw_html)
return removeurl
我已经创建了一个示例JSON文件here