删除文本Pandas系列中的URL和转换特殊字符-Java 学习之路

我有一个数据集 . 它是数据碎片，非常混乱，它包含ASCII码，HTML和URL .

我试图在它上面运行'langdetect'，以便我按语言分开 . 但是，它不断抛出我认为是由数据集中的HTML和特殊字符等引起的错误 .

当我执行NLP时，我需要保留/恢复文本的标点符号 .

我有两个问题，我正在努力解决：

第一个问题，我研究并没有找到解决方案，真的不知道从哪里开始 .

对于第二个问题，我尝试过这个解决方案，但似乎没有用

def removeurl(raw_html):
    cleanr = re.compile('?P<url>https?://[^\s]+')
    cleantext = re.sub(cleanr, '', raw_html)
    return removeurl

我已经创建了一个示例JSON文件here

删除文本Pandas系列中的URL和转换特殊字符