香河建设局网站/提高百度快速排名
知识图谱数据预处理笔记
- 0. 引言
 - 1. 笔记
 - 1-1. `\`的转义
 - 1-2. 特殊符号的清理
 - 1-3. 检查结尾是否正常
 - 1-4. 检查`<>`是否存在
 - 1-5. 两端空格的清理
 - 1-6. 检查object内容长时是否以`<`开始
 
0. 引言
最近学习知识图谱,发现数据有很多问题,这篇笔记记录遇到的一些问题。
1. 笔记
1-1. \的转义
 
line = line.replace('\\', '\\\\')
 
1-2. 特殊符号的清理
line.replace('特殊符号', '')
 


 
 
 
 
由于特殊符号在文章上无法粘贴显示,所以采取截图的形式
1-3. 检查结尾是否正常
        for line in input_file:last_four = line[-4:]last_three = line[-3:]if last_four == '> .\n' or last_four == '" .\n':output_file1.write(line)elif last_three == '>.\n' or last_three == '".\n':output_file1.write(line)else:output_file2.write(line)
 
1-4. 检查<>是否存在
 
                if '<>' in line:output_file3.write(line)
 
1-5. 两端空格的清理
line = line.strip()
 
1-6. 检查object内容长时是否以<开始
 
           if len(object) > 10 and object[0] == '<':output_file3.write(line)continue
 
未完待续!!!
