2016 - 2024

感恩一路有你

python文本挖掘 python怎样读取文本文件里的中文?

浏览量:2756 时间:2021-03-14 03:24:56 作者:admin

python怎样读取文本文件里的中文?

#在Windows环境中

导入系统

重新加载(系统)sys.setdefaultencoding系统(“utf-8”)

导入re

fin=打开(”在.txt中“,”R“)”通过读取打开输入文件

对于fin中的每一行:”通过行读取文件内容

行=每条线.strip(). 解码(“GBK”,“UTF-8”),在处理前进行相关处理,包括转换为Unicode等

打印行#打印原始字符

P2=重新编译(ur“[^1-龥]”)中文的编码范围是:从“1到”

zh=“”。连接(P2。拆分(行))。条带()]谝zh=“,”(zh.拆分())

print zh#print Chinese characters

关于正则匹配的一些基本知识,请看我的关于学习正则表达式的博客

~];-*-编码:UTF-8-*-这句话是告诉python程序中的文本是UTF-8编码,这样Python就可以根据UTF-8来读取程序。在程序之前添加u是为了告诉python以下是Unicode编码,它以Unicode格式存储。

python文本挖掘 python读取文本文件 python中文文本分析

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。