python文本挖掘 python怎样读取文本文件里的中文？

浏览量：2756 时间：2021-03-14 03:24:56 作者：admin

python怎样读取文本文件里的中文？

#在Windows环境中

导入系统

重新加载（系统）sys.setdefaultencoding系统（“utf-8”）

导入re

fin=打开（”在.txt中“，”R“）”通过读取打开输入文件

对于fin中的每一行：”通过行读取文件内容

行=每条线.strip(). 解码（“GBK”，“UTF-8”），在处理前进行相关处理，包括转换为Unicode等

打印行#打印原始字符

P2=重新编译（ur“[^1-龥]”）中文的编码范围是：从“1到”

zh=“”。连接（P2。拆分（行））。条带（）]谝zh=“，”（zh.拆分（））

print zh#print Chinese characters

关于正则匹配的一些基本知识，请看我的关于学习正则表达式的博客

~]；-*-编码：UTF-8-*-这句话是告诉python程序中的文本是UTF-8编码，这样Python就可以根据UTF-8来读取程序。在程序之前添加u是为了告诉python以下是Unicode编码，它以Unicode格式存储。

上一篇 jpa根据数据库表结构生成实体 jpa查询数据改变会更新数据库

下一篇通信原理公式原理总结通信原理十大公式