python中的解码与编码

网友投稿 597 2022-05-28

python中的解码与编码

1. 基本概念

比特(bit):计算机中最小的数据单位,是单个的二进制数值0或1

字节(byte):计算机村塾数据的单元,1个字节由8个比特组成,如b’\xc3\xc0\xc0\xf6\xc8\xcb\xc9\xfa’(b开头表示字节,一个斜杠就是一个字节)

字符:人类能够识别的符号,如“中国”、“cat”等。一个常用汉字用GBK编码后占用2个字节,用utf-8编码后占3个字节。

编码:将人类可以识别的字符转换为及其可识别的字节

解码:编码的反向过程。

简介:Unicode编码是人类可识别的字符格式;ASCII、utf-8,gbk等都是及其可识别的编码格式。我们在写py3代码时,字符的格式就是Unicode,而字符是以字节为存储单位保存在文件中,文件保存在内存/物理磁盘中。

Python3中,计算机内存中的数据,统一用Unicode编码,如我在jupyter notebook中输入s = ‘中国’,这个s在计算机内存中,编码方式为Unicode。

python3中,数据传输或保存到硬盘中,默认使用utf-8编码。如保存一个df成csv文件时,如果不指定encoding,则默认为utf-8

指定编码,在文件开头,例如:Python 文件通常这样写:-- coding:utf-8 --;HTML 文件通常这样写:&#

Python

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【Unity3D日常开发】(二十八)Unity3D中实现自定义快捷键
下一篇:2020华为云AI实战营【第六章】视频分析课程打卡及作业分享
相关文章