文本文件二进制文件的判别

网友投稿 1101 2022-05-30

作为程序员,从第一次接触编程开始,就知道了文件的两大类别:文本文件和二进制文件。但是,如何定义和判别这两类文件,在我的知识体系里,却一直是模糊的。直觉上,用文本方式读写的文件一定是文本文件,用二进制方式读写的文件一定是二进制文件,然而,用 notepad++ 照样可以打开甚至编辑一个 .jpg 文件或者一个 .xls 文件。

事实上,不管是文本文件还是二进制文件,在物理存储上都是二进制的。二者之间的区别不是物理层面的,而是逻辑层面的。文本文件是基于字符编码的文件,常见的编码有 ASCII 编码,UTF 编码等等。二进制文件是基于值编码的文件,你可以根据具体应用,指定某个值是什么意思(可以看作是自定义编码)。

在很多文档处理的应用中,我们需要判别某个文件是文本文件还是二进制文件。如果单从文件的扩展名来判别,自然是最简单的,但结果未必是正确的。我们重点讨论通过文件内容来判别。

适用于 py2 的方法:

import string def isText(content): """判断文件是文本还是二进制""" if "

import string def isText(content): """判断文件是文本还是二进制""" if "\0" in content: return False text_characters = ''.join(map(chr, range(32, 127)) + list("\n\r\t\b")) _null_trans = string.maketrans("", "") t = content.translate(_null_trans, text_characters) if float(len(t))/float(len(content)) > 0.30: return False else: return True

" in content: return False text_characters = ''.join(map(chr, range(32, 127)) + list("\n\r\t\b")) _null_trans = string.maketrans("", "") t = content.translate(_null_trans, text_characters) if float(len(t))/float(len(content)) > 0.30: return False else: return True

1

2

3

4

5

6

7

8

9

10

11

12

13

14

文本文件和二进制文件的判别

15

16

适用于 py3 的方法:

def isText(content): """判断文件是文本还是二进制""" if b'\0' in content: return False text_characters = ''.join(list(map(chr, range(32, 127))) + list('\n\r\t\b')) _null_trans = b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff' t = content.translate(_null_trans, text_characters.encode()) if float(len(t))/float(len(content)) > 0.30: return False else: return True

1

2

3

4

5

6

7

8

9

10

11

12

13

14

Python

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《MXNet深度学习实战》—1.1.3 深度学习
下一篇:TF之CNN:Tensorflow构建卷积神经网络CNN的简介、使用方法、应用之详细攻略
相关文章