文件及编码研究
Updated:
文件格式
文件格式不等于扩展名
一种文件格式可能对应多个扩展名,也可能没有扩展名.
扩展名可以帮助应用程序识别的文件格式。
有两种情况下,文件格式没有公开。第一种情况是:开发者将文件格式视作商业秘密不愿公开;第二种情况是:开发者不愿或花去很少的时间用于规范文档。
特征签名
一种广泛应用在UNIX及其派生的操作系统上的方法是将一个特殊的数字存放在文件的特定位置里。最初这个数字一般是文件开始处的2个字节。现在一般是将任何可以独一无二字符序列都可以作为特征签名。例如GIF图形文件是将文件开始处的六个字节作为特征签名的,它可以是GIF87a或者GIF89a。但也有些文件很难通过这种方式识别,比如HTML文件。
采用这种方式可以更好的防止对文件格式发生误判,并且特征签名可以给出关于文件格式的更详细的信息。这种方式的缺点是效率较低。特别是显示大量的文件时,由于每种特征签名具有不同的识别方式,将消耗系统大量的资源对文件格式进行判断。扩展名和后面将提到的元数据方式由于采用固定格式数据,可进行快速匹配。应用程序往往利用特征签名来判断文件是否完整和有效。
文件系统
首先要分清楚媒体文件和编码的区别:文件是既包括视频又包括音频、甚至还带有脚本的一个集合,也可以叫容器;文件当中的视频和音频的压缩算法才是具体的编码。
磁盘分区->文件系统
格式化即建立文件系统
对不同名称的相同文件夹进行hash,其值不同
对不同名称的相同文件进行hash,其值相同
那么,文件的名称信息应当不是存储在文件中的,那么
将文件拷贝到相同的文件系统中,文件的名字是怎么确定的呢?
这样理解,。。。。。恩,文件被文件系统的信息打包了才传输的