文件解析笔记

工具

数据类型	子节数	说明
byte	1	占 8 个二进制字符，特殊知识：以 `0x80` 为分界
sbyte	1	占 8 个二进制字符
short	2
ushort	2
int	4
uint	4
float	4
long	8
ulong	8
double	8
char	1 、 2	在 c 等低级语言中占 1 个子节，在 c# 等高级语言中占 2 子节
string	无固定长度	一种是定义长度，再取长度的字节数转，另一种是以 `0x0` 为结束符
leb128	无固定长度	每次读一个子节，子节值大于等于 `0x80` 表示有需要读下一个子节

主要为大端小端，主要是指有多个固定字节数的数据类型的字节写入顺序不同， byte sbyte 只有一个字节，没有大小端之分；string char leb128 都不固定长度，依赖前一个字节指示是否有下一个字节，所以无法分大小端。

大端(BigEndian, 简写BE)，高位写在前面，反转过来写的意思，例如 (ushort)1 转成字节数组是 [0x1, 0x0] 写入流时是先写 0x0 在写入 0x1

小端(LittleEndian, 简写LE)，低位写在前面，顺着字节数组写的意思，例如 (ushort)1 转成字节数组是 [0x1, 0x0] 写入流时是先写 0x1 在写入 0x0

一般来说：网络字节流的是大端，计算机文件流是小端。

Unicode 固定文件头 0xFF 0xFE，大端则是 0xFE 0xFF UTF8 分有头和无头，有固定头 0xEF 0xBB 0xBF

无头编码，主要根据 char(两个字节) 存储方式判断，一般来说 0x0-0x7F 是指占用一个字节，0x80-0xFF 根据定义可以指示多个字节

UTF8

一般是固定的头，固定几个字节指示

算法类型	代表算法	适用场景
字典编码	LZ77, LZ78, LZW	重复数据压缩（文本）
熵编码	Huffman, 算术编码	通过加入长度来表示重复字节或字节数组

图片无损压缩: 对单个像素点(R|G|B|A)进行处理，例如不透明图片就可以只保存(R|G|B)三个颜色值，更进一步有单个色值的，例如只保存(R)通道

一般只针对特殊领域，例如图像

图象的有损压缩：分成一个个(width*height)小的区域进行近似关联处理，常见的是分成 (4*4) 的小区域，每个区域处理成 8 个字节

加密算法

常见的加密算法：

这些复杂的加密算法只适用于文件少且重要的，速度较慢、内存占用较高

一般对速度和性能有要求的就简单的使用xor(异或处理)

Cookie	有效期	说明
cookie_policy	11个月	Cookie 插件设置 Cookie 的目的是存储用户对使用 Cookie 的同意；它不会存储任何个人数据。
PHPSESSID	11个月	用于绑定用户登录凭证的 Cookie 标识
XSRF-TOKEN	11个月	用于防止跨站脚本攻击的 Cookie 标识