ECMAScript ArrayBuffer
JavaScript里的对象,这里有一些新的变化
ArrayBuffer
ArrayBuffer
对象、TypedArray
视图和DataView
视图是 JavaScript 操作二进制数据的一个接口。这些对象早就存在,属于独立的规格(2011 年 2 月发布),ES6 将它们纳入了 ECMAScript 规格,并且增加了新的方法。它们都是以数组的语法处理二进制数据,所以统称为二进制数组。
这个接口的原始设计目的,与 WebGL 项目有关。所谓 WebGL,就是指浏览器与显卡之间的通信接口,为了满足 JavaScript 与显卡之间大量的、实时的数据交换,它们之间的数据通信必须是二进制的,而不能是传统的文本格式。文本格式传递一个 32 位整数,两端的 JavaScript 脚本与显卡都要进行格式转化,将非常耗时。这时要是存在一种机制,可以像 C 语言那样,直接操作字节,将 4 个字节的 32 位整数,以二进制形式原封不动地送入显卡,脚本的性能就会大幅提升。
二进制数组就是在这种背景下诞生的。它很像 C 语言的数组,允许开发者以数组下标的形式,直接操作内存,大大增强了 JavaScript 处理二进制数据的能力,使得开发者有可能通过 JavaScript 与操作系统的原生接口进行二进制通信。
二进制数组由三类对象组成。
(1)ArrayBuffer
对象:代表内存之中的一段二进制数据,可以通过“视图”进行操作。“视图”部署了数组接口,这意味着,可以用数组的方法操作内存。
(2)TypedArray
视图:共包括 9 种类型的视图,比如Uint8Array
(无符号 8 位整数)数组视图, Int16Array
(16 位整数)数组视图, Float32Array
(32 位浮点数)数组视图等等。
(3)DataView
视图:可以自定义复合格式的视图,比如第一个字节是 Uint8(无符号 8 位整数)、第二、三个字节是 Int16(16 位整数)、第四个字节开始是 Float32(32 位浮点数)等等,此外还可以自定义字节序。
简单说,ArrayBuffer
对象代表原始的二进制数据,TypedArray
视图用来读写简单类型的二进制数据,DataView
视图用来读写复杂类型的二进制数据。
TypedArray
视图支持的数据类型一共有 9 种(DataView
视图支持除Uint8C
以外的其他 8 种)。
数据类型 | 字节长度 | 含义 | 对应的 C 语言类型 |
---|---|---|---|
Int8 | 1 | 8 位带符号整数 | signed char |
Uint8 | 1 | 8 位不带符号整数 | unsigned char |
Uint8C | 1 | 8 位不带符号整数(自动过滤溢出) | unsigned char |
Int16 | 2 | 16 位带符号整数 | short |
Uint16 | 2 | 16 位不带符号整数 | unsigned short |
Int32 | 4 | 32 位带符号整数 | int |
Uint32 | 4 | 32 位不带符号的整数 | unsigned int |
Float32 | 4 | 32 位浮点数 | float |
Float64 | 8 | 64 位浮点数 | double |
注意,二进制数组并不是真正的数组,而是类似数组的对象。
很多浏览器操作的 API,用到了二进制数组操作二进制数据,下面是其中的几个。
ArrayBuffer 对象
概述
ArrayBuffer
对象代表储存二进制数据的一段内存,它不能直接读写,只能通过视图(TypedArray
视图和DataView
视图)来读写,视图的作用是以指定格式解读二进制数据。
ArrayBuffer
也是一个构造函数,可以分配一段可以存放数据的连续内存区域。
上面代码生成了一段 32 字节的内存区域,每个字节的值默认都是 0。可以看到,ArrayBuffer
构造函数的参数是所需要的内存大小(单位字节)。
为了读写这段内容,需要为它指定视图。DataView
视图的创建,需要提供ArrayBuffer
对象实例作为参数。
上面代码对一段 32 字节的内存,建立DataView
视图,然后以不带符号的 8 位整数格式,从头读取 8 位二进制数据,结果得到 0,因为原始内存的ArrayBuffer
对象,默认所有位都是 0。
另一种TypedArray
视图,与DataView
视图的一个区别是,它不是一个构造函数,而是一组构造函数,代表不同的数据格式。
上面代码对同一段内存,分别建立两种视图:32 位带符号整数(Int32Array
构造函数)和 8 位不带符号整数(Uint8Array
构造函数)。由于两个视图对应的是同一段内存,一个视图修改底层内存,会影响到另一个视图。
TypedArray
视图的构造函数,除了接受ArrayBuffer
实例作为参数,还可以接受普通数组作为参数,直接分配内存生成底层的ArrayBuffer
实例,并同时完成对这段内存的赋值。
上面代码使用TypedArray
视图的Uint8Array
构造函数,新建一个不带符号的 8 位整数视图。可以看到,Uint8Array
直接使用普通数组作为参数,对底层内存的赋值同时完成。
ArrayBuffer.prototype.byteLength
ArrayBuffer
实例的byteLength
属性,返回所分配的内存区域的字节长度。
如果要分配的内存区域很大,有可能分配失败(因为没有那么多的连续空余内存),所以有必要检查是否分配成功。
ArrayBuffer.prototype.slice()
ArrayBuffer
实例有一个slice
方法,允许将内存区域的一部分,拷贝生成一个新的ArrayBuffer
对象。
上面代码拷贝buffer
对象的前 3 个字节(从 0 开始,到第 3 个字节前面结束),生成一个新的ArrayBuffer
对象。slice
方法其实包含两步,第一步是先分配一段新内存,第二步是将原来那个ArrayBuffer
对象拷贝过去。
slice
方法接受两个参数,第一个参数表示拷贝开始的字节序号(含该字节),第二个参数表示拷贝截止的字节序号(不含该字节)。如果省略第二个参数,则默认到原ArrayBuffer
对象的结尾。
除了slice
方法,ArrayBuffer
对象不提供任何直接读写内存的方法,只允许在其上方建立视图,然后通过视图读写。
ArrayBuffer.isView()
ArrayBuffer
有一个静态方法isView
,返回一个布尔值,表示参数是否为ArrayBuffer
的视图实例。这个方法大致相当于判断参数,是否为TypedArray
实例或DataView
实例。
TypedArray 视图
概述
ArrayBuffer
对象作为内存区域,可以存放多种类型的数据。同一段内存,不同数据有不同的解读方式,这就叫做“视图”(view)。ArrayBuffer
有两种视图,一种是TypedArray
视图,另一种是DataView
视图。前者的数组成员都是同一个数据类型,后者的数组成员可以是不同的数据类型。
目前,TypedArray
视图一共包括 9 种类型,每一种视图都是一种构造函数。
Int8Array
:8 位有符号整数,长度 1 个字节。Uint8Array
:8 位无符号整数,长度 1 个字节。Uint8ClampedArray
:8 位无符号整数,长度 1 个字节,溢出处理不同。Int16Array
:16 位有符号整数,长度 2 个字节。Uint16Array
:16 位无符号整数,长度 2 个字节。Int32Array
:32 位有符号整数,长度 4 个字节。Uint32Array
:32 位无符号整数,长度 4 个字节。Float32Array
:32 位浮点数,长度 4 个字节。Float64Array
:64 位浮点数,长度 8 个字节。
这 9 个构造函数生成的数组,统称为TypedArray
视图。它们很像普通数组,都有length
属性,都能用方括号运算符([]
)获取单个元素,所有数组的方法,在它们上面都能使用。普通数组与 TypedArray 数组的差异主要在以下方面。
- TypedArray 数组的所有成员,都是同一种类型。
- TypedArray 数组的成员是连续的,不会有空位。
- TypedArray 数组成员的默认值为 0。比如,
new Array(10)
返回一个普通数组,里面没有任何成员,只是 10 个空位;new Uint8Array(10)
返回一个 TypedArray 数组,里面 10 个成员都是 0。 - TypedArray 数组只是一层视图,本身不储存数据,它的数据都储存在底层的
ArrayBuffer
对象之中,要获取底层对象必须使用buffer
属性。
构造函数
TypedArray 数组提供 9 种构造函数,用来生成相应类型的数组实例。
构造函数有多种用法。
(1)TypedArray(buffer, byteOffset=0, length?)
同一个ArrayBuffer
对象之上,可以根据不同的数据类型,建立多个视图。
上面代码在一段长度为 8 个字节的内存(b
)之上,生成了三个视图:v1
、v2
和v3
。
视图的构造函数可以接受三个参数:
- 第一个参数(必需):视图对应的底层
ArrayBuffer
对象。 - 第二个参数(可选):视图开始的字节序号,默认从 0 开始。
- 第三个参数(可选):视图包含的数据个数,默认直到本段内存区域结束。
因此,v1
、v2
和v3
是重叠的:v1[0]
是一个 32 位整数,指向字节 0 ~字节 3;v2[0]
是一个 8 位无符号整数,指向字节 2;v3[0]
是一个 16 位整数,指向字节 2 ~字节 3。只要任何一个视图对内存有所修改,就会在另外两个视图上反应出来。
注意,byteOffset
必须与所要建立的数据类型一致,否则会报错。
上面代码中,新生成一个 8 个字节的ArrayBuffer
对象,然后在这个对象的第一个字节,建立带符号的 16 位整数视图,结果报错。因为,带符号的 16 位整数需要两个字节,所以byteOffset
参数必须能够被 2 整除。
如果想从任意字节开始解读ArrayBuffer
对象,必须使用DataView
视图,因为TypedArray
视图只提供 9 种固定的解读格式。
(2)TypedArray(length)
视图还可以不通过ArrayBuffer
对象,直接分配内存而生成。
上面代码生成一个 8 个成员的Float64Array
数组(共 64 字节),然后依次对每个成员赋值。这时,视图构造函数的参数就是成员的个数。可以看到,视图数组的赋值操作与普通数组的操作毫无两样。
(3)TypedArray(typedArray)
TypedArray 数组的构造函数,可以接受另一个TypedArray
实例作为参数。
上面代码中,Int8Array
构造函数接受一个Uint8Array
实例作为参数。
注意,此时生成的新数组,只是复制了参数数组的值,对应的底层内存是不一样的。新数组会开辟一段新的内存储存数据,不会在原数组的内存之上建立视图。
上面代码中,数组y
是以数组x
为模板而生成的,当x
变动的时候,y
并没有变动。
如果想基于同一段内存,构造不同的视图,可以采用下面的写法。
(4)TypedArray(arrayLikeObject)
构造函数的参数也可以是一个普通数组,然后直接生成TypedArray
实例。
注意,这时TypedArray
视图会重新开辟内存,不会在原数组的内存上建立视图。
上面代码从一个普通的数组,生成一个 8 位无符号整数的TypedArray
实例。
TypedArray 数组也可以转换回普通数组。
数组方法
普通数组的操作方法和属性,对 TypedArray 数组完全适用。
TypedArray.prototype.copyWithin(target, start[, end = this.length])
TypedArray.prototype.entries()
TypedArray.prototype.every(callbackfn, thisArg?)
TypedArray.prototype.fill(value, start=0, end=this.length)
TypedArray.prototype.filter(callbackfn, thisArg?)
TypedArray.prototype.find(predicate, thisArg?)
TypedArray.prototype.findIndex(predicate, thisArg?)
TypedArray.prototype.forEach(callbackfn, thisArg?)
TypedArray.prototype.indexOf(searchElement, fromIndex=0)
TypedArray.prototype.join(separator)
TypedArray.prototype.keys()
TypedArray.prototype.lastIndexOf(searchElement, fromIndex?)
TypedArray.prototype.map(callbackfn, thisArg?)
TypedArray.prototype.reduce(callbackfn, initialValue?)
TypedArray.prototype.reduceRight(callbackfn, initialValue?)
TypedArray.prototype.reverse()
TypedArray.prototype.slice(start=0, end=this.length)
TypedArray.prototype.some(callbackfn, thisArg?)
TypedArray.prototype.sort(comparefn)
TypedArray.prototype.toLocaleString(reserved1?, reserved2?)
TypedArray.prototype.toString()
TypedArray.prototype.values()
上面所有方法的用法,请参阅数组方法的介绍,这里不再重复了。
注意,TypedArray 数组没有concat
方法。如果想要合并多个 TypedArray 数组,可以用下面这个函数。
另外,TypedArray 数组与普通数组一样,部署了 Iterator 接口,所以可以被遍历。
字节序
字节序指的是数值在内存中的表示方式。
上面代码生成一个 16 字节的ArrayBuffer
对象,然后在它的基础上,建立了一个 32 位整数的视图。由于每个 32 位整数占据 4 个字节,所以一共可以写入 4 个整数,依次为 0,2,4,6。
如果在这段数据上接着建立一个 16 位整数的视图,则可以读出完全不一样的结果。
由于每个 16 位整数占据 2 个字节,所以整个ArrayBuffer
对象现在分成 8 段。然后,由于 x86 体系的计算机都采用小端字节序(little endian),相对重要的字节排在后面的内存地址,相对不重要字节排在前面的内存地址,所以就得到了上面的结果。
比如,一个占据四个字节的 16 进制数0x12345678
,决定其大小的最重要的字节是“12”,最不重要的是“78”。小端字节序将最不重要的字节排在前面,储存顺序就是78563412
;大端字节序则完全相反,将最重要的字节排在前面,储存顺序就是12345678
。目前,所有个人电脑几乎都是小端字节序,所以 TypedArray 数组内部也采用小端字节序读写数据,或者更准确的说,按照本机操作系统设定的字节序读写数据。
这并不意味大端字节序不重要,事实上,很多网络设备和特定的操作系统采用的是大端字节序。这就带来一个严重的问题:如果一段数据是大端字节序,TypedArray 数组将无法正确解析,因为它只能处理小端字节序!为了解决这个问题,JavaScript 引入DataView
对象,可以设定字节序,下文会详细介绍。
下面是另一个例子。
下面的函数可以用来判断,当前视图是小端字节序,还是大端字节序。
总之,与普通数组相比,TypedArray 数组的最大优点就是可以直接操作内存,不需要数据类型转换,所以速度快得多。
BYTES_PER_ELEMENT 属性
每一种视图的构造函数,都有一个BYTES_PER_ELEMENT
属性,表示这种数据类型占据的字节数。
这个属性在TypedArray
实例上也能获取,即有TypedArray.prototype.BYTES_PER_ELEMENT
。
ArrayBuffer 与字符串的互相转换
ArrayBuffer
和字符串的相互转换,使用原生 TextEncoder
和 TextDecoder
方法。为了便于说明用法,下面的代码都按照 TypeScript 的用法,给出了类型签名。
上面代码中,ab2str()
的第二个参数outputEncoding
给出了输出编码的编码,一般保持默认值(utf-8
),其他可选值参见官方文档或 Node.js 文档。
溢出
不同的视图类型,所能容纳的数值范围是确定的。超出这个范围,就会出现溢出。比如,8 位视图只能容纳一个 8 位的二进制值,如果放入一个 9 位的值,就会溢出。
TypedArray 数组的溢出处理规则,简单来说,就是抛弃溢出的位,然后按照视图类型进行解释。
上面代码中,uint8
是一个 8 位视图,而 256 的二进制形式是一个 9 位的值100000000
,这时就会发生溢出。根据规则,只会保留后 8 位,即00000000
。uint8
视图的解释规则是无符号的 8 位整数,所以00000000
就是0
。
负数在计算机内部采用“2 的补码”表示,也就是说,将对应的正数值进行否运算,然后加1
。比如,-1
对应的正值是1
,进行否运算以后,得到11111110
,再加上1
就是补码形式11111111
。uint8
按照无符号的 8 位整数解释11111111
,返回结果就是255
。
一个简单转换规则,可以这样表示。
- 正向溢出(overflow):当输入值大于当前数据类型的最大值,结果等于当前数据类型的最小值加上余值,再减去 1。
- 负向溢出(underflow):当输入值小于当前数据类型的最小值,结果等于当前数据类型的最大值减去余值的绝对值,再加上 1。
上面的“余值”就是模运算的结果,即 JavaScript 里面的%
运算符的结果。
上面代码中,12 除以 4 是没有余值的,而除以 5 会得到余值 2。
请看下面的例子。
上面例子中,int8
是一个带符号的 8 位整数视图,它的最大值是 127,最小值是-128。输入值为128
时,相当于正向溢出1
,根据“最小值加上余值(128 除以 127 的余值是 1),再减去 1”的规则,就会返回-128
;输入值为-129
时,相当于负向溢出1
,根据“最大值减去余值的绝对值(-129 除以-128 的余值的绝对值是 1),再加上 1”的规则,就会返回127
。
Uint8ClampedArray
视图的溢出规则,与上面的规则不同。它规定,凡是发生正向溢出,该值一律等于当前数据类型的最大值,即 255;如果发生负向溢出,该值一律等于当前数据类型的最小值,即 0。
上面例子中,uint8C
是一个Uint8ClampedArray
视图,正向溢出时都返回 255,负向溢出都返回 0。
TypedArray.prototype.buffer
TypedArray
实例的buffer
属性,返回整段内存区域对应的ArrayBuffer
对象。该属性为只读属性。
上面代码的a
视图对象和b
视图对象,对应同一个ArrayBuffer
对象,即同一段内存。
TypedArray.prototype.byteLength,TypedArray.prototype.byteOffset
byteLength
属性返回 TypedArray 数组占据的内存长度,单位为字节。byteOffset
属性返回 TypedArray 数组从底层ArrayBuffer
对象的哪个字节开始。这两个属性都是只读属性。
TypedArray.prototype.length
length
属性表示 TypedArray
数组含有多少个成员。注意将 length
属性和 byteLength
属性区分,前者是成员长度,后者是字节长度。
TypedArray.prototype.set()
TypedArray 数组的set
方法用于复制数组(普通数组或 TypedArray 数组),也就是将一段内容完全复制到另一段内存。
上面代码复制a
数组的内容到b
数组,它是整段内存的复制,比一个个拷贝成员的那种复制快得多。
set
方法还可以接受第二个参数,表示从b
对象的哪一个成员开始复制a
对象。
上面代码的b
数组比a
数组多两个成员,所以从b[2]
开始复制。
TypedArray.prototype.subarray()
subarray
方法是对于 TypedArray 数组的一部分,再建立一个新的视图。
subarray
方法的第一个参数是起始的成员序号,第二个参数是结束的成员序号(不含该成员),如果省略则包含剩余的全部成员。所以,上面代码的a.subarray(2,3)
,意味着 b 只包含a[2]
一个成员,字节长度为 2。
TypedArray.prototype.slice()
TypeArray 实例的slice
方法,可以返回一个指定位置的新的TypedArray
实例。
上面代码中,ui8
是 8 位无符号整数数组视图的一个实例。它的slice
方法可以从当前视图之中,返回一个新的视图实例。
slice
方法的参数,表示原数组的具体位置,开始生成新数组。负值表示逆向的位置,即-1 为倒数第一个位置,-2 表示倒数第二个位置,以此类推。
TypedArray.of()
TypedArray 数组的所有构造函数,都有一个静态方法of
,用于将参数转为一个TypedArray
实例。
下面三种方法都会生成同样一个 TypedArray 数组。
TypedArray.from()
静态方法from
接受一个可遍历的数据结构(比如数组)作为参数,返回一个基于这个结构的TypedArray
实例。
这个方法还可以将一种TypedArray
实例,转为另一种。
from
方法还可以接受一个函数,作为第二个参数,用来对每个元素进行遍历,功能类似map
方法。
上面的例子中,from
方法没有发生溢出,这说明遍历不是针对原来的 8 位整数数组。也就是说,from
会将第一个参数指定的 TypedArray 数组,拷贝到另一段内存之中,处理之后再将结果转成指定的数组格式。
复合视图
由于视图的构造函数可以指定起始位置和长度,所以在同一段内存之中,可以依次存放不同类型的数据,这叫做“复合视图”。
上面代码将一个 24 字节长度的ArrayBuffer
对象,分成三个部分:
- 字节 0 到字节 3:1 个 32 位无符号整数
- 字节 4 到字节 19:16 个 8 位整数
- 字节 20 到字节 23:1 个 32 位浮点数
这种数据结构可以用如下的 C 语言描述:
DataView 视图
如果一段数据包括多种类型(比如服务器传来的 HTTP 数据),这时除了建立ArrayBuffer
对象的复合视图以外,还可以通过DataView
视图进行操作。
DataView
视图提供更多操作选项,而且支持设定字节序。本来,在设计目的上,ArrayBuffer
对象的各种TypedArray
视图,是用来向网卡、声卡之类的本机设备传送数据,所以使用本机的字节序就可以了;而DataView
视图的设计目的,是用来处理网络设备传来的数据,所以大端字节序或小端字节序是可以自行设定的。
DataView
视图本身也是构造函数,接受一个ArrayBuffer
对象作为参数,生成视图。
下面是一个例子。
DataView
实例有以下属性,含义与TypedArray
实例的同名方法相同。
DataView.prototype.buffer
:返回对应的 ArrayBuffer 对象DataView.prototype.byteLength
:返回占据的内存字节长度DataView.prototype.byteOffset
:返回当前视图从对应的 ArrayBuffer 对象的哪个字节开始
DataView
实例提供10个方法读取内存。
getInt8
:读取 1 个字节,返回一个 8 位整数。getUint8
:读取 1 个字节,返回一个无符号的 8 位整数。getInt16
:读取 2 个字节,返回一个 16 位整数。getUint16
:读取 2 个字节,返回一个无符号的 16 位整数。getInt32
:读取 4 个字节,返回一个 32 位整数。getUint32
:读取 4 个字节,返回一个无符号的 32 位整数。getBigInt64
:读取 8 个字节,返回一个 64 位整数。getBigUint64
:读取 8 个字节,返回一个无符号的 64 位整数。getFloat32
:读取 4 个字节,返回一个 32 位浮点数。getFloat64
:读取 8 个字节,返回一个 64 位浮点数。
这一系列get
方法的参数都是一个字节序号(不能是负数,否则会报错),表示从哪个字节开始读取。
上面代码读取了ArrayBuffer
对象的前 5 个字节,其中有一个 8 位整数和两个十六位整数。
如果一次读取两个或两个以上字节,就必须明确数据的存储方式,到底是小端字节序还是大端字节序。默认情况下,DataView
的get
方法使用大端字节序解读数据,如果需要使用小端字节序解读,必须在get
方法的第二个参数指定true
。
DataView 视图提供10个方法写入内存。
setInt8
:写入 1 个字节的 8 位整数。setUint8
:写入 1 个字节的 8 位无符号整数。setInt16
:写入 2 个字节的 16 位整数。setUint16
:写入 2 个字节的 16 位无符号整数。setInt32
:写入 4 个字节的 32 位整数。setUint32
:写入 4 个字节的 32 位无符号整数。setBigInt64
:写入 8 个字节的 64 位整数。setBigUint64
:写入 8 个字节的 64 位无符号整数。setFloat32
:写入 4 个字节的 32 位浮点数。setFloat64
:写入 8 个字节的 64 位浮点数。
这一系列set
方法,接受两个参数,第一个参数是字节序号,表示从哪个字节开始写入,第二个参数为写入的数据。对于那些写入两个或两个以上字节的方法,需要指定第三个参数,false
或者undefined
表示使用大端字节序写入,true
表示使用小端字节序写入。
如果不确定正在使用的计算机的字节序,可以采用下面的判断方式。
如果返回true
,就是小端字节序;如果返回false
,就是大端字节序。
二进制数组的应用
大量的 Web API 用到了ArrayBuffer
对象和它的视图对象。
AJAX
传统上,服务器通过 AJAX 操作只能返回文本数据,即responseType
属性默认为text
。XMLHttpRequest
第二版XHR2
允许服务器返回二进制数据,这时分成两种情况。如果明确知道返回的二进制数据类型,可以把返回类型(responseType
)设为arraybuffer
;如果不知道,就设为blob
。
如果知道传回来的是 32 位整数,可以像下面这样处理。
Canvas
网页Canvas
元素输出的二进制像素数据,就是 TypedArray 数组。
需要注意的是,上面代码的uint8ClampedArray
虽然是一个 TypedArray 数组,但是它的视图类型是一种针对Canvas
元素的专有类型Uint8ClampedArray
。这个视图类型的特点,就是专门针对颜色,把每个字节解读为无符号的 8 位整数,即只能取值 0 ~ 255,而且发生运算的时候自动过滤高位溢出。这为图像处理带来了巨大的方便。
举例来说,如果把像素的颜色值设为Uint8Array
类型,那么乘以一个 gamma 值的时候,就必须这样计算:
因为Uint8Array
类型对于大于 255 的运算结果(比如0xFF+1
),会自动变为0x00
,所以图像处理必须要像上面这样算。这样做很麻烦,而且影响性能。如果将颜色值设为Uint8ClampedArray
类型,计算就简化许多。
Uint8ClampedArray
类型确保将小于 0 的值设为 0,将大于 255 的值设为 255。注意,IE 10 不支持该类型。
WebSocket
WebSocket
可以通过ArrayBuffer
,发送或接收二进制数据。
Fetch API
Fetch API 取回的数据,就是ArrayBuffer
对象。
File API
如果知道一个文件的二进制数据类型,也可以将这个文件读取为ArrayBuffer
对象。
下面以处理 bmp 文件为例。假定file
变量是一个指向 bmp 文件的文件对象,首先读取文件。
然后,定义处理图像的回调函数:先在二进制数据之上建立一个DataView
视图,再建立一个bitmap
对象,用于存放处理后的数据,最后将图像展示在Canvas
元素之中。
具体处理图像数据时,先处理 bmp 的文件头。具体每个文件头的格式和定义,请参阅有关资料。
接着处理图像元信息部分。
最后处理图像本身的像素信息。
至此,图像文件的数据全部处理完成。下一步,可以根据需要,进行图像变形,或者转换格式,或者展示在Canvas
网页元素之中。
SharedArrayBuffer
JavaScript 是单线程的,Web worker 引入了多线程:主线程用来与用户互动,Worker 线程用来承担计算任务。每个线程的数据都是隔离的,通过postMessage()
通信。下面是一个例子。
上面代码中,主线程新建了一个 Worker 线程。该线程与主线程之间会有一个通信渠道,主线程通过w.postMessage
向 Worker 线程发消息,同时通过message
事件监听 Worker 线程的回应。
上面代码中,主线程先发一个消息hi
,然后在监听到 Worker 线程的回应后,就将其打印出来。
Worker 线程也是通过监听message
事件,来获取主线程发来的消息,并作出反应。
线程之间的数据交换可以是各种格式,不仅仅是字符串,也可以是二进制数据。这种交换采用的是复制机制,即一个进程将需要分享的数据复制一份,通过postMessage
方法交给另一个进程。如果数据量比较大,这种通信的效率显然比较低。很容易想到,这时可以留出一块内存区域,由主线程与 Worker 线程共享,两方都可以读写,那么就会大大提高效率,协作起来也会比较简单(不像postMessage
那么麻烦)。
ES2017 引入SharedArrayBuffer
,允许 Worker 线程与主线程共享同一块内存。SharedArrayBuffer
的 API 与ArrayBuffer
一模一样,唯一的区别是后者无法共享数据。
上面代码中,postMessage
方法的参数是SharedArrayBuffer
对象。
Worker 线程从事件的data
属性上面取到数据。
共享内存也可以在 Worker 线程创建,发给主线程。
SharedArrayBuffer
与ArrayBuffer
一样,本身是无法读写的,必须在上面建立视图,然后通过视图读写。
Worker 线程收到数据后的处理如下。
Atomics 对象
多线程共享内存,最大的问题就是如何防止两个线程同时修改某个地址,或者说,当一个线程修改共享内存以后,必须有一个机制让其他线程同步。SharedArrayBuffer API 提供Atomics
对象,保证所有共享内存的操作都是“原子性”的,并且可以在所有线程内同步。
什么叫“原子性操作”呢?现代编程语言中,一条普通的命令被编译器处理以后,会变成多条机器指令。如果是单线程运行,这是没有问题的;多线程环境并且共享内存时,就会出问题,因为这一组机器指令的运行期间,可能会插入其他线程的指令,从而导致运行结果出错。请看下面的例子。
上面代码中,主线程的原始顺序是先对 42 号位置赋值,再对 37 号位置赋值。但是,编译器和 CPU 为了优化,可能会改变这两个操作的执行顺序(因为它们之间互不依赖),先对 37 号位置赋值,再对 42 号位置赋值。而执行到一半的时候,Worker 线程可能就会来读取数据,导致打印出123456
和191
。
下面是另一个例子。
上面代码中,Worker 线程直接改写共享内存ia[112]++
是不正确的。因为这行语句会被编译成多条机器指令,这些指令之间无法保证不会插入其他进程的指令。请设想如果两个线程同时ia[112]++
,很可能它们得到的结果都是不正确的。
Atomics
对象就是为了解决这个问题而提出,它可以保证一个操作所对应的多条机器指令,一定是作为一个整体运行的,中间不会被打断。也就是说,它所涉及的操作都可以看作是原子性的单操作,这可以避免线程竞争,提高多线程共享内存时的操作安全。所以,ia[112]++
要改写成Atomics.add(ia, 112, 1)
。
Atomics
对象提供多种方法。
(1)Atomics.store(),Atomics.load()
store()
方法用来向共享内存写入数据,load()
方法用来从共享内存读出数据。比起直接的读写操作,它们的好处是保证了读写操作的原子性。
此外,它们还用来解决一个问题:多个线程使用共享内存的某个位置作为开关(flag),一旦该位置的值变了,就执行特定操作。这时,必须保证该位置的赋值操作,一定是在它前面的所有可能会改写内存的操作结束后执行;而该位置的取值操作,一定是在它后面所有可能会读取该位置的操作开始之前执行。store()
方法和load()
方法就能做到这一点,编译器不会为了优化,而打乱机器指令的执行顺序。
store()
方法接受三个参数:typedArray
对象(SharedArrayBuffer 的视图)、位置索引和值,返回typedArray[index]
的值。load()
方法只接受两个参数:typedArray
对象(SharedArrayBuffer 的视图)和位置索引,也是返回typedArray[index]
的值。
上面代码中,主线程的Atomics.store()
向 42 号位置的赋值,一定是早于 37 位置的赋值。只要 37 号位置等于 163,Worker 线程就不会终止循环,而对 37 号位置和 42 号位置的取值,一定是在Atomics.load()
操作之后。
下面是另一个例子。
上面代码中,主线程用Atomics.store()
方法写入数据。下面是 Worker 线程用Atomics.load()
方法读取数据。
(2)Atomics.exchange()
Worker 线程如果要写入数据,可以使用上面的Atomics.store()
方法,也可以使用Atomics.exchange()
方法。它们的区别是,Atomics.store()
返回写入的值,而Atomics.exchange()
返回被替换的值。
上面代码将共享内存的偶数位置的值改成1
,奇数位置的值改成2
。
(3)Atomics.wait(),Atomics.notify()
使用while
循环等待主线程的通知,不是很高效,如果用在主线程,就会造成卡顿,Atomics
对象提供了wait()
和notify()
两个方法用于等待通知。这两个方法相当于锁内存,即在一个线程进行操作时,让其他线程休眠(建立锁),等到操作结束,再唤醒那些休眠的线程(解除锁)。
Atomics.notify()
方法以前叫做Atomics.wake()
,后来进行了改名。
上面代码中,Atomics.wait()
方法等同于告诉 Worker 线程,只要满足给定条件(sharedArray
的0
号位置等于50
),就在这一行 Worker 线程进入休眠。
主线程一旦更改了指定位置的值,就可以唤醒 Worker 线程。
上面代码中,sharedArray
的0
号位置改为100
,然后就执行Atomics.notify()
方法,唤醒在sharedArray
的0
号位置休眠队列里的一个线程。
Atomics.wait()
方法的使用格式如下。
它的四个参数含义如下。
- sharedArray:共享内存的视图数组。
- index:视图数据的位置(从0开始)。
- value:该位置的预期值。一旦实际值等于预期值,就进入休眠。
- timeout:整数,表示过了这个时间以后,就自动唤醒,单位毫秒。该参数可选,默认值是
Infinity
,即无限期的休眠,只有通过Atomics.notify()
方法才能唤醒。
Atomics.wait()
的返回值是一个字符串,共有三种可能的值。如果sharedArray[index]
不等于value
,就返回字符串not-equal
,否则就进入休眠。如果Atomics.notify()
方法唤醒,就返回字符串ok
;如果因为超时唤醒,就返回字符串timed-out
。
Atomics.notify()
方法的使用格式如下。
它的三个参数含义如下。
- sharedArray:共享内存的视图数组。
- index:视图数据的位置(从0开始)。
- count:需要唤醒的 Worker 线程的数量,默认为
Infinity
。
Atomics.notify()
方法一旦唤醒休眠的 Worker 线程,就会让它继续往下运行。
请看一个例子。
上面代码中,视图数组ia
的第 37 号位置,原来的值是163
。Worker 线程使用Atomics.wait()
方法,指定只要ia[37]
等于163
,就进入休眠状态。主线程使用Atomics.store()
方法,将123456
写入ia[37]
,然后使用Atomics.notify()
方法唤醒 Worker 线程。
另外,基于wait
和notify
这两个方法的锁内存实现,可以看 Lars T Hansen 的 js-lock-and-condition 这个库。
注意,浏览器的主线程不宜设置休眠,这会导致用户失去响应。而且,主线程实际上会拒绝进入休眠。
(4)运算方法
共享内存上面的某些运算是不能被打断的,即不能在运算过程中,让其他线程改写内存上面的值。Atomics 对象提供了一些运算方法,防止数据被改写。
Atomics.add
用于将value
加到sharedArray[index]
,返回sharedArray[index]
旧的值。
Atomics.sub
用于将value
从sharedArray[index]
减去,返回sharedArray[index]
旧的值。
Atomics.and
用于将value
与sharedArray[index]
进行位运算and
,放入sharedArray[index]
,并返回旧的值。
Atomics.or
用于将value
与sharedArray[index]
进行位运算or
,放入sharedArray[index]
,并返回旧的值。
Atomic.xor
用于将vaule
与sharedArray[index]
进行位运算xor
,放入sharedArray[index]
,并返回旧的值。
(5)其他方法
Atomics
对象还有以下方法。
Atomics.compareExchange(sharedArray, index, oldval, newval)
:如果sharedArray[index]
等于oldval
,就写入newval
,返回oldval
。Atomics.isLockFree(size)
:返回一个布尔值,表示Atomics
对象是否可以处理某个size
的内存锁定。如果返回false
,应用程序就需要自己来实现锁定。
Atomics.compareExchange
的一个用途是,从 SharedArrayBuffer 读取一个值,然后对该值进行某个操作,操作结束以后,检查一下 SharedArrayBuffer 里面原来那个值是否发生变化(即被其他线程改写过)。如果没有改写过,就将它写回原来的位置,否则读取新的值,再重头进行一次操作。