Существует ли общепринятый способ эффективного преобразования строк JavaScript в ArrayBuffers и наоборот? В частности, я хотел бы написать содержимое массива ArrayBuffer на localStorage
и прочитать его обратно.
Преобразование между строками и ArrayBuffers
Ответ 1
Обновление 2016 года - через пять лет в спецификации появились новые методы (см. поддержку ниже) для преобразования между строками и типизированными массивами с использованием правильной кодировки.
TextEncoder
Интерфейс
TextEncoder
представляет кодировщик для конкретного метода, это определенная кодировка символов, напримерutf-8
,Кодер принимает поток кодовых точек в качестве входных данных и испускает поток байтов.iso-8859-2
,koi8
,cp1261
,gbk
,...
Изменить примечание, так как написано выше: (там же)
Примечание: Firefox, Chrome и Opera раньше поддерживали кодирование типы, отличные от utf-8 (такие как utf-16, iso-8859-2, koi8, cp1261 и GBK). По состоянию на Firefox 48 [...], Chrome 54 [...] и Opera 41, нет кроме utf-8, доступны другие типы кодирования, чтобы соответствовать спецификация. *
*) Обновлены спецификации (W3) и здесь (whatwg).
После создания экземпляра TextEncoder
он возьмет строку и закодирует ее, используя заданный параметр кодирования:
if (!("TextEncoder" in window))
alert("Sorry, this browser does not support TextEncoder...");
var enc = new TextEncoder(); // always utf-8
console.log(enc.encode("This is a string converted to a Uint8Array"));
Ответ 2
Хотя решения Dennis и gengkev по использованию Blob/FileReader работают, я бы не предложил использовать этот подход. Это асинхронный подход к простой проблеме, и он намного медленнее, чем прямое решение. Я сделал сообщение в html5rocks с более простым и (гораздо более быстрым) решением: http://updates.html5rocks.com/2012/06/How-to-convert-ArrayBuffer-to-and-from-String
И решение:
function ab2str(buf) {
return String.fromCharCode.apply(null, new Uint16Array(buf));
}
function str2ab(str) {
var buf = new ArrayBuffer(str.length*2); // 2 bytes for each char
var bufView = new Uint16Array(buf);
for (var i=0, strLen=str.length; i<strLen; i++) {
bufView[i] = str.charCodeAt(i);
}
return buf;
}
EDIT:
API кодирования помогает решить проблему преобразования строк. Просмотрите ответ от Jeff Posnik на странице Html5Rocks.com на вышеупомянутую оригинальную статью.
Выдержки:
API кодирования упрощает перевод между необработанными байтами и встроенными строками JavaScript, независимо от того, из какого множества стандартных кодировок вам нужно работать.
<pre id="results"></pre>
<script>
if ('TextDecoder' in window) {
// The local files to be fetched, mapped to the encoding that they're using.
var filesToEncoding = {
'utf8.bin': 'utf-8',
'utf16le.bin': 'utf-16le',
'macintosh.bin': 'macintosh'
};
Object.keys(filesToEncoding).forEach(function(file) {
fetchAndDecode(file, filesToEncoding[file]);
});
} else {
document.querySelector('#results').textContent = 'Your browser does not support the Encoding API.'
}
// Use XHR to fetch `file` and interpret its contents as being encoded with `encoding`.
function fetchAndDecode(file, encoding) {
var xhr = new XMLHttpRequest();
xhr.open('GET', file);
// Using 'arraybuffer' as the responseType ensures that the raw data is returned,
// rather than letting XMLHttpRequest decode the data first.
xhr.responseType = 'arraybuffer';
xhr.onload = function() {
if (this.status == 200) {
// The decode() method takes a DataView as a parameter, which is a wrapper on top of the ArrayBuffer.
var dataView = new DataView(this.response);
// The TextDecoder interface is documented at http://encoding.spec.whatwg.org/#interface-textdecoder
var decoder = new TextDecoder(encoding);
var decodedString = decoder.decode(dataView);
// Add the decoded file text to the <pre> element on the page.
document.querySelector('#results').textContent += decodedString + '\n';
} else {
console.error('Error while requesting', file, this);
}
};
xhr.send();
}
</script>
Ответ 3
Вы можете использовать TextEncoder
и TextDecoder
из стандарта кодирования, который заполняется библиотекой кодирования строки, для преобразования строки в ArrayBuffers и из нее:
var uint8array = new TextEncoder().encode(string);
var string = new TextDecoder(encoding).decode(uint8array);
Ответ 4
Blob намного медленнее, чем String.fromCharCode(null,array);
но это не удается, если буфер массива становится слишком большим. Лучшее решение, которое я нашел, - это использовать String.fromCharCode(null,array);
и разделить его на операции, которые не будут взорвать стек, но быстрее, чем один char за раз.
Лучшим решением для большого массива является:
function arrayBufferToString(buffer){
var bufView = new Uint16Array(buffer);
var length = bufView.length;
var result = '';
var addition = Math.pow(2,16)-1;
for(var i = 0;i<length;i+=addition){
if(i + addition > length){
addition = length - i;
}
result += String.fromCharCode.apply(null, bufView.subarray(i,i+addition));
}
return result;
}
Я обнаружил, что это примерно в 20 раз быстрее, чем использование blob. Он также работает для больших строк более 100 МБ.
Ответ 5
Основываясь на ответе gengkev, я создал функции для обоих способов, потому что BlobBuilder может обрабатывать String и ArrayBuffer:
function string2ArrayBuffer(string, callback) {
var bb = new BlobBuilder();
bb.append(string);
var f = new FileReader();
f.onload = function(e) {
callback(e.target.result);
}
f.readAsArrayBuffer(bb.getBlob());
}
и
function arrayBuffer2String(buf, callback) {
var bb = new BlobBuilder();
bb.append(buf);
var f = new FileReader();
f.onload = function(e) {
callback(e.target.result)
}
f.readAsText(bb.getBlob());
}
Простой тест:
string2ArrayBuffer("abc",
function (buf) {
var uInt8 = new Uint8Array(buf);
console.log(uInt8); // Returns `Uint8Array { 0=97, 1=98, 2=99}`
arrayBuffer2String(buf,
function (string) {
console.log(string); // returns "abc"
}
)
}
)
Ответ 6
Все следующее о получении двоичных строк из буферов массива
Я бы рекомендовал не использовать
var binaryString = String.fromCharCode.apply(null, new Uint8Array(arrayBuffer));
потому что он
- сбой на больших буферах (кто-то писал о "волшебном" размере 246300, но я получил ошибку
Maximum call stack size exceeded
для буфера 120000 байт (Chrome 29)) - он имеет действительно низкую производительность (см. ниже)
Если вам требуется синхронное решение, используйте что-то вроде
var
binaryString = '',
bytes = new Uint8Array(arrayBuffer),
length = bytes.length;
for (var i = 0; i < length; i++) {
binaryString += String.fromCharCode(bytes[i]);
}
он работает так же медленно, как и предыдущий, но работает правильно. Похоже, что на момент написания этого нет довольно быстрого синхронного решения этой проблемы (все библиотеки, упомянутые в этом разделе, используют тот же подход для своих синхронных функций).
Но я действительно рекомендую использовать Blob
+ FileReader
подход
function readBinaryStringFromArrayBuffer (arrayBuffer, onSuccess, onFail) {
var reader = new FileReader();
reader.onload = function (event) {
onSuccess(event.target.result);
};
reader.onerror = function (event) {
onFail(event.target.error);
};
reader.readAsBinaryString(new Blob([ arrayBuffer ],
{ type: 'application/octet-stream' }));
}
единственным недостатком (не для всех) является то, что он асинхронный. И это примерно в 8-10 раз быстрее, чем предыдущие решения! (Некоторые подробности: синхронное решение в моей среде заняло 950-1050 мс для буфера 2,4 Мб, но решение с FileReader имело время около 100-120 мс для того же объема данных. И я протестировал оба синхронных решения на буфере 100 Кбит, и они взяли почти в то же время, поэтому цикл не намного медленнее, чем использование "apply".)
Кстати: Как преобразовать ArrayBuffer в и из String автор сравнивает два подхода, такие как я, и получаю совершенно противоположные результаты (его тестовый код здесь) Почему так разные результаты? Вероятно, из-за его тестовой строки длиной 1 Кб (он назвал ее "veryLongStr" ). Мой буфер был действительно большим JPEG-изображением размером 2,4 МБ.
Ответ 7
В отличие от решений здесь мне нужно было преобразовать в/из данных UTF-8. Для этой цели я закодировал следующие две функции, используя трюк (un) escape/(en) decodeURIComponent. Они довольно расточительны для памяти, выделяя в 9 раз длину закодированной utf8-строки, хотя они должны быть восстановлены gc. Просто не используйте их для текста 100mb.
function utf8AbFromStr(str) {
var strUtf8 = unescape(encodeURIComponent(str));
var ab = new Uint8Array(strUtf8.length);
for (var i = 0; i < strUtf8.length; i++) {
ab[i] = strUtf8.charCodeAt(i);
}
return ab;
}
function strFromUtf8Ab(ab) {
return decodeURIComponent(escape(String.fromCharCode.apply(null, ab)));
}
Проверка работы:
strFromUtf8Ab(utf8AbFromStr('latinкирилицаαβγδεζηあいうえお'))
-> "latinкирилицаαβγδεζηあいうえお"
Ответ 8
( Обновить Пожалуйста, просмотрите вторую половину ответа, где я (надеюсь) предоставил более полное решение.)
Я также столкнулся с этой проблемой, для меня это работает в FF 6 (для одного направления):
var buf = new ArrayBuffer( 10 );
var view = new Uint8Array( buf );
view[ 3 ] = 4;
alert(Array.prototype.slice.call(view).join(""));
К сожалению, вы, конечно, получаете текстовые представления ASCII из значений в массиве, а не символы. Тем не менее, он все же (должен быть) намного эффективнее, чем цикл.
например. В приведенном выше примере результат 0004000000
, а не несколько нулевых символов и chr (4).
Edit:
После просмотра MDC здесь вы можете создать ArrayBuffer
из Array
следующим образом:
var arr = new Array(23);
// New Uint8Array() converts the Array elements
// to Uint8s & creates a new ArrayBuffer
// to store them in & a corresponding view.
// To get at the generated ArrayBuffer,
// you can then access it as below, with the .buffer property
var buf = new Uint8Array( arr ).buffer;
Чтобы ответить на ваш первоначальный вопрос, вы можете преобразовать ArrayBuffer
↔ String
следующим образом:
var buf, view, str;
buf = new ArrayBuffer( 256 );
view = new Uint8Array( buf );
view[ 0 ] = 7; // Some dummy values
view[ 2 ] = 4;
// ...
// 1. Buffer -> String (as byte array "list")
str = bufferToString(buf);
alert(str); // Alerts "7,0,4,..."
// 1. String (as byte array) -> Buffer
buf = stringToBuffer(str);
alert(new Uint8Array( buf )[ 2 ]); // Alerts "4"
// Converts any ArrayBuffer to a string
// (a comma-separated list of ASCII ordinals,
// NOT a string of characters from the ordinals
// in the buffer elements)
function bufferToString( buf ) {
var view = new Uint8Array( buf );
return Array.prototype.join.call(view, ",");
}
// Converts a comma-separated ASCII ordinal string list
// back to an ArrayBuffer (see note for bufferToString())
function stringToBuffer( str ) {
var arr = str.split(",")
, view = new Uint8Array( arr );
return view.buffer;
}
Для удобства здесь приведена function
для преобразования необработанного Unicode String
в ArrayBuffer
(будет работать только с символами ASCII/1 байт)
function rawStringToBuffer( str ) {
var idx, len = str.length, arr = new Array( len );
for ( idx = 0 ; idx < len ; ++idx ) {
arr[ idx ] = str.charCodeAt(idx) & 0xFF;
}
// You may create an ArrayBuffer from a standard array (of values) as follows:
return new Uint8Array( arr ).buffer;
}
// Alerts "97"
alert(new Uint8Array( rawStringToBuffer("abc") )[ 0 ]);
Вышеупомянутое позволяет перейти от ArrayBuffer
→ String
и вернуться к ArrayBuffer
снова, где строка может быть сохранена, например. .localStorage
:)
Надеюсь, что это поможет,
Dan
Ответ 9
Я обнаружил, что у меня были проблемы с этим подходом, в основном потому, что я пытался записать вывод в файл, и он был неправильно закодирован. Поскольку JS, похоже, использует кодировку UCS-2 (источник, source), нам нужно еще больше растянуть это решение, здесь мое расширенное решение, которое работает для меня.
У меня не было никаких проблем с общим текстом, но когда дело доходило до арабского или корейского, выходной файл не имел всех символов, но вместо этого отображал символы ошибок
Выход файла:
","10k unit":"",Follow:"Õ©íüY‹","Follow %{screen_name}":"%{screen_name}U"’Õ©íü",Tweet:"ĤüÈ","Tweet %{hashtag}":"%{hashtag} ’ĤüÈY‹","Tweet to %{name}":"%{name}U"xĤüÈY‹"},ko:{"%{followers_count} followers":"%{followers_count}…X \Ì","100K+":"100Ì tÁ","10k unit":"Ì è",Follow:"\°","Follow %{screen_name}":"%{screen_name} Ø \°X0",K:"œ",M:"1Ì",Tweet:"¸","Tweet %{hashtag}":"%{hashtag}
Оригинал:
","10k unit":"万",Follow:"フォローする","Follow %{screen_name}":"%{screen_name}さんをフォロー",Tweet:"ツイート","Tweet %{hashtag}":"%{hashtag} をツイートする","Tweet to %{name}":"%{name}さんへツイートする"},ko:{"%{followers_count} followers":"%{followers_count}명의 팔로워","100K+":"100만 이상","10k unit":"만 단위",Follow:"팔로우","Follow %{screen_name}":"%{screen_name} 님 팔로우하기",K:"천",M:"백만",Tweet:"트윗","Tweet %{hashtag}":"%{hashtag}
Я взял информацию из решение dennis и этот пост Я нашел.
Здесь мой код:
function encode_utf8(s) {
return unescape(encodeURIComponent(s));
}
function decode_utf8(s) {
return decodeURIComponent(escape(s));
}
function ab2str(buf) {
var s = String.fromCharCode.apply(null, new Uint8Array(buf));
return decode_utf8(decode_utf8(s))
}
function str2ab(str) {
var s = encode_utf8(str)
var buf = new ArrayBuffer(s.length);
var bufView = new Uint8Array(buf);
for (var i=0, strLen=s.length; i<strLen; i++) {
bufView[i] = s.charCodeAt(i);
}
return bufView;
}
Это позволяет мне сохранять содержимое в файл без проблем с кодировкой.
Как это работает: Он в основном принимает одиночные 8-байтовые фрагменты, составляющие символ UTF-8, и сохраняет их как отдельные символы (поэтому построенный таким образом символ UTF-8 может быть составлен 1-4 из этих символов). UTF-8 кодирует символы в формате, который варьируется от 1 до 4 байтов в длину. Что мы здесь делаем, это кодирование жало в компоненте URI, а затем взять этот компонент и перевести его в соответствующий 8-байтовый символ. Таким образом, мы не теряем информацию, указанную символами UTF8 длиной более 1 байта.
Ответ 10
если вы использовали массивный массив arr.length=1000000
вы можете использовать этот код, чтобы избежать проблем обратного вызова сокета
function ab2str(buf) {
var bufView = new Uint16Array(buf);
var unis =""
for (var i = 0; i < bufView.length; i++) {
unis=unis+String.fromCharCode(bufView[i]);
}
return unis
}
обратная функция mangini ответ сверху
function str2ab(str) {
var buf = new ArrayBuffer(str.length*2); // 2 bytes for each char
var bufView = new Uint16Array(buf);
for (var i=0, strLen=str.length; i<strLen; i++) {
bufView[i] = str.charCodeAt(i);
}
return buf;
}
Ответ 11
ES2015:
a=Uint8Array.from(s,(x)=>x.charCodeAt(0))
Uint8Array (33) [2, 134, 140, 186, 82, 70, 108, 182, 233, 40, 143, 247, 29, 76, 245, 206, 29, 87, 48, 160, 78, 225, 242, 56, 236, 201, 80, 80, 152, 118, 92, 144, 48
s=String.fromCharCode.apply(null,a)
"ºRFl¶é (÷ LõÎW0 Náò8ìÉPPv\0"
Ответ 12
Ну, здесь несколько запутанный способ сделать то же самое:
var string = "Blah blah blah", output;
var bb = new (window.BlobBuilder||window.WebKitBlobBuilder||window.MozBlobBuilder)();
bb.append(string);
var f = new FileReader();
f.onload = function(e) {
// do whatever
output = e.target.result;
}
f.readAsArrayBuffer(bb.getBlob());
Изменить: BlobBuilder давно устарел в пользу конструктора Blob, которого не было, когда я впервые написал это сообщение. Здесь обновленная версия. (И да, это всегда был очень глупый способ сделать конверсию, но это было просто для удовольствия!)
var string = "Blah blah blah", output;
var f = new FileReader();
f.onload = function(e) {
// do whatever
output = e.target.result;
};
f.readAsArrayBuffer(new Blob([string]));
Ответ 13
После игры с решением mangini для преобразования от ArrayBuffer
до String
- ab2str
(который является самым изящным и полезным, который я нашел - спасибо!), у меня были некоторые проблемы при работе с большими массивами. Более конкретно, вызов String.fromCharCode.apply(null, new Uint16Array(buf));
вызывает ошибку:
arguments array passed to Function.prototype.apply is too large
.
Чтобы решить проблему (обход), я решил обработать вход ArrayBuffer
в кусках. Таким образом, модифицированное решение:
function ab2str(buf) {
var str = "";
var ab = new Uint16Array(buf);
var abLen = ab.length;
var CHUNK_SIZE = Math.pow(2, 16);
var offset, len, subab;
for (offset = 0; offset < abLen; offset += CHUNK_SIZE) {
len = Math.min(CHUNK_SIZE, abLen-offset);
subab = ab.subarray(offset, offset+len);
str += String.fromCharCode.apply(null, subab);
}
return str;
}
Размер фрагмента установлен на 2^16
, потому что это был размер, который я нашел для работы в моем ландшафте разработки. Установка более высокого значения вызвала повторную ошибку. Его можно изменить, установив переменную CHUNK_SIZE
в другое значение. Важно иметь четное число.
Примечание о производительности - я не проводил никаких тестов производительности для этого решения. Однако, поскольку он основан на предыдущем решении и может обрабатывать большие массивы, я не вижу причин, почему бы не использовать его.
Любые комментарии приветствуются (-:
Ответ 14
Смотрите здесь: https://developer.mozilla.org/en-US/docs/Web/JavaScript/Typed_arrays/StringView (C-подобный интерфейс для строк на основе интерфейса JavaScript ArrayBuffer)
Ответ 15
stringToArrayBuffer(byteString) {
var byteArray = new Uint8Array(byteString.length);
for (var i = 0; i < byteString.length; i++) {
byteArray[i] = byteString.codePointAt(i);
}
return byteArray;
}
arrayBufferToString(buffer) {
var byteArray = new Uint8Array(buffer);
var byteString = '';
for (var i = 0; i < byteArray.byteLength; i++) {
byteString += String.fromCodePoint(byteArray[i]);
}
return byteString;
}
Ответ 16
"родная" двоичная строка, возвращаемая atob(), представляет собой массив с 1 байтом на символ.
Поэтому мы не должны хранить 2 байта в символе.
var arrayBufferToString = function(buffer) {
return String.fromCharCode.apply(null, new Uint8Array(buffer));
}
var stringToArrayBuffer = function(str) {
return (new Uint8Array([].map.call(str,function(x){return x.charCodeAt(0)}))).buffer;
}
Ответ 17
Да:
const encstr = ('TextEncoder' in window) ? new TextEncoder().encode(str) : Uint8Array.from(str, c => c.codePointAt(0));
Ответ 18
Для node.js, а также для браузеров, использующих https://github.com/feross/buffer
function ab2str(buf: Uint8Array) {
return Buffer.from(buf).toString('base64');
}
function str2ab(str: string) {
return new Uint8Array(Buffer.from(str, 'base64'))
}
Примечание. Решения здесь не сработали. Мне нужно поддерживать node.js и браузеры и просто сериализовать UInt8Array в строку. Я мог бы сериализовать его как число [], но это занимает ненужное место. С этим решением мне не нужно беспокоиться о кодировках, поскольку оно base64. На всякий случай, если другие люди борются с той же проблемой... Мои два цента
Ответ 19
Я бы рекомендовал НЕ использовать устаревшие API, такие как BlobBuilder
BlobBuilder уже давно устарел объектом Blob. Сравните код в ответе Dennis — где используется BlobBuilder — с кодом ниже:
function arrayBufferGen(str, cb) {
var b = new Blob([str]);
var f = new FileReader();
f.onload = function(e) {
cb(e.target.result);
}
f.readAsArrayBuffer(b);
}
Обратите внимание, насколько чище и менее раздуто это сравнивается с устаревшим методом... Да, это определенно нужно рассмотреть здесь.
Ответ 20
var decoder = new TextDecoder ();
var string = decoder.decode (arrayBuffer);
См. https://developer.mozilla.org/en-US/docs/Web/API/TextDecoder/decode
Ответ 21
Я использовал это и работал у меня.
function arrayBufferToBase64( buffer ) {
var binary = '';
var bytes = new Uint8Array( buffer );
var len = bytes.byteLength;
for (var i = 0; i < len; i++) {
binary += String.fromCharCode( bytes[ i ] );
}
return window.btoa( binary );
}
function base64ToArrayBuffer(base64) {
var binary_string = window.atob(base64);
var len = binary_string.length;
var bytes = new Uint8Array( len );
for (var i = 0; i < len; i++) {
bytes[i] = binary_string.charCodeAt(i);
}
return bytes.buffer;
}