Преобразование между строками и ArrayBuffers

Существует ли общепринятый способ эффективного преобразования строк JavaScript в ArrayBuffers и наоборот? В частности, я хотел бы написать содержимое массива ArrayBuffer на localStorage и прочитать его обратно.

Ответ 1

Обновление 2016 года - через пять лет в спецификации появились новые методы (см. поддержку ниже) для преобразования между строками и типизированными массивами с использованием правильной кодировки.

TextEncoder

TextEncoder представляет:

Интерфейс TextEncoder представляет кодировщик для конкретного метода, это определенная кодировка символов, например utf-8, iso-8859-2, koi8, cp1261, gbk,... Кодер принимает поток кодовых точек в качестве входных данных и испускает поток байтов.

Изменить примечание, так как написано выше: (там же)

Примечание: Firefox, Chrome и Opera раньше поддерживали кодирование типы, отличные от utf-8 (такие как utf-16, iso-8859-2, koi8, cp1261 и GBK). По состоянию на Firefox 48 [...], Chrome 54 [...] и Opera 41, нет кроме utf-8, доступны другие типы кодирования, чтобы соответствовать спецификация. *

*) Обновлены спецификации (W3) и здесь (whatwg).

После создания экземпляра TextEncoder он возьмет строку и закодирует ее, используя заданный параметр кодирования:

if (!("TextEncoder" in window)) 
  alert("Sorry, this browser does not support TextEncoder...");

var enc = new TextEncoder(); // always utf-8
console.log(enc.encode("This is a string converted to a Uint8Array"));

Ответ 2

Хотя решения Dennis и gengkev по использованию Blob/FileReader работают, я бы не предложил использовать этот подход. Это асинхронный подход к простой проблеме, и он намного медленнее, чем прямое решение. Я сделал сообщение в html5rocks с более простым и (гораздо более быстрым) решением: http://updates.html5rocks.com/2012/06/How-to-convert-ArrayBuffer-to-and-from-String

И решение:

function ab2str(buf) {
  return String.fromCharCode.apply(null, new Uint16Array(buf));
}

function str2ab(str) {
  var buf = new ArrayBuffer(str.length*2); // 2 bytes for each char
  var bufView = new Uint16Array(buf);
  for (var i=0, strLen=str.length; i<strLen; i++) {
    bufView[i] = str.charCodeAt(i);
  }
  return buf;
}

EDIT:

API кодирования помогает решить проблему преобразования строк. Просмотрите ответ от Jeff Posnik на странице Html5Rocks.com на вышеупомянутую оригинальную статью.

Выдержки:

API кодирования упрощает перевод между необработанными байтами и встроенными строками JavaScript, независимо от того, из какого множества стандартных кодировок вам нужно работать.

<pre id="results"></pre>

<script>
  if ('TextDecoder' in window) {
    // The local files to be fetched, mapped to the encoding that they're using.
    var filesToEncoding = {
      'utf8.bin': 'utf-8',
      'utf16le.bin': 'utf-16le',
      'macintosh.bin': 'macintosh'
    };

    Object.keys(filesToEncoding).forEach(function(file) {
      fetchAndDecode(file, filesToEncoding[file]);
    });
  } else {
    document.querySelector('#results').textContent = 'Your browser does not support the Encoding API.'
  }

  // Use XHR to fetch `file` and interpret its contents as being encoded with `encoding`.
  function fetchAndDecode(file, encoding) {
    var xhr = new XMLHttpRequest();
    xhr.open('GET', file);
    // Using 'arraybuffer' as the responseType ensures that the raw data is returned,
    // rather than letting XMLHttpRequest decode the data first.
    xhr.responseType = 'arraybuffer';
    xhr.onload = function() {
      if (this.status == 200) {
        // The decode() method takes a DataView as a parameter, which is a wrapper on top of the ArrayBuffer.
        var dataView = new DataView(this.response);
        // The TextDecoder interface is documented at http://encoding.spec.whatwg.org/#interface-textdecoder
        var decoder = new TextDecoder(encoding);
        var decodedString = decoder.decode(dataView);
        // Add the decoded file text to the <pre> element on the page.
        document.querySelector('#results').textContent += decodedString + '\n';
      } else {
        console.error('Error while requesting', file, this);
      }
    };
    xhr.send();
  }
</script>

Ответ 4

Blob намного медленнее, чем String.fromCharCode(null,array);

но это не удается, если буфер массива становится слишком большим. Лучшее решение, которое я нашел, - это использовать String.fromCharCode(null,array); и разделить его на операции, которые не будут взорвать стек, но быстрее, чем один char за раз.

Лучшим решением для большого массива является:

function arrayBufferToString(buffer){

    var bufView = new Uint16Array(buffer);
    var length = bufView.length;
    var result = '';
    var addition = Math.pow(2,16)-1;

    for(var i = 0;i<length;i+=addition){

        if(i + addition > length){
            addition = length - i;
        }
        result += String.fromCharCode.apply(null, bufView.subarray(i,i+addition));
    }

    return result;

}

Я обнаружил, что это примерно в 20 раз быстрее, чем использование blob. Он также работает для больших строк более 100 МБ.

Ответ 5

Основываясь на ответе gengkev, я создал функции для обоих способов, потому что BlobBuilder может обрабатывать String и ArrayBuffer:

function string2ArrayBuffer(string, callback) {
    var bb = new BlobBuilder();
    bb.append(string);
    var f = new FileReader();
    f.onload = function(e) {
        callback(e.target.result);
    }
    f.readAsArrayBuffer(bb.getBlob());
}

и

function arrayBuffer2String(buf, callback) {
    var bb = new BlobBuilder();
    bb.append(buf);
    var f = new FileReader();
    f.onload = function(e) {
        callback(e.target.result)
    }
    f.readAsText(bb.getBlob());
}

Простой тест:

string2ArrayBuffer("abc",
    function (buf) {
        var uInt8 = new Uint8Array(buf);
        console.log(uInt8); // Returns `Uint8Array { 0=97, 1=98, 2=99}`

        arrayBuffer2String(buf, 
            function (string) {
                console.log(string); // returns "abc"
            }
        )
    }
)

Ответ 6

Все следующее о получении двоичных строк из буферов массива

Я бы рекомендовал не использовать

var binaryString = String.fromCharCode.apply(null, new Uint8Array(arrayBuffer));

потому что он

  • сбой на больших буферах (кто-то писал о "волшебном" размере 246300, но я получил ошибку Maximum call stack size exceeded для буфера 120000 байт (Chrome 29))
  • он имеет действительно низкую производительность (см. ниже)

Если вам требуется синхронное решение, используйте что-то вроде

var
  binaryString = '',
  bytes = new Uint8Array(arrayBuffer),
  length = bytes.length;
for (var i = 0; i < length; i++) {
  binaryString += String.fromCharCode(bytes[i]);
}

он работает так же медленно, как и предыдущий, но работает правильно. Похоже, что на момент написания этого нет довольно быстрого синхронного решения этой проблемы (все библиотеки, упомянутые в этом разделе, используют тот же подход для своих синхронных функций).

Но я действительно рекомендую использовать Blob + FileReader подход

function readBinaryStringFromArrayBuffer (arrayBuffer, onSuccess, onFail) {
  var reader = new FileReader();
  reader.onload = function (event) {
    onSuccess(event.target.result);
  };
  reader.onerror = function (event) {
    onFail(event.target.error);
  };
  reader.readAsBinaryString(new Blob([ arrayBuffer ],
    { type: 'application/octet-stream' }));
}

единственным недостатком (не для всех) является то, что он асинхронный. И это примерно в 8-10 раз быстрее, чем предыдущие решения! (Некоторые подробности: синхронное решение в моей среде заняло 950-1050 мс для буфера 2,4 Мб, но решение с FileReader имело время около 100-120 мс для того же объема данных. И я протестировал оба синхронных решения на буфере 100 Кбит, и они взяли почти в то же время, поэтому цикл не намного медленнее, чем использование "apply".)

Кстати: Как преобразовать ArrayBuffer в и из String автор сравнивает два подхода, такие как я, и получаю совершенно противоположные результаты (его тестовый код здесь) Почему так разные результаты? Вероятно, из-за его тестовой строки длиной 1 Кб (он назвал ее "veryLongStr" ). Мой буфер был действительно большим JPEG-изображением размером 2,4 МБ.

Ответ 7

В отличие от решений здесь мне нужно было преобразовать в/из данных UTF-8. Для этой цели я закодировал следующие две функции, используя трюк (un) escape/(en) decodeURIComponent. Они довольно расточительны для памяти, выделяя в 9 раз длину закодированной utf8-строки, хотя они должны быть восстановлены gc. Просто не используйте их для текста 100mb.

function utf8AbFromStr(str) {
    var strUtf8 = unescape(encodeURIComponent(str));
    var ab = new Uint8Array(strUtf8.length);
    for (var i = 0; i < strUtf8.length; i++) {
        ab[i] = strUtf8.charCodeAt(i);
    }
    return ab;
}

function strFromUtf8Ab(ab) {
    return decodeURIComponent(escape(String.fromCharCode.apply(null, ab)));
}

Проверка работы:

strFromUtf8Ab(utf8AbFromStr('latinкирилицаαβγδεζηあいうえお'))
-> "latinкирилицаαβγδεζηあいうえお"

Ответ 8

( Обновить Пожалуйста, просмотрите вторую половину ответа, где я (надеюсь) предоставил более полное решение.)

Я также столкнулся с этой проблемой, для меня это работает в FF 6 (для одного направления):

var buf = new ArrayBuffer( 10 );
var view = new Uint8Array( buf );
view[ 3 ] = 4;
alert(Array.prototype.slice.call(view).join(""));

К сожалению, вы, конечно, получаете текстовые представления ASCII из значений в массиве, а не символы. Тем не менее, он все же (должен быть) намного эффективнее, чем цикл. например. В приведенном выше примере результат 0004000000, а не несколько нулевых символов и chr (4).

Edit:

После просмотра MDC здесь вы можете создать ArrayBuffer из Array следующим образом:

var arr = new Array(23);
// New Uint8Array() converts the Array elements
//  to Uint8s & creates a new ArrayBuffer
//  to store them in & a corresponding view.
//  To get at the generated ArrayBuffer,
//  you can then access it as below, with the .buffer property
var buf = new Uint8Array( arr ).buffer;

Чтобы ответить на ваш первоначальный вопрос, вы можете преобразовать ArrayBufferString следующим образом:

var buf, view, str;
buf = new ArrayBuffer( 256 );
view = new Uint8Array( buf );

view[ 0 ] = 7; // Some dummy values
view[ 2 ] = 4;

// ...

// 1. Buffer -> String (as byte array "list")
str = bufferToString(buf);
alert(str); // Alerts "7,0,4,..."

// 1. String (as byte array) -> Buffer    
buf = stringToBuffer(str);
alert(new Uint8Array( buf )[ 2 ]); // Alerts "4"

// Converts any ArrayBuffer to a string
//  (a comma-separated list of ASCII ordinals,
//  NOT a string of characters from the ordinals
//  in the buffer elements)
function bufferToString( buf ) {
    var view = new Uint8Array( buf );
    return Array.prototype.join.call(view, ",");
}
// Converts a comma-separated ASCII ordinal string list
//  back to an ArrayBuffer (see note for bufferToString())
function stringToBuffer( str ) {
    var arr = str.split(",")
      , view = new Uint8Array( arr );
    return view.buffer;
}

Для удобства здесь приведена function для преобразования необработанного Unicode String в ArrayBuffer (будет работать только с символами ASCII/1 байт)

function rawStringToBuffer( str ) {
    var idx, len = str.length, arr = new Array( len );
    for ( idx = 0 ; idx < len ; ++idx ) {
        arr[ idx ] = str.charCodeAt(idx) & 0xFF;
    }
    // You may create an ArrayBuffer from a standard array (of values) as follows:
    return new Uint8Array( arr ).buffer;
}

// Alerts "97"
alert(new Uint8Array( rawStringToBuffer("abc") )[ 0 ]);

Вышеупомянутое позволяет перейти от ArrayBufferString и вернуться к ArrayBuffer снова, где строка может быть сохранена, например. .localStorage:)

Надеюсь, что это поможет,

Dan

Ответ 9

Я обнаружил, что у меня были проблемы с этим подходом, в основном потому, что я пытался записать вывод в файл, и он был неправильно закодирован. Поскольку JS, похоже, использует кодировку UCS-2 (источник, source), нам нужно еще больше растянуть это решение, здесь мое расширенное решение, которое работает для меня.

У меня не было никаких проблем с общим текстом, но когда дело доходило до арабского или корейского, выходной файл не имел всех символов, но вместо этого отображал символы ошибок

Выход файла: ","10k unit":"",Follow:"Õ©íüY‹","Follow %{screen_name}":"%{screen_name}U"’Õ©íü",Tweet:"ĤüÈ","Tweet %{hashtag}":"%{hashtag} ’ĤüÈY‹","Tweet to %{name}":"%{name}U"xĤüÈY‹"},ko:{"%{followers_count} followers":"%{followers_count}…X \Ì","100K+":"100Ì tÁ","10k unit":"Ì è",Follow:"\°","Follow %{screen_name}":"%{screen_name} Ø \°X0",K:"œ",M:"1Ì",Tweet:"¸","Tweet %{hashtag}":"%{hashtag}

Оригинал: ","10k unit":"万",Follow:"フォローする","Follow %{screen_name}":"%{screen_name}さんをフォロー",Tweet:"ツイート","Tweet %{hashtag}":"%{hashtag} をツイートする","Tweet to %{name}":"%{name}さんへツイートする"},ko:{"%{followers_count} followers":"%{followers_count}명의 팔로워","100K+":"100만 이상","10k unit":"만 단위",Follow:"팔로우","Follow %{screen_name}":"%{screen_name} 님 팔로우하기",K:"천",M:"백만",Tweet:"트윗","Tweet %{hashtag}":"%{hashtag}

Я взял информацию из решение dennis и этот пост Я нашел.

Здесь мой код:

function encode_utf8(s) {
  return unescape(encodeURIComponent(s));
}

function decode_utf8(s) {
  return decodeURIComponent(escape(s));
}

 function ab2str(buf) {
   var s = String.fromCharCode.apply(null, new Uint8Array(buf));
   return decode_utf8(decode_utf8(s))
 }

function str2ab(str) {
   var s = encode_utf8(str)
   var buf = new ArrayBuffer(s.length); 
   var bufView = new Uint8Array(buf);
   for (var i=0, strLen=s.length; i<strLen; i++) {
     bufView[i] = s.charCodeAt(i);
   }
   return bufView;
 }

Это позволяет мне сохранять содержимое в файл без проблем с кодировкой.

Как это работает: Он в основном принимает одиночные 8-байтовые фрагменты, составляющие символ UTF-8, и сохраняет их как отдельные символы (поэтому построенный таким образом символ UTF-8 может быть составлен 1-4 из этих символов). UTF-8 кодирует символы в формате, который варьируется от 1 до 4 байтов в длину. Что мы здесь делаем, это кодирование жало в компоненте URI, а затем взять этот компонент и перевести его в соответствующий 8-байтовый символ. Таким образом, мы не теряем информацию, указанную символами UTF8 длиной более 1 байта.

Ответ 10

если вы использовали массивный массив arr.length=1000000 вы можете использовать этот код, чтобы избежать проблем обратного вызова сокета

function ab2str(buf) {
var bufView = new Uint16Array(buf);
var unis =""
for (var i = 0; i < bufView.length; i++) {
    unis=unis+String.fromCharCode(bufView[i]);
}
return unis
}

обратная функция mangini ответ сверху

function str2ab(str) {
    var buf = new ArrayBuffer(str.length*2); // 2 bytes for each char
    var bufView = new Uint16Array(buf);
    for (var i=0, strLen=str.length; i<strLen; i++) {
        bufView[i] = str.charCodeAt(i);
    }
    return buf;
}

Ответ 11

ES2015:

a=Uint8Array.from(s,(x)=>x.charCodeAt(0))

Uint8Array (33) [2, 134, 140, 186, 82, 70, 108, 182, 233, 40, 143, 247, 29, 76, 245, 206, 29, 87, 48, 160, 78, 225, 242, 56, 236, 201, 80, 80, 152, 118, 92, 144, 48

s=String.fromCharCode.apply(null,a)

"ºRFl¶é (÷ LõÎW0 Náò8ìÉPPv\0"

Ответ 12

Ну, здесь несколько запутанный способ сделать то же самое:

var string = "Blah blah blah", output;
var bb = new (window.BlobBuilder||window.WebKitBlobBuilder||window.MozBlobBuilder)();
bb.append(string);
var f = new FileReader();
f.onload = function(e) {
  // do whatever
  output = e.target.result;
}
f.readAsArrayBuffer(bb.getBlob());

Изменить: BlobBuilder давно устарел в пользу конструктора Blob, которого не было, когда я впервые написал это сообщение. Здесь обновленная версия. (И да, это всегда был очень глупый способ сделать конверсию, но это было просто для удовольствия!)

var string = "Blah blah blah", output;
var f = new FileReader();
f.onload = function(e) {
  // do whatever
  output = e.target.result;
};
f.readAsArrayBuffer(new Blob([string]));

Ответ 13

После игры с решением mangini для преобразования от ArrayBuffer до String - ab2str (который является самым изящным и полезным, который я нашел - спасибо!), у меня были некоторые проблемы при работе с большими массивами. Более конкретно, вызов String.fromCharCode.apply(null, new Uint16Array(buf)); вызывает ошибку:

arguments array passed to Function.prototype.apply is too large.

Чтобы решить проблему (обход), я решил обработать вход ArrayBuffer в кусках. Таким образом, модифицированное решение:

function ab2str(buf) {
   var str = "";
   var ab = new Uint16Array(buf);
   var abLen = ab.length;
   var CHUNK_SIZE = Math.pow(2, 16);
   var offset, len, subab;
   for (offset = 0; offset < abLen; offset += CHUNK_SIZE) {
      len = Math.min(CHUNK_SIZE, abLen-offset);
      subab = ab.subarray(offset, offset+len);
      str += String.fromCharCode.apply(null, subab);
   }
   return str;
}

Размер фрагмента установлен на 2^16, потому что это был размер, который я нашел для работы в моем ландшафте разработки. Установка более высокого значения вызвала повторную ошибку. Его можно изменить, установив переменную CHUNK_SIZE в другое значение. Важно иметь четное число.

Примечание о производительности - я не проводил никаких тестов производительности для этого решения. Однако, поскольку он основан на предыдущем решении и может обрабатывать большие массивы, я не вижу причин, почему бы не использовать его.

Любые комментарии приветствуются (-:

Ответ 15

  stringToArrayBuffer(byteString) {
    var byteArray = new Uint8Array(byteString.length);
    for (var i = 0; i < byteString.length; i++) {
      byteArray[i] = byteString.codePointAt(i);
    }
    return byteArray;
  }
  arrayBufferToString(buffer) {
    var byteArray = new Uint8Array(buffer);
    var byteString = '';
    for (var i = 0; i < byteArray.byteLength; i++) {
      byteString += String.fromCodePoint(byteArray[i]);
    }
    return byteString;
  }

Ответ 16

"родная" двоичная строка, возвращаемая atob(), представляет собой массив с 1 байтом на символ.

Поэтому мы не должны хранить 2 байта в символе.

var arrayBufferToString = function(buffer) {
  return String.fromCharCode.apply(null, new Uint8Array(buffer));
}

var stringToArrayBuffer = function(str) {
  return (new Uint8Array([].map.call(str,function(x){return x.charCodeAt(0)}))).buffer;
}

Ответ 17

Да:

const encstr = ('TextEncoder' in window) ? new TextEncoder().encode(str) : Uint8Array.from(str, c => c.codePointAt(0));

Ответ 18

Для node.js, а также для браузеров, использующих https://github.com/feross/buffer

function ab2str(buf: Uint8Array) {
  return Buffer.from(buf).toString('base64');
}
function str2ab(str: string) {
  return new Uint8Array(Buffer.from(str, 'base64'))
}

Примечание. Решения здесь не сработали. Мне нужно поддерживать node.js и браузеры и просто сериализовать UInt8Array в строку. Я мог бы сериализовать его как число [], но это занимает ненужное место. С этим решением мне не нужно беспокоиться о кодировках, поскольку оно base64. На всякий случай, если другие люди борются с той же проблемой... Мои два цента

Ответ 19

Я бы рекомендовал НЕ использовать устаревшие API, такие как BlobBuilder

BlobBuilder уже давно устарел объектом Blob. Сравните код в ответе Dennis — где используется BlobBuilder — с кодом ниже:

function arrayBufferGen(str, cb) {

  var b = new Blob([str]);
  var f = new FileReader();

  f.onload = function(e) {
    cb(e.target.result);
  }

  f.readAsArrayBuffer(b);

}

Обратите внимание, насколько чище и менее раздуто это сравнивается с устаревшим методом... Да, это определенно нужно рассмотреть здесь.

Ответ 21

Я использовал это и работал у меня.

function arrayBufferToBase64( buffer ) {
    var binary = '';
    var bytes = new Uint8Array( buffer );
    var len = bytes.byteLength;
    for (var i = 0; i < len; i++) {
        binary += String.fromCharCode( bytes[ i ] );
    }
    return window.btoa( binary );
}



function base64ToArrayBuffer(base64) {
    var binary_string =  window.atob(base64);
    var len = binary_string.length;
    var bytes = new Uint8Array( len );
    for (var i = 0; i < len; i++)        {
        bytes[i] = binary_string.charCodeAt(i);
    }
    return bytes.buffer;
}