Эквивалент getElementsByTagName() для textNodes

Есть ли способ получить коллекцию всех объектов textNode в документе?

getElementsByTagName() отлично работает для Elements, но textNode не являются элементами.

Обновление: Я понимаю, что это можно сделать, пройдя DOM - как многие из них предлагают. Я знаю, как написать функцию DOM-walker, которая смотрит на каждый node в документе. Я надеялся, что есть какой-то браузерный способ сделать это. В конце концов, немного странно, что я могу получить все <input> с помощью одного встроенного вызова, но не всех textNode s.

Ответ 1

Обновление

Я изложил некоторые базовые тесты производительности для каждого из этих 6 методов за 1000 прогонов. getElementsByTagName является самым быстрым, но он выполняет задание на половину, поскольку он не выбирает все элементы, а только один конкретный тип тега (я думаю, p) и слепо предполагает, что его firstChild является текстовым элементом. Это может быть немного недостатком, но его там для демонстрационной цели и сравнения его производительности с TreeWalker. Запустите тесты на jsfiddle, чтобы увидеть результаты.

  • Использование TreeWalker
  • Пользовательский итеративный обход
  • Пользовательский рекурсивный обход
  • Запрос Xpath
  • querySelectorAll
  • getElementsByTagName

Предположим на мгновение, что существует метод, который позволяет получить все узлы Text изначально. Вам все равно придется пересекать каждый полученный текст node и вызывать node.nodeValue, чтобы получить фактический текст так же, как и с любым DOM Node. Таким образом, проблема производительности связана не с итерацией через текстовые узлы, а с повторением через все узлы, которые не являются текстом и проверяют их тип. Я бы поспорил (на основе результатов), что TreeWalker выполняет так же быстро, как getElementsByTagName, если не быстрее (даже с getElementsByTagName, играющим с ограниченными возможностями).

Ran each test 1000 times.

Method                  Total ms        Average ms
--------------------------------------------------
document.TreeWalker          301            0.301
Iterative Traverser          769            0.769
Recursive Traverser         7352            7.352
XPath query                 1849            1.849
querySelectorAll            1725            1.725
getElementsByTagName         212            0.212

Источник для каждого метода:

TreeWalker

function nativeTreeWalker() {
    var walker = document.createTreeWalker(
        document.body, 
        NodeFilter.SHOW_TEXT, 
        null, 
        false
    );

    var node;
    var textNodes = [];

    while(node = walker.nextNode()) {
        textNodes.push(node.nodeValue);
    }
}

Рекурсивный обход дерева

function customRecursiveTreeWalker() {
    var result = [];

    (function findTextNodes(current) {
        for(var i = 0; i < current.childNodes.length; i++) {
            var child = current.childNodes[i];
            if(child.nodeType == 3) {
                result.push(child.nodeValue);
            }
            else {
                findTextNodes(child);
            }
        }
    })(document.body);
}

Итеративный траверс дерева

function customIterativeTreeWalker() {
    var result = [];
    var root = document.body;

    var node = root.childNodes[0];
    while(node != null) {
        if(node.nodeType == 3) { /* Fixed a bug here. Thanks @theazureshadow */
            result.push(node.nodeValue);
        }

        if(node.hasChildNodes()) {
            node = node.firstChild;
        }
        else {
            while(node.nextSibling == null && node != root) {
                node = node.parentNode;
            }
            node = node.nextSibling;
        }
    }
}

querySelectorAll

function nativeSelector() {
    var elements = document.querySelectorAll("body, body *"); /* Fixed a bug here. Thanks @theazureshadow */
    var results = [];
    var child;
    for(var i = 0; i < elements.length; i++) {
        child = elements[i].childNodes[0];
        if(elements[i].hasChildNodes() && child.nodeType == 3) {
            results.push(child.nodeValue);
        }
    }
}

getElementsByTagName (гандикап)

function getElementsByTagName() {
    var elements = document.getElementsByTagName("p");
    var results = [];
    for(var i = 0; i < elements.length; i++) {
        results.push(elements[i].childNodes[0].nodeValue);
    }
}

XPath

function xpathSelector() {
    var xpathResult = document.evaluate(
        "//*/text()", 
        document, 
        null, 
        XPathResult.ORDERED_NODE_ITERATOR_TYPE, 
        null
    );

    var results = [], res;
    while(res = xpathResult.iterateNext()) {
        results.push(res.nodeValue);  /* Fixed a bug here. Thanks @theazureshadow */
    }
}

Кроме того, вы можете найти это обсуждение полезным - http://bytes.com/topic/javascript/answers/153239-how-do-i-get-elements-text-node

Ответ 2

Я знаю, что вы специально попросили коллекцию, но если вы просто подразумевали это неформально и не волновало, все ли они объединены в одну большую строку, вы можете использовать:

var allTextAsString = document.documentElement.textContent || document.documentElement.innerText;

... с первым элементом, являющимся стандартным подходом DOM3. Обратите внимание, однако, что innerText, как представляется, исключает script или содержимое тега стиля в поддерживающих его реализациях (по крайней мере IE и Chrome), в то время как textContent включает их (в Firefox и Chrome).

Ответ 3

 document.deepText= function(hoo, fun){
        var A= [], tem;
        if(hoo){
            hoo= hoo.firstChild;
            while(hoo!= null){
                if(hoo.nodeType== 3){
                    if(typeof fun== 'function'){
                        tem= fun(hoo);
                        if(tem!= undefined) A[A.length]= tem;
                    }
                    else A[A.length]= hoo;
                }
                else A= A.concat(document.deepText(hoo, fun));
                hoo= hoo.nextSibling;
            }
        }
        return A;
    }

/* Вы можете вернуть массив всех дочерних текстовых узлов некоторого родительского элемента, или вы можете передать ему какую-то функцию и что-то сделать (найти или заменить или что-то еще) к тексту на месте.

В этом примере возвращается текст небелых текстовых полей в теле:

var A= document.deepText(document.body, function(t){
    var tem= t.data;
    return /\S/.test(tem)? tem: undefined;
});
alert(A.join('\n'))

*/

Удобен для поиска и замены, выделения и т.д.

Ответ 4

var el1 = document.childNodes[0]
function get(node,ob)
{
        ob = ob || {};

        if(node.childElementCount)
        {

            ob[node.nodeName] = {}
            ob[node.nodeName]["text"] = [];
            for(var x = 0; x < node.childNodes.length;x++)
            {   
                if(node.childNodes[x].nodeType == 3)
                {
                    var txt = node.childNodes[x].nodeValue;


                    ob[node.nodeName]["text"].push(txt)
                    continue
                }
                get(node.childNodes[x],ob[node.nodeName])       
            };  
        }
        else
        {
            ob[node.nodeName]   = (node.childNodes[0] == undefined ? null :node.childNodes[0].nodeValue )
        }
        return ob
}



var o = get(el1)
console.log(o)

Ответ 5

Вот современная версия Iterator самого быстрого метода TreeWalker:

function getTextNodesIterator(el) {
    const walker = document.createTreeWalker(el, NodeFilter.SHOW_TEXT);
    const next = () => {
        const value = walker.nextNode();
        return {
            value,
            done: !value
        };
    };
    walker[Symbol.iterator] = () => ({next});
    return walker;
}

Использование:

const textNodes = [...getTextNodesIterator(document.body)];

Или более интересно, с циклом for-of:

for (const textNode of getTextNodesIterator(document.body)) {
    console.log(textNode)
}