Усекать Markdown?

У меня есть сайт Rails, где содержимое написано в методе уценки. Я хочу показать фрагмент каждого из них с помощью ссылки "Читать дальше..".

Как мне это сделать? Простая усечка исходного текста не будет работать, например..

>> "This is an [example](http://example.com)"[0..25]
=> "This is an [example](http:"

В идеале я хочу разрешить автору (необязательно) вставить маркер, чтобы указать, что использовать в качестве "фрагмента", если это не займет 250 слов и добавит "..." - например..

This article is an example of something or other.

This segment will be used as the snippet on the index page.

^^^^^^^^^^^^^^^

This text will be visible once clicking the "Read more.." link

Маркер можно рассматривать как маркер EOF (который можно игнорировать при отображении полного документа)

Я использую maruku для обработки Markdown (RedCloth очень предвзято относится к Textile, BlueCloth чрезвычайно глючит, и я хотел родной -Ruby parser, который исключает привязку привязки и RDiscount)

В качестве альтернативы (поскольку Markdown переводится на HTML в любом случае), правильная усечка HTML-кода была бы вариантом - хотя было бы предпочтительнее не markdown() весь документ, просто чтобы получить первые несколько строк.

Итак, варианты, о которых я могу думать, (в порядке предпочтения).

Добавьте параметр "усекать" в парсер maruku, который будет анализировать только первые слова x или до отметки "выдержка".
Создать/найти парсер-агностик Markdown truncate'r
Создать/найти интеллектуальную функцию усечения HTML

Ответ 1

Создать/найти интеллектуальную функцию усечения HTML

Следующее из http://mikeburnscoder.wordpress.com/2006/11/11/truncating-html-in-ruby/ с некоторыми изменениями будет правильно усекать HTML и легко разрешить добавление строки перед закрывающими тегами.

>> puts "<p><b><a href=\"hi\">Something</a></p>".truncate_html(5, at_end = "...")
=> <p><b><a href="hi">Someth...</a></b></p>

Измененный код:

require 'rexml/parsers/pullparser'

class String
  def truncate_html(len = 30, at_end = nil)
    p = REXML::Parsers::PullParser.new(self)
    tags = []
    new_len = len
    results = ''
    while p.has_next? && new_len > 0
      p_e = p.pull
      case p_e.event_type
      when :start_element
        tags.push p_e[0]
        results << "<#{tags.last}#{attrs_to_s(p_e[1])}>"
      when :end_element
        results << "</#{tags.pop}>"
      when :text
        results << p_e[0][0..new_len]
        new_len -= p_e[0].length
      else
        results << "<!-- #{p_e.inspect} -->"
      end
    end
    if at_end
      results << "..."
    end
    tags.reverse.each do |tag|
      results << "</#{tag}>"
    end
    results
  end

  private

  def attrs_to_s(attrs)
    if attrs.empty?
      ''
    else
      ' ' + attrs.to_a.map { |attr| %{#{attr[0]}="#{attr[1]}"} }.join(' ')
    end
  end
end

Ответ 2

Вот решение, которое работает для меня с Textile.

Преобразовать его в HTML
Усечь его.
Удалите любые теги HTML, которые были разрезаны пополам с помощью
```
html_string.gsub(/<[^>]*$/, "")
```
Затем использует Hpricot для очистки и закрытия закрытых тегов
```
html_string = Hpricot( html_string ).to_s 
```

Я делаю это в помощнике, а при кешировании нет проблем с производительностью.

Ответ 3

Вы можете использовать регулярное выражение, чтобы найти строку, состоящую только из символов "^":

markdown_string = <<-eos
This article is an example of something or other.

This segment will be used as the snippet on the index page.

^^^^^^^^^^^^^^^

This text will be visible once clicking the "Read more.." link
eos

preview = markdown_string[0...(markdown_string =~ /^\^+$/)]
puts preview

Ответ 4

Вместо того, чтобы пытаться усечь текст, почему бы не иметь 2 поля ввода, один для "раскрывающего рекламного ролика" и один для основных "кишок". Таким образом, ваши авторы будут точно знать, что происходит, когда вам не нужно полагаться на какой-то флекс-маркер EOF.

Ответ 5

Мне нужно будет согласиться с подходом "два входа", и автору контента нужно будет не беспокоиться, так как вы можете изменить фоновую логику, чтобы смешивать два входа в одном при показе полного содержимого.

full_content = input1 + input2 // perhaps with some complementary html, for a better formatting

Ответ 6

Не уверен, что это применимо к этому случаю, но добавив решение ниже для полноты. Вы можете использовать метод strip_tags, если вы усекаете отображаемое содержимое Markdown:

truncate(strip_tags(markdown(article.contents)), length: 50)

Источник: http://devblog.boonecommunitynetwork.com/rails-and-markdown/

Ответ 7

Более простой вариант, который просто работает:

truncate(markdown(item.description), length: 100, escape: false)