Как использовать DBPedia для извлечения тегов/ключевых слов из контента?

Я изучаю, как я могу использовать информацию о таксономии Википедии, чтобы извлечь теги/ключевые слова из моего контента.

Я нашел статьи о DBPedia. DBpedia - это сообщество усилий для извлечения структурированной информации из Википедии и для предоставления этой информации в Интернете.

Кто-нибудь использовал свои веб-сервисы? Вы знаете, как они работают и насколько они надежны?

Ответ 1

DBpedia - это фантастический, высококачественный ресурс. Однако, чтобы превратить ваш контент в набор соответствующих концепций DBpedia, вам нужно будет точно идентифицировать их в тексте, который включает в себя как минимум два шага:

  • Определите концепции DBpedia в вашем контенте: это включает в себя распознавание имен концепций (и альтернативных имен) в тексте, а также устранение неоднозначности среди всех возможных значений каждой фразы. Термин "Солнце" может относиться к десяткам возможных концепций в соответствии со своей страницей включая звезду, газеты, имена людей и т.д. Это включает идентификация объекта, классификация и привязка.

  • Определите, какая из этих концепций интересна: например, вы хотите, чтобы концепция "Определенная статья" отображалась, когда текст включает в себя термин "the" (который The перенаправляется)?

Возможно, вам захочется рассмотреть существующую библиотеку или службу текстовой аналитики, которая поддерживает привязку объекта к DBpedia. Одним из замечательных инструментов для индексации темы является Maui, который был разработан Alyona Medelyan во время своего PhD. Еще одно большое решение с открытым исходным кодом - Wikipedia Miner от Дэвида Милна в том же университете.

Две коммерческие службы, которые обеспечивают привязку к концепциям DBpedia, Zemanta и Extractiv (разрешить некоторый уровень бесплатного использования). опция DBpedia spotlight. Другие, которые могут предоставить эти возможности, перечислены по адресу: https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

Раскрытие: я [использовал] работу в Extractiv (несуществующий), который работает от Language Computer Corporation НЛП.

Ответ 2

Вы можете использовать Apache Stanbol для этого процесса. Entityhub компонент Apache Stanbol обеспечивает создание пользовательских индексов DBPedia на основе ваших потребностей. Затем вы можете использовать компонент Enhancer для извлечения объектов из мест. Места, лица, места размещения.

Следующий почтовый поток может быть вам полезен. http://markmail.org/message/52266yl5ohijxiof

Вы можете получить доступ к демонстрационным версиям Apache Stanbol по следующей ссылке:
http://dev.iks-project.eu/

Вы также можете задать свои дальнейшие вопросы stanbol-dev AT incubator.apache.org.