Предоставляет ли какой-либо из API/услуг AWS доступ к обзорам продуктов для товаров, продаваемых Amazon? Я заинтересован в поиске отзывов по (ASIN, user_id) кортежу. Я вижу, что API рекламы продукта возвращает URL-адрес страницы (для встраивания в IFRAME), содержащий URL-адреса, но, если возможно, меня интересует машиночитаемый формат данных обзора.
Существует ли API Amazon.com для получения отзывов о товарах?
Ответ 1
Обновление 2:
См. комментарий @jpillora. Это, вероятно, наиболее актуально в отношении обновления 1.
Я только что опробовал API рекламы продукта (по состоянию на 2014-09-17), кажется, что этот API возвращает только URL-адрес, указывающий на iframe, содержащий только обзоры. Я думаю, вам придется экранировать царапины - хотя я думаю, что это сломает Amazon TOS.
Обновление 1:
Может быть. Я написал оригинальный ответ ниже. У меня нет времени изучать это прямо сейчас, потому что я больше не занимаюсь проектами, связанными с обзорами Amazon, но их веб-страница в Product Advertising API заявляет: "Рекламный API продукта помогает рекламировать продукты Amazon, используя поиск и поиск товаров, информацию о продукте и функции, такие как отзывы клиентов..." от 2011-12-08. Поэтому я надеюсь, что кто-то заглянет в него и отправится обратно сюда; не стесняйтесь редактировать этот ответ.
Оригинал:
Неа.
Вот интересная дискуссия форума о факте, включая теории о том, почему: http://forums.digitalpoint.com/showthread.php?t=1932326
Если я ошибаюсь, напишите, что вы найдете. Мне интересно получить содержание отзывов, а также разрешить отправку отзывов на Amazon, если это возможно.
Вы можете проверить эту ссылку: http://reviewazon.com/. Я просто наткнулся на него и не просмотрел его, но я удивлен, что не вижу упоминания на их сайте об обновлении, касающемся падения Обзоров от API рекламы Amazon Products, размещенного по адресу: https://affiliate-program.amazon.com/gp/advertising/api/detail/main.html
Ответ 2
Вот официальное слово по этому вопросу:
Уважаемый разработчик API рекламы,
8 ноября 2010 года группа отзывов отзывов продукта API рекламы больше не будет возвращать контент отзывов клиентов и вместо этого вернет ссылку на контент отзывов клиентов, размещенный на Amazon.com. Вы сможете отображать отзывы клиентов на своем сайте используя эту ссылку. Обратитесь к разработчику API рекламы продукта руководство найдено здесь для более подробной информации. Ответная группа отзывов будет продолжают функционировать по-прежнему до 8 ноября, а новая ссылка на отзывы клиентов доступны для вас сейчас через Продукт Рекламный API также.
Ответ 3
Здесь я быстро беру на себя это - вы легко можете получить рецензии сами с немного большей работой:
countries=['com','co.uk','ca','de']
books=[
'''http://www.amazon.%s/Glass-House-Climate-Millennium-ebook/dp/B005U3U69C''',
'''http://www.amazon.%s/The-Japanese-Observer-ebook/dp/B0078FMYD6''',
'''http://www.amazon.%s/Falling-Through-Water-ebook/dp/B009VJ1622''',
]
import urllib2;
for book in books:
print '-'*40
print book.split('%s/')[1]
for country in countries:
asin=book.split('/')[-1]; title=book.split('/')[3]
url='''http://www.amazon.%s/product-reviews/%s'''%(country,asin)
try: f = urllib2.urlopen(url)
except: page=""
page=f.read().lower(); print '%s=%s'%(country, page.count('member-review'))
print '-'*40
Ответ 4
В соответствии с Лицензионным соглашением о лицензировании продукта для продуктов Amazon (https://affiliate-program.amazon.com/gp/advertising/api/detail/agreement.html), и в частности это пункт 4.b.iii:
Вы будете использовать только рекламный контент продукта... для отправки конечных пользователей и продажи дисков на сайте Amazon.
что означает, что вам запрещено показывать обзоры продуктов Amazon, проведенные через их API для продажи продуктов на вашем сайте. Это разрешало перенаправлять посетителей вашего сайта в Amazon и получать партнерские комиссии.
Ответ 5
Я бы использовал что-то вроде ответа @mfs выше. К сожалению, его ответ будет работать только на 10 обзоров, так как это максимум, который можно отобразить на одной странице.
Вы можете рассмотреть следующий код:
import requests
nreviews_re = {'com': re.compile('\d[\d,]+(?= customer review)'),
'co.uk':re.compile('\d[\d,]+(?= customer review)'),
'de': re.compile('\d[\d\.]+(?= Kundenrezens\w\w)')}
no_reviews_re = {'com': re.compile('no customer reviews'),
'co.uk':re.compile('no customer reviews'),
'de': re.compile('Noch keine Kundenrezensionen')}
def get_number_of_reviews(asin, country='com'):
url = 'http://www.amazon.{country}/product-reviews/{asin}'.format(country=country, asin=asin)
html = requests.get(url).text
try:
return int(re.compile('\D').sub('',nreviews_re[country].search(html).group(0)))
except:
if no_reviews_re[country].search(html):
return 0
else:
return None # to distinguish from 0, and handle more cases if necessary
Запуск этого с 1433524767 (который имеет значительно различное количество отзывов для трех заинтересованных стран) Я получаю:
>> print get_number_of_reviews('1433524767', 'com')
3185
>> print get_number_of_reviews('1433524767', 'co.uk')
378
>> print get_number_of_reviews('1433524767', 'de')
16
Надеюсь, что это поможет
Ответ 6
К сожалению, вы можете получить только URL-адрес iframe с отзывами, сам контент недоступен.
Ответ 7
Вы можете использовать API рекламы продукта Amazon. В нем есть группа отзывов "Ответы", которую вы можете использовать с операцией "ItemLookup". Вам необходимо знать ASIN, то есть уникальный идентификатор элемента продукта.
После того, как вы установите все параметры и выполните подписанный URL, вы получите XML, который содержит ссылку на отзывы клиентов в теге "IFrameURL".
Используйте этот URL-адрес и используйте поиск шаблонов в html, возвращенном с этого URL-адреса, чтобы извлечь отзывы. Для каждого обзора в html будет уникальный идентификатор проверки, и при этом вы можете получить все данные для этого конкретного обзора.
Ответ 8
Как сказано выше, Amazon прекратила предоставлять обзоры в своем api. Howevever, я нашел этот хороший учебник, чтобы сделать то же самое с python. Вот код, который он дает, работает для меня! Он использует python 2.7
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Written as part of https://www.scrapehero.com/how-to-scrape-amazon-product-reviews-using-python/
from lxml import html
import json
import requests
import json,re
from dateutil import parser as dateparser
from time import sleep
def ParseReviews(asin):
#This script has only been tested with Amazon.com
amazon_url = 'http://www.amazon.com/dp/'+asin
# Add some recent user agent to prevent amazon from blocking the request
# Find some chrome user agent strings here https://udger.com/resources/ua-list/browser-detail?browser=Chrome
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36'}
page = requests.get(amazon_url,headers = headers).text
parser = html.fromstring(page)
XPATH_AGGREGATE = '//span[@id="acrCustomerReviewText"]'
XPATH_REVIEW_SECTION = '//div[@id="revMHRL"]/div'
XPATH_AGGREGATE_RATING = '//table[@id="histogramTable"]//tr'
XPATH_PRODUCT_NAME = '//h1//span[@id="productTitle"]//text()'
XPATH_PRODUCT_PRICE = '//span[@id="priceblock_ourprice"]/text()'
raw_product_price = parser.xpath(XPATH_PRODUCT_PRICE)
product_price = ''.join(raw_product_price).replace(',','')
raw_product_name = parser.xpath(XPATH_PRODUCT_NAME)
product_name = ''.join(raw_product_name).strip()
total_ratings = parser.xpath(XPATH_AGGREGATE_RATING)
reviews = parser.xpath(XPATH_REVIEW_SECTION)
ratings_dict = {}
reviews_list = []
#grabing the rating section in product page
for ratings in total_ratings:
extracted_rating = ratings.xpath('./td//a//text()')
if extracted_rating:
rating_key = extracted_rating[0]
raw_raing_value = extracted_rating[1]
rating_value = raw_raing_value
if rating_key:
ratings_dict.update({rating_key:rating_value})
#Parsing individual reviews
for review in reviews:
XPATH_RATING ='./div//div//i//text()'
XPATH_REVIEW_HEADER = './div//div//span[contains(@class,"text-bold")]//text()'
XPATH_REVIEW_POSTED_DATE = './/a[contains(@href,"/profile/")]/parent::span/following-sibling::span/text()'
XPATH_REVIEW_TEXT_1 = './/div//span[@class="MHRHead"]//text()'
XPATH_REVIEW_TEXT_2 = './/div//span[@data-action="columnbalancing-showfullreview"]/@data-columnbalancing-showfullreview'
XPATH_REVIEW_COMMENTS = './/a[contains(@class,"commentStripe")]/text()'
XPATH_AUTHOR = './/a[contains(@href,"/profile/")]/parent::span//text()'
XPATH_REVIEW_TEXT_3 = './/div[contains(@id,"dpReviews")]/div/text()'
raw_review_author = review.xpath(XPATH_AUTHOR)
raw_review_rating = review.xpath(XPATH_RATING)
raw_review_header = review.xpath(XPATH_REVIEW_HEADER)
raw_review_posted_date = review.xpath(XPATH_REVIEW_POSTED_DATE)
raw_review_text1 = review.xpath(XPATH_REVIEW_TEXT_1)
raw_review_text2 = review.xpath(XPATH_REVIEW_TEXT_2)
raw_review_text3 = review.xpath(XPATH_REVIEW_TEXT_3)
author = ' '.join(' '.join(raw_review_author).split()).strip('By')
#cleaning data
review_rating = ''.join(raw_review_rating).replace('out of 5 stars','')
review_header = ' '.join(' '.join(raw_review_header).split())
review_posted_date = dateparser.parse(''.join(raw_review_posted_date)).strftime('%d %b %Y')
review_text = ' '.join(' '.join(raw_review_text1).split())
#grabbing hidden comments if present
if raw_review_text2:
json_loaded_review_data = json.loads(raw_review_text2[0])
json_loaded_review_data_text = json_loaded_review_data['rest']
cleaned_json_loaded_review_data_text = re.sub('<.*?>','',json_loaded_review_data_text)
full_review_text = review_text+cleaned_json_loaded_review_data_text
else:
full_review_text = review_text
if not raw_review_text1:
full_review_text = ' '.join(' '.join(raw_review_text3).split())
raw_review_comments = review.xpath(XPATH_REVIEW_COMMENTS)
review_comments = ''.join(raw_review_comments)
review_comments = re.sub('[A-Za-z]','',review_comments).strip()
review_dict = {
'review_comment_count':review_comments,
'review_text':full_review_text,
'review_posted_date':review_posted_date,
'review_header':review_header,
'review_rating':review_rating,
'review_author':author
}
reviews_list.append(review_dict)
data = {
'ratings':ratings_dict,
'reviews':reviews_list,
'url':amazon_url,
'price':product_price,
'name':product_name
}
return data
def ReadAsin():
#Add your own ASINs here
AsinList = ['B01ETPUQ6E','B017HW9DEW']
extracted_data = []
for asin in AsinList:
print "Downloading and processing page http://www.amazon.com/dp/"+asin
extracted_data.append(ParseReviews(asin))
sleep(5)
f=open('data.json','w')
json.dump(extracted_data,f,indent=4)
if __name__ == '__main__':
ReadAsin()
Вот ссылка на его сайт просматривает соскабливание с помощью python 2.7