У меня много разных таблиц (и других неструктурированных данных на листе excel). Мне нужно создать DataFrame вне диапазона "A3: D20" из "Sheet2" данных Excel.
Все примеры, с которыми я сталкиваюсь, сводятся до уровня листа, но не как выбрать его из определенного диапазона.
import openpyxl
import pandas as pd
wb = openpyxl.load_workbook('data.xlsx')
sheet = wb.get_sheet_by_name('Sheet2')
range = ['A3':'D20'] #<-- how to specify this?
spots = pd.DataFrame(sheet.range) #what should be the exact syntax for this?
print (spots)
Как только я получу это, я планирую искать данные в столбце A и найти соответствующее значение в столбце B.
Изменить 1: я понял, что openpyxl занимает слишком много времени и поэтому изменил это на pandas.read_excel('data.xlsx','Sheet2')
вместо этого, и он намного быстрее на этом этапе.
Редактирование 2: пока я поставил свои данные только на одном листе и:
- удалил всю другую информацию
- добавленные имена столбцов,
- Применил
index_col
в моем левом столбце - затем используется
wb.loc[]