Pandas Read_Excel: Cara Membaca File Excel di Python – Codewithaden

Dengan bantuan metode PANDAS Read_Excel (), kami juga bisa mendapatkan detail header. Biasanya dikonversi dari CSV, dikt, json representasi ke DataFrame obyek.

PANDAS Read_Excel

Ke Baca sebuah unggul mengajukan di Python , menggunakan Panda read_excel () metode. Itu read_excel () adalah fungsi pustaka panda yang digunakan untuk membaca data lembar excel ke objek DataFrame. Ini diwakili dalam tampilan tabel dua dimensi.

Banyak pekerjaan di Python berputar di sekitar bekerja pada dataset yang berbeda, yang sebagian besar hadir dalam bentuk CSV , json perwakilan. Jadi untuk menggunakan data dari kumpulan data tersebut di Python, kami memiliki perpustakaan panda, dan di perpustakaan itu, kami memiliki metode yang disebut read_excel () Untuk membaca data dari file Excel.

Sintaksis

pandas.read_excel(io, sheet_name=0, header=0, 
names=None, index_col=None, 
usecols=None, squeeze=False, dtype=None, 
engine=None, converters=None, true_values=None, 
false_values=None, skiprows=None, nrows=None, 
na_values=None, keep_default_na=True, verbose=False, 
parse_dates=False, date_parser=None, thousands=None, 
comment=None, skipfooter=0, convert_float=True, 
mangle_dupe_cols=True, **kwds)
 

Parameter

Read_excel () memiliki parameter berikut:

  1. IO: Ini dapat hadir dalam bentuk STR, byte, excelfile, xlrd.book dll. String apa pun yang valid dapat diterima. Ini bisa menjadi URL dalam bentuk HTTP, HTTPS, S3, dll.
  2. Sheet_name: Nilai default adalah 0. dapat memiliki nilai str, int , daftar , atau tidak ada. String digunakan untuk nama lembar.
  3. Header: Nilai defaultnya adalah 0. ia dapat memiliki nilai tipe data int atau daftar int. Baris yang akan digunakan untuk label kolom dari DataFrame yang diuraikan.
  4. Nama: Secara default, nilainya Tidak ada . Itu menerima struktur seperti array. Ini adalah nama kolom yang akan digunakan.
  5. index_col : Tidak membutuhkan apa pun secara default. Ini dapat memiliki nilai tipe int atau daftar serat. Kolom untuk digunakan sebagai label baris dari DataFrame. Jika tidak ada kolom seperti itu, maka pengguna seharusnya tidak ada.
  6. Usecols: Juga tidak dibutuhkan secara default dan dapat memiliki nilai-nilai seperti int, STR, struktur seperti daftar.
  7. meremas: Dibutuhkan nilai boolean. Secara default, nilainya salah.
  8. DTYPE: Ini adalah nama tipe atau dikt kolom.
  9. mesin: Dibutuhkan nilai STR dan, secara default, membutuhkan Tidak ada . Jika IO bukan buffer atau jalur, ini harus diatur ke identitas IO.
  10. Konverter: Ini adalah sebuah kamus , dan secara default, tidak dibutuhkan. Kamus Fungsi untuk Mengubah Nilai di Kolom tertentu.
  11. True_values: Dibutuhkan daftar; Secara default, itu Tidak ada . Nilai yang harus dipertimbangkan sebagai benar.
  12. false_values: Ini juga membutuhkan daftar; Secara default, itu Tidak ada . Nilai yang harus dipertimbangkan PALSU
  13. Skiprows: Ini adalah baris untuk dilewati di awal (0-indeks).
  14. nrows: Ini mewakili jumlah baris untuk diurai.
  15. NA_VALUES: Ini adalah string tambahan untuk mengenali nilai Na/Nan.
  16. Keep_default_na: Dibutuhkan nilai boolean, dan secara default, diatur ke true. Ini mendefinisikan apakah akan mengambil nilai NAN default saat mem -parsing data atau tidak.
  17. Na_filter: Dibutuhkan nilai boolean, dan secara default, itu BENAR . Ini mendeteksi penanda nilai yang hilang.
  18. Verbose: Ini menunjukkan beberapa nilai Na yang ditempatkan dalam kolom non-numerik.
  19. Parse_dates: Dibutuhkan bool, seperti daftar, atau dikt. Secara default, nilainya diatur ke false.
  20. date_parser: Ini adalah fungsi opsional. Fungsi ini digunakan untuk mengonversi urutan kolom string ke array instance datetime.
  21. ribuan: Dibutuhkan nilai STR. Secara default, itu Tidak ada . Thousand Separator untuk mengupas kolom string ke numerik.
  22. komentar: Ini juga membutuhkan nilai STR. Secara default, itu Tidak ada . Ini mengomentari sisa baris.
  23. Skipfooter: Dibutuhkan nilai integer. Secara default, diatur ke 0. Ini memberitahu baris di akhir untuk melewatkan.
  24. Convert_float: Dibutuhkan nilai boolean, dan nilai defaultnya benar. Ini mengubah pelampung integral menjadi int.
  25. mangle_dupe_cols: Dibutuhkan nilai boolean dan, secara default, mengambil BENAR . Dalam kolom duplikat ini akan ditentukan sebagai x, x.1, x.2… .x.n, daripada x, x, x,… ..x. Lewat PALSU Karena parameter akan menyebabkan data ditimpa jika ada nama duplikat di kolom.
  26. ** KWDS: Itu adalah parameter opsional. Kata kunci opsional adalah argumen dapat diteruskan ke TextFileAder.

Nilai pengembalian

Metode read_excel () Mengembalikan DataFrame atau Kamus DataFrames. DataFrame berisi data lembar Excel.

Contoh program di pandas.read_excel ()

Tulis program untuk menunjukkan karya pandas.read_excel ().

Dalam contoh ini, kami menggunakan file readfile.xlsx. Anda dapat mengunduhnya dari di sini

import pandas as pd

df = pd.read_excel('readfile.xlsx', index_col=0)
print(df) 

Keluaran

Dalam output, Anda mungkin mendapatkan kesalahan berikut, tergantung pada ketergantungan yang diinstal pada mesin Anda.

Importir : Kehilangan ketergantungan opsional ‘XLRD’. Instal XLRD> = 1.0.0 untuk dukungan excel Gunakan PIP atau CONDA untuk menginstal XLRD.

Untuk menyelesaikan ini Importir , Anda harus menginstal xlrd modul. Ketik perintah berikut.

python3 -m pip install xlrd 

Ini akan menginstal modul dan sekarang menjalankan kembali file.

  Name  Roll no  maths  science  english
0  Rohit        1     93       88       93
1   Arun        2     63       66       74
2  Sohit        3     55       66       84
3   Arun        4     94       94       92
4  Shubh       33     83       77       87 

Parameter pertama adalah nama file Excel.

Saat kami mencetak objek DataFrame, output adalah tabel dua dimensi. Ini terlihat mirip dengan catatan lembar Excel.

Jika kolom pertama dalam file Excel atau CSV memiliki nilai indeks, maka Anda dapat melakukan yang berikut untuk menghapus kolom yang tidak disebutkan namanya di panda.

pd.read_excel('readfile.xlsx', index_col=0) 

Jika kita mendefinisikan index_col = 0, maka itu akan mengabaikan kolom pertama yang tidak disebutkan namanya.

Jika kolom yang tidak disebutkan namanya selain pertama, Anda dapat menulis baris berikut untuk menghapusnya dari indeks apa pun.

import pandas as pd

df = pd.read_excel('readfile.xlsx')
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]
print(df)
 

Keluaran

 Name  Roll no  maths  science  english
0  Rohit        1     93       88       93
1   Arun        2     63       66       74
2  Sohit        3     55       66       84
3   Arun        4     94       94       92
4  Shubh       33     83       77       87 

Di sini dalam kode di atas, kita dapat melihat bahwa kita telah menggunakan metode read_excel () untuk mengekstrak data XLSX (file excel), yang sebelumnya dibuat dan disimpan dalam folder yang sama pada file PY dengan data beberapa siswa .

Dapatkan daftar header kolom lembar Excel

Untuk mendapatkan daftar header kolom, gunakan kolom .berlepasan () metode.

import pandas as pd

df = pd.read_excel('readfile.xlsx', index_col=0)
cols = df.columns.ravel()
print(cols)
 

Keluaran

['Name' 'Roll no' 'maths' 'science' 'english'] 

Anda dapat melihat bahwa kami mendapatkan daftar semua kolom DataFrame.

Mencetak data kolom sebagai daftar

Untuk mencetak data kolom sebagai daftar, gunakan metode df.tolist (). Fungsi Tolist () mengonversi nilai kolom tertentu ke daftar.

Mari kita dapatkan daftar nilai kolom nama.

import pandas as pd

df = pd.read_excel('readfile.xlsx', index_col=0)
vals_list = df['Name'].tolist()
print(vals_list)
 

Keluaran

['Rohit', 'Arun', 'Sohit', 'Arun', 'Shubh'] 

Membaca file Excel tanpa baris header

Jika lembar Excel tidak memiliki baris header, berikan nilai parameter header sebagai tidak ada.

Lihat kode berikut.

import pandas as pd

df = pd.read_excel('readfile.xlsx', index_col=0, header=None)
print(df)
 

Jika Anda ingin bertindak sebagai header sebagai baris tertentu, Anda harus memberikan nilai header sebagai bilangan bulat.

Jika Anda telah melewati baris ke -4 sebagai baris header, maka baris keempat akan diperlakukan sebagai baris header, dan nilainya akan dibaca dari baris berikutnya dan seterusnya.

Mengubah Excel Data ke Dict, CSV, dan JSON

Ke mengubah sebuah DataFrame ke Json di Python , menggunakan PANDAS TO_JSON () metode.

Ke mengubah sebuah DataFrame ke CSV di Python , menggunakan Pandaframe to_csv () metode.

Ke mengubah sebuah DataFrame ke Kamus di Python , menggunakan Pandas DataFrame to_dict () metode.

import pandas as pd

df = pd.read_excel('readfile.xlsx', index_col=0)

print('Excel Data to Dict:', df.to_dict(orient='record'))
print('----------------------------------------------------------------------')
print('Excel Data to JSON:', df.to_json(orient='records'))
print('-----------------------------------------------------------------------')
print('Excel Data to CSV:\n', df.to_csv(index=False))
 

Keluaran

Excel Data to Dict: [{'Name': 'Rohit', 'Roll no': 1, 'maths': 93, 'science': 88, 'english': 93}, {'Name': 'Arun', 'Roll no': 2, 'maths': 63, 'science': 66, 'english': 74}, {'Name': 'Sohit', 'Roll no': 3, 'maths': 55, 'science': 66, 'english': 84}, {'Name': 'Arun', 'Roll no': 4, 'maths': 94, 'science': 94, 'english': 92}, {'Name': 'Shubh', 'Roll no': 33, 'maths': 83, 'science': 77, 'english': 87}]
----------------------------------------------------------------------
Excel Data to JSON: [{"Name":"Rohit","Roll no":1,"maths":93,"science":88,"english":93},{"Name":"Arun","Roll no":2,"maths":63,"science":66,"english":74},{"Name":"Sohit","Roll no":3,"maths":55,"science":66,"english":84},{"Name":"Arun","Roll no":4,"maths":94,"science":94,"english":92},{"Name":"Shubh","Roll no":33,"maths":83,"science":77,"english":87}]
-----------------------------------------------------------------------
Excel Data to CSV:
 Name,Roll no,maths,science,english
Rohit,1,93,88,93
Arun,2,63,66,74
Sohit,3,55,66,84
Arun,4,94,94,92
Shubh,33,83,77,87 

Kesimpulan

Untuk mengimpor file Excel ke Python menggunakan PANDAS, gunakan PD.read_excel () metode. Untuk versi Excel sebelumnya, Anda mungkin perlu menggunakan ekstensi file ‘ XLS ’ dari pada ‘ xlsx ‘

Lihat juga

Cara mengimpor file csv di panda

Ekspor Pandas DataFrame ke CSV

Konversi Pandas Json ke CSV

Pandas ExcelWriter ()

Pandas DataFrame ke Numpy Array

Artikel ini berasal dari website Winpoin, dan kemudian diterjemahkan ke bahasa indonesia, baca artikel asli disini

Leave a Reply

Your email address will not be published. Required fields are marked *