Kamus Sumber
Cara yang paling cepat untuk menyusun kamus dwibahasa Arab-Melayu ialah dengan menterjemah bahagian bahasa Inggeris sebuah kamus Arab-Inggeris ke dalam bahasa Melayu. Kajian kami mendapati beberapa kamus dwibahasa telah disusun dengan menterjemah kamus Arab-Inggeris al-Mawrid atau Kamus Arab-Inggeris oleh Hans Wehr. Jika sebuah kamus disusun hanya berdasarkan kamus terdahulu, kesilapan yang berlaku dalam kamus lain mungkin akan berulang jika tiada analisis baru dibuat.
Walaupun Kamus Hans Wehr dianggap kamus bahasa Arab moden yang paling lengkap, namun ia sebenarnya telah diterjemahkan ke dalam bahasa Inggeris dari kamus asal dalam bahasa Jerman. Dalam kebanyakan kamus, proses peminjaman atau pengadaptasian yang dilakukan jarang sekali diterangkan dalam kata pengantar.
Untuk memilih kamus yang akan dijadikan asas dalam kajian ini, keutamaan diberi kepada kamus yang disusun berasaskan korpus berkomputer. Kejayaan projek penyusunan kamus di Leuven, Nijmegen dan Prague telah mendorong kami untuk menjadikannya sebagai asas atau panduan dalam penyusunan kamus Arab-Melayu yang baharu.
Ketiga-tiga kamus ini boleh dikatakan paling terkini kerana disusun berasaskan analisis korpus bahasa Arab kontemporari. Kamus Hans Wehr sudah tidak sesuai lagi dijadikan sumber rujukan bahasa Arab moden kerana korpus yang digunakan terbatas kepada akhbar dan novel yang diterbitkan selepas perang dunia kedua.
Selain daripada kamus-kamus tersebut, kami juga akan meneliti maklumat yang ada dalam kamus-kamus yang lain serta membuat perbandingan dengan maklumat yang terdapat dalam data korpus. Perkara yang paling penting ialah hanya maklumat yang terserlah dalam data korpus akan diberi pertimbangan untuk dikira sebagai sumber pembahanan kamus.
Pengumpulan Data Korpus
Menyedari tentang peri pentingnya data korpus untuk penyelidikan bahasa Arab, kami telah mula mengumpul teks dari pelbagai sumber yang diterbitkan sejak tahun 2000 hingga kini. Sebelum tahun 1990an, masalah utama yang dihadapi dalam pengumpulan data korpus ialah ketiadaan teks dalam bentuk digital. Kini ribuan buku telah diterbitkan dalam bentuk CD-ROM atau boleh diakses dalam talian.
Kami memutuskan untuk mengumpul teks yang diterbitkan dalam talian disebabkan oleh beberapa perkara. Perkara yang paling utama ialah atas dasar kepraktisan. Teks dalam talian boleh diperolehi dengan percuma dan dikumpulkan dengan banyak dalam waktu yang sesingkat mungkin. Banyak syarikat penerbitan akhbar dan majalah Arab telah mula membuat penerbitan dalam talian sejak 10 tahun lepas. Dengan menggunakan perisian tertentu, teks dalam talian disedut secara automatik tanpa perlu dimuatturun halaman demi halaman dan kemudiannya disimpan dalam format teks (text only).
Kriteria Korpus
Beberapa persoalan timbul sebelum kami menentukan sumber yang akan dijadikan data korpus. Teks dari tahun berapakah yang akan dikumpul? Kami memutuskan untuk mengumpulkan teks yang diterbitkan selepas tahun 2000 sebagai titik permulaan kerana teks dari tempoh tersebut dapat mengambarkan kosa kata bahasa Arab terkini pada abad ke 21. Pertimbangan ini juga ada hubungannya dengan matlamat kami untuk membataskan kosa kata kamus yang akan dihasilkan kepada penggunaan bahasa Arab kontemporari sahaja. Data korpus ini bersumberkan bentuk tulisan dan lisan. Bahan tulisan merangkumi akhbar, majalah, buku ilmiah, novel, cerpen dan drama.
Untuk mengkaji penggunaan kata dalam semua konteks kewujudannya, kami turut mengumpulkan korpus dalam modus lisan sebanyak satu juta. Setakat ini, bahan lisan yang dikumpul hanyalah teks wawancara TV yang dimuatturun dari laman web Aljazeerah. Usaha yang dibuat hanya tertumpu kepada bahan tulisan sahaja, memandangkan kerumitan untuk mendapatkan bahan lisan.
Usaha ini merupakan langkah awal dalam pengumpulan data korpus yang seimbang dan representatif. Data korpus bahasa Arab kontemporari yang telah terkumpul akan menjadikan usaha untuk meneliti pengunaan terkini bahasa Arab menjadi kenyataan.
Saiz Korpus
Saiz mutakhir korpus ini [sehingga November 2008] adalah lebih kurang 30 juta perkataan. Teks yang telah dikumpulkan terdiri daripada sumber seperti berikut:
| Sumber | Jumlah kata |
| Akhbar | 18 500 000 |
| Majalah | 3 000 000 |
| Majalah kanak-kanak | 340 000 |
| Buku ilmiah | 2 000 000 |
| Novel | 2 500 000 |
| Cerpen | 2 000 000 |
| Sastera kanak-kanak (pelbagai jenis) |
270 000 |
| Drama | 540 000 |
Data akhbar terbina daripada 31000 sampel teks berita dan menjuzuki dua pertiga daripada saiz keseluruhan korpus. Data akhbar yang terlalu besar, menyebabkannya telah dipecahkan mengikut tahun. Data yang kecil boleh diproses dengan perisian konkordans dengan lebih cepat.
Semua data ini dikumpulkan secara tersusun dalam fail yang berasingan mengikut kriteria tahun terbitan, jenis terbitan (akhbar, majalah, buku), genre (novel, cerpen, drama) dan bidang (agama, sastera, sains). Dengan ini teks boleh dipilih berdasarkan kriteria tertentu dan dianalisa untuk tujuan tertentu. Saiz korpus ini sudah relatif besar memandangkan penyusunan kamus di Leuven dan Nijmegen hanya berdasarkan korpus 3 juta.
Beberapa kelemahan
Walaubagaimanapun, kami menganggap korpus ini hanyalah korpus contoh, kerana ianya masih mempunyai banyak kelemahan. Data korpus yang terkumpul masih terhad kepada data mentah yang masih belum dikod atau ditanda untuk membolehkan analisis bahasa yang pelbagai. Korpus ini juga belum boleh dikatakan sempurna kerana bahan yang dikumpulkan tidak seimbang. Bahan bukan bercetak dan bahan bersumberkan lisan tidak diberi perhatian dalam pembinaan korpus ini. Selain itu, bahan ini juga tidak boleh diterima bulat-bulat kerana terdapat banyak ayat yang tidak menepati hukum tatabahasa dan perkataan yang salah ejaannya. Namun demikian, kami yakin proses pembinaannya akan menjadi semakin baik dengan bertambahnya kepakaran sedikit demi sedikit.
halaman sebelum | halaman seterusnya
Discussion
No comments yet.