//
Apakah itu korpus berkomputer?

Apakah itu korpus berkomputer?

Korpus [ مدونة لغوية / مكتنزات نصية ] merupakan koleksi teks dalam bentuk digital yang dikumpulkan berdasarkan kriteria tertentu untuk dianalisa dengan menggunakan perisian komputer bagi tujuan penyelidikan linguistik. Linguistik korpus merupakan satu pendekatan baharu yang boleh dimanfaatkan untuk menyelesaikan pelbagai masalah linguistik.

Penyelidikan bahasa berasaskan korpus bukanlah perkara baharu di kalangan ahli-ahli bahasa. Sejarah penyelidikan korpus berkomputer telah bermula dengan pembinaan korpus Bahasa Inggeris pertama oleh sekumpulan penyelidik di Universiti Brown, Amerika Syarikat pada tahun 1961.

Projek COBUILD (Collins Birmingham University International Language Database) yang bermula pada awal tahun 1980an telah mempelopori penyusunan kamus yang berasaskan data korpus. Kebanyakan syarikat penerbitan kamus yang terkenal seperti Oxford, Cambridge, Longman dan Collins juga telah pun membina korpus sendiri untuk dimanfaatkan dalam penyusunan kamus mereka.

Sehingga kini, data korpus Bahasa Inggeris telah mencapai ratusan juta perkataan. Korpus bahasa Inggeris terbesar iaitu British National Corpus telah memiliki lebih 100 juta perkataan dan dapat dicapai di dalam talian. Penggunaan korpus bukan sahaja tertumpu kepada bidang leksikografi, malahan turut diperkembangkan dalam kajian tatabahasa, penterjemahan serta aktiviti pengajaran dan pembelajaran bahasa.

Faedah korpus dalam perkamusan

Penyusunan kamus berasaskan korpus merupakan asas utama teori leksikografi. Korpus berkomputer membolehkan penyelidik memperoleh data dan maklumat dengan cepat, tepat dan bersistematik mengikut kriteria dan format yang dikehendaki. Hasil daripada kajian berasaskan korpus mencerminkan pengunaan sebenar bahasa dan dapat dijadikan asas dalam penyusunan kamus.

Dalam tradisi perkamusan, pemerian makna dibuat mengikut intuisi (rasa/andaian) penyusun semata-mata yang menyebabkan banyak aspek makna dan penggunaan baru tidak terakam dalam kamus. Contoh-contoh ayat yang direka untuk dimasukkan ke dalam kamus mungkin tidak mengambarkan penggunaan yang sebenar dengan tepat. Contoh  paling tepat ialah contoh yang diambil dari data korpus, kerana data yang dikumpul adalah asli dan berdasarkan kepada penggunaan sebenar.

Pendekatan linguistik korpus telah membolehkan penelitian makna sesuatu perkataan dibuat berdasarkan penelitian terhadap situasi dan konteks penggunaannya. Pemerhatian pada baris-baris konkordans digunakan untuk mengenalpasti kepelbagaian makna perkataan berdasarkan perubahan makna apabila berubahnya kombinasi kata. Sesetengah penyusun kamus menggunakan kaedah analisis frekuensi bagi menyusun makna mengikut kekerapan.

[Sumber: Ibrahim Ahmad 1990,1992 / Mohd. Zulkifli Bahari 1993 / Noresah Baharom 1993, 1994 / Rusli Abdul Ghani 2002, 2003, 2004]

Advertisements

Comments are closed.

%d bloggers like this: