Pendidikan:, Perguruan Tinggi dan Universitas

Apa itu linguistik korpus?

Beberapa dekade yang lalu, para ilmuwan hanya bisa bermimpi untuk mengotomatisasi penelitian linguistik. Pekerjaan dilakukan secara manual, sejumlah besar siswa dilibatkan di dalamnya, ada kemungkinan kesalahan yang signifikan "karena kurangnya perhatian", dan yang terpenting - semuanya memakan banyak waktu.

Dengan berkembangnya teknologi komputer, menjadi mungkin untuk melakukan kajian urutan besarnya lebih cepat, dan saat ini salah satu bidang yang paling menjanjikan dalam studi bahasa adalah linguistik corpus. Fitur utamanya adalah penggunaan sejumlah besar informasi tekstual, digabungkan dalam satu database, ditandai dan diberi nama secara khusus.

Sampai saat ini, ada banyak bangunan yang dibuat untuk tujuan yang berbeda, berdasarkan materi linguistik yang berbeda, yang mencakup jutaan hingga puluhan miliar unit leksikal. Arah ini diakui sebagai menjanjikan dan menunjukkan kemajuan yang signifikan dalam mencapai tujuan terapan dan penelitian. Spesialis yang menangani bahasa alami, disarankan agar Anda membiasakan diri dengan corpus teks, setidaknya pada tingkat dasar.

Sejarah linguistik korpus

Pembentukan arah ini dikaitkan dengan penciptaan di AS dari Brown Corps di awal 1960-an. Kumpulan teks hanya berisi 1 juta kata bentuk, dan hari ini korps volume seperti itu sama sekali tidak kompetitif. Untuk sebagian besar, hal ini disebabkan oleh laju perkembangan teknologi komputer, serta meningkatnya tuntutan akan sumber penelitian baru.

Pada tahun 1990an, corpus linguistik dibentuk menjadi sebuah disiplin penuh dan independen, koleksi teks disusun dan ditandai untuk beberapa bahasa belaka. Selama periode ini, misalnya, British National Corps diciptakan untuk 100 juta penggunaan.

Sejalan dengan perkembangan linguistik ini, volume teks menjadi semakin banyak (dan mencapai miliaran unit kosakata), dan markupnya menjadi semakin beragam. Saat ini, di ruang internet, Anda dapat menemukan kasus-kasus ujaran tertulis dan lisan, multibahasa dan pengajaran, berorientasi pada sastra artistik atau akademis, serta banyak varietas lainnya.

Apa jenazahnya?

Jenis kasus dalam linguistik kabinet dapat dipresentasikan karena beberapa alasan. Secara intuitif jelas bahwa dasar klasifikasi dapat menjadi bahasa teks (bahasa Rusia, Jerman), modus akses (open source, closed, commercial), genre materi sumber (fiksi, dokumenter, akademis, jurnalisme).

Cara yang menarik adalah generasi materi yang mewakili ucapan lisan. Karena perekaman yang disengaja dari pidato semacam itu akan menciptakan kondisi buatan bagi responden, dan materi yang dihasilkan tidak dapat disebut "spontan", linguistik corpus modern mengambil jalan yang berbeda. Relawan dilengkapi dengan mikrofon, dan siang hari, semua percakapan di mana dia berpartisipasi dicatat. Orang-orang di sekitar, tentu saja, tidak dapat mengetahui bahwa selama percakapan rumah tangga mereka berkontribusi pada pengembangan sains.

Nantinya, rekaman audio yang diterima disimpan dalam database dan disertai teks cetak sesuai dengan jenis transkrip. Dengan demikian, markup yang diperlukan untuk menciptakan tubuh ucapan oral sehari menjadi mungkin.

Aplikasi

Bila penggunaan bahasa itu memungkinkan, mungkin juga menggunakan kotak teks. Tujuan penerapan metode lambung dalam linguistik dapat berupa:

Pembuatan program penentuan nada, aktif digunakan dalam politik dan bisnis untuk melacak umpan balik positif dan negatif dari para pemilih dan pelanggan.
Menghubungkan sistem informasi ke kamus dan penerjemah untuk meningkatkan kinerjanya.
Berbagai tugas penelitian yang berkontribusi dalam memahami struktur bahasa, sejarah perkembangannya dan prediksi perubahannya dalam waktu dekat.
Pengembangan sistem pencarian informasi berbasis morfologi, sintaksis, semantik dan karakteristik lainnya.
Optimalisasi kerja berbagai sistem linguistik, dll.

Penggunaan rumah

Antarmuka sumber daya mirip dengan mesin pencari biasa dan meminta pengguna untuk memasukkan beberapa kata atau kombinasi kata untuk dicari melalui basis informasi. Selain bentuk kueri yang tepat, Anda dapat menggunakan versi perluasan, yang memungkinkan Anda menemukan informasi teks untuk hampir semua kriteria linguistik.

Dasar pencarian bisa jadi:

Milik kelompok tertentu dari pidato;
Tanda gramatikal;
Semantik;
Pewarnaan bergaya dan emosional.

Selain itu, Anda dapat menggabungkan kriteria pencarian untuk urutan kata-kata: misalnya, untuk menemukan semua kemunculan kata kerja dalam bentuk sekarang, orang pertama, yang tunggal, diikuti oleh kata depan "c" dan kata benda dalam kasus akusatif. Solusi dari tugas sederhana semacam itu membutuhkan waktu beberapa detik bagi pengguna dan hanya memerlukan beberapa klik di bidang yang ditentukan.

Proses pembuatan

Pencarian itu sendiri dapat dilakukan baik pada semua subkorps, dan pada satu, dipilih secara khusus, tergantung pada kebutuhan saat mencapai tujuan tertentu:

Pertama, ditentukan teks mana yang akan menjadi dasar kasus ini. Untuk keperluan praktis, sering digunakan jurnalistik, bahan koran, komentar online. Dalam proyek penelitian, berbagai jenis selungkup digunakan, namun teks harus dipilih sesuai dengan beberapa kesamaan.
Kumpulan teks yang dihasilkan mengalami proses preprocessing, kesalahan dikoreksi, jika tersedia, deskripsi bibliografi dan ekstra-linguistik dari teks dipersiapkan.
Semua informasi non-teks dihapus: grafik, gambar, tabel dihapus.
Ada pilihan token, biasanya mewakili kata-kata, untuk pemrosesan lebih lanjut.
Akhirnya, tanda morfologis, sintaksis dan lainnya dari rangkaian elemen yang dihasilkan diwujudkan.

Hasil dari semua operasi yang dilakukan adalah struktur sintaksis dengan seperangkat elemen yang didistribusikan di atasnya, untuk masing-masing bagian dari ujaran didefinisikan, secara gramatikal dan, dalam beberapa kasus, fitur semantik.

Kesulitan dalam membangun korps

Penting untuk dipahami bahwa tidak cukup mengumpulkan banyak kata atau kalimat untuk mendapatkan kasus ini. Di satu sisi, kumpulan teks harus seimbang, yaitu untuk mewakili berbagai jenis teks dalam proporsi tertentu. Di sisi lain, isi kasus harus ditandai secara khusus.

Pertanyaan pertama dipecahkan dengan kesepakatan: misalnya, 60% teks seni, 20% dokumenter termasuk dalam koleksi, proporsi tertentu diberikan pada representasi tertulis pidato lisan, tindakan legislatif, karya ilmiah, dan lain-lain. Resep ideal untuk tubuh seimbang tidak ada saat ini.

Pertanyaan kedua, mengenai markup konten, lebih sulit dipecahkan. Ada program khusus dan algoritma yang digunakan untuk markup otomatis, namun tidak memberikan hasil 100%, hal itu dapat menyebabkan kegagalan dan memerlukan revisi manual. Kemungkinan dan masalah dalam memecahkan masalah ini dijelaskan secara rinci dalam karya Zakharov tentang linguistik korpus.

Markup teks dilakukan pada beberapa tingkatan, yang akan kita bahas di bawah ini.

Tanda morfologis

Dari bangku sekolah, kita ingat bahwa di Rusia ada beberapa bagian pidato yang berbeda, dan masing-masing memiliki ciri khas tersendiri. Misalnya, kata kerja memiliki kategori mood dan waktu yang tidak dimiliki kata benda. Penutur asli tidak ragu untuk menolak kata benda dan mengkonjugasikan verba, tapi kerja manual tidak sesuai untuk menandai kasus ini dalam 100 juta kata. Semua operasi yang diperlukan dapat dilakukan oleh komputer, namun, untuk hal ini perlu diajarkan.

Penandaan morfologi diperlukan agar komputer "memahami" setiap kata sebagai bagian tertentu dari pidato yang memiliki ciri-ciri tata bahasa tertentu. Karena ada sejumlah peraturan reguler dalam bahasa Rusia (seperti dalam bahasa lain), adalah mungkin untuk membuat prosedur otomatis untuk analisis morfologi dengan menginvestasikan sejumlah algoritma di mesin. Namun, ada pengecualian terhadap peraturan, serta berbagai faktor yang menyulitkan. Akibatnya, analisis komputer murni saat ini jauh dari ideal, dan bahkan 4% kesalahan memberi 4 juta kata per kasus untuk 100 juta unit, memerlukan revisi manual.

Secara rinci, masalah ini dijelaskan oleh Zakharov VP "Corpus linguistics".

Markup sintaksis

Parsing atau parsing adalah prosedur yang menentukan hubungan kata dalam sebuah kalimat. Dengan bantuan satu set algoritma, menjadi mungkin untuk mendefinisikan teks, subjek, predikat, penambahan, berbagai putaran pidato. Menemukan kata-kata dalam urutan yang utama dan mana yang bergantung, kita dapat secara efektif mengekstrak informasi dari teks dan melatih mesin untuk hanya mengeluarkan informasi yang menarik perhatian kita sebagai respons atas permintaan pencarian.

Omong-omong, mesin pencari modern menggunakan ini untuk menghasilkan gambar tertentu dan bukan teks panjang untuk menanggapi pertanyaan yang sesuai seperti "berapa banyak kalori dalam apel" atau "jarak dari Moskow ke Petersburg". Namun, untuk memahami bahkan dasar-dasar proses yang dijelaskan, Anda perlu membiasakan diri dengan "Introduction to Corpus linguistics" atau bantuan pengajaran dasar lainnya.

Semantik Markup

Semantik sebuah kata adalah, dalam arti sederhana, maknanya. Pendekatan yang diterapkan secara luas dalam analisis semantik adalah menghubungkan kata-kata dengan kata, yang mencerminkan keterikatannya pada sekumpulan kategori semantik dan subkategori. Informasi semacam itu sangat berharga untuk optimalisasi algoritma untuk menganalisis tonality teks, abstrak otomatis dan tugas lainnya dengan menggunakan metode linguistik corpus.

Ada sejumlah "akar" pohon, mewakili kata-kata abstrak, memiliki semantik yang sangat luas. Sebagai cabang pohon ini, simpul terbentuk yang mengandung unsur leksikal yang semakin spesifik. Misalnya, kata "being" dapat dikaitkan dengan konsep seperti "man" dan "animal". Kata pertama akan bercabang lagi ke berbagai profesi, istilah kekerabatan, kebangsaan, dan kelas kedua - hingga kelas dan spesies hewan.

Penerapan sistem pencarian informasi

Bidang penggunaan linguistik corpus mencakup berbagai bidang aktivitas. Kasus digunakan untuk menyusun dan memperbaiki kamus, membuat sistem terjemahan otomatis, abstrak, penggalian fakta, penentuan kunci dan pengolah kata lainnya.

Selain itu, sumber daya semacam itu secara aktif digunakan dalam mempelajari bahasa di dunia dan mekanisme berfungsinya bahasa secara keseluruhan. Akses ke sejumlah besar informasi yang telah dipersiapkan sebelumnya memfasilitasi studi kecenderungan dan operasional tentang perkembangan bahasa, pembentukan neologisme dan perputaran bicara yang stabil, perubahan nilai satuan leksikal,

Karena bekerja dengan data dalam jumlah besar memerlukan otomasi, saat ini ada interaksi yang erat antara linguistik komputer dan korpus.

Bangunan nasional bahasa Rusia

Bangunan ini (disingkat NKRI) mencakup sejumlah subkorps yang memungkinkan penggunaan sumber daya untuk menyelesaikan berbagai macam tugas.

Bahan di dasar NKRN terbagi:

Pada publikasi di media antara tahun 90an dan 2000an baik domestik maupun asing;
Rekaman pidato lisan;
Akhirnya ditandai teks (yaitu dengan tanda pada stres);
Pidato dialek;
Karya puitis;
Bahan dengan tanda sintaktis, dll.

Sistem informasi juga mencakup subkorot dengan terjemahan kerja paralel dari bahasa Rusia ke bahasa Inggris, Jerman, Prancis dan banyak bahasa lainnya (dan sebaliknya).

Juga di database ada bagian teks sejarah yang mewakili pidato tertulis di Rusia selama berbagai periode perkembangannya. Ada juga bangunan pendidikan, yang bisa bermanfaat bagi warga negara asing dalam menguasai bahasa Rusia.

Corpus Nasional bahasa Rusia mencakup 400 juta unit leksikal dan, dalam banyak hal, melampaui bagian penting dari bangunan bahasa Eropa.

Prospek

Fakta bahwa laboratorium linguistik korpus di universitas Rusia, dan juga di universitas asing, menjanjikan adalah fakta yang mendukung pengenalan arah ini. Dengan aplikasi dan penelitian dalam konteks sumber informasi dan pencarian yang sedang dipertimbangkan, pengembangan bidang tertentu di bidang teknologi tinggi, sistem tanya jawab dilibatkan, namun hal ini telah dibahas di atas.

Perkembangan lebih lanjut dari linguistik corpus diprediksi di semua tingkatan, mulai dari teknis, dalam hal memperkenalkan algoritma baru yang mengoptimalkan proses pencarian dan pengolahan informasi, memperluas kemampuan komputer, meningkatkan RAM, dan berakhir dengan setiap hari, karena pengguna menemukan lebih banyak cara untuk menggunakan jenis sumber daya ini setiap hari. Hidup dan bekerja.

Kesimpulannya

Pada pertengahan abad yang lalu, 2017 adalah masa depan yang jauh, di mana pesawat ruang angkasa membajak hamparan alam semesta dan robot melakukan semua pekerjaan untuk manusia. Kenyataannya, sains berlimpah di "titik putih" dan membuat usaha putus asa untuk menjawab pertanyaan yang telah menyebabkan manusia bermasalah selama berabad-abad. Pertanyaan tentang fungsi bahasa di sini menempati tempat yang terhormat, dan linguistik komputer dan korpuskular dapat membantu kita untuk menjawabnya.

Memproses kumpulan data yang besar memungkinkan Anda mendeteksi pola yang tidak tersedia sebelumnya, memprediksi perkembangan fitur bahasa tertentu, memantau pembentukan kata secara real time.

Pada tingkat global yang praktis, korps dapat dianggap sebagai alat potensial untuk menilai sentimen publik - Internet adalah basis data yang terus berkembang dari berbagai teks yang diciptakan oleh pengguna nyata: ini adalah komentar, ulasan, dan artikel, dan banyak bentuk ucapan lainnya.

Selain itu, bekerja sama dengan korps berkontribusi pada pengembangan sarana teknis yang sama yang berpartisipasi dalam pencarian informasi, yang akrab bagi kita di layanan Google atau Yandex, terjemahan mesin, kamus elektronik.

Dengan yakin dapat dipastikan bahwa linguistik korpus hanya membuat langkah pertama, dan dalam waktu dekat akan berkembang dengan cepat.

Pendidikan:, Perguruan Tinggi dan Universitas

Apa itu linguistik korpus?

Sejarah linguistik korpus

Apa jenazahnya?

Aplikasi

Penggunaan rumah

Proses pembuatan

Kesulitan dalam membangun korps

Tanda morfologis

Markup sintaksis

Semantik Markup

Penerapan sistem pencarian informasi

Bangunan nasional bahasa Rusia

Prospek

Kesimpulannya

Similar articles

Pendidikan:

Pendidikan:

Pendidikan:

Pendidikan:

Pendidikan:

Pendidikan:

Trending Now

Rumah dan Keluarga

Kesederhanaan

Hukum

Seni dan Hiburan

Kesehatan

Berita dan Masyarakat

Newest

Teknologi

Makanan dan minuman

Teknologi

Berita dan Masyarakat

Kesederhanaan

Olahraga dan Kebugaran