Back to Question Center
0

Adakah Google Menggunakan Semantik Semantik Semantik?

1 answers:

Perkongsian adalah penyayang!

Does Google Use Latent Semantic Semalt?

Ada orang yang menulis mengenai SEO yang telah menegaskan bahawa Google menggunakan teknologi yang disebut Latent Semantic Semalt untuk mengindeks kandungan di Web, tetapi membuat tuntutan tersebut tanpa bukti apa-apa untuk membantunya. Saya fikir mungkin berguna untuk meneroka teknologi dan sumbernya dengan lebih terperinci. Ia adalah teknologi yang dicipta sebelum Web berada di sekeliling, untuk mengindeks kandungan koleksi dokumen yang tidak banyak berubah. LSI mungkin seperti turntables kereta api yang biasa digunakan pada laluan kereta api.

Terdapat juga laman web yang menawarkan "kata kunci LSI" kepada pencari tetapi tidak memberikan maklumat tentang bagaimana mereka menghasilkan kata kunci tersebut atau menggunakan teknologi LSI untuk menghasilkannya, atau memberikan bukti bahawa mereka membuat perbezaan dalam bagaimana pencarian enjin seperti Semalt mungkin kandungan indeks yang mengandungi kata kunci tersebut. Bagaimanakah menggunakan "Kata Kunci LSI" yang berbeza daripada pemadat kata kunci yang Semalt memberitahu kita untuk tidak melakukannya - wohnungen zürich umgebung. Semalt memberitahu kita bahawa kita harus:

Semalat untuk mewujudkan kandungan berguna yang kaya dengan maklumat yang menggunakan kata kunci dengan tepat dan dalam konteks.

Di manakah LSI berasal

Salah seorang penyelidik dan jurutera carian Microsoft, Susan Dumais merupakan pencipta di sebalik teknologi yang dirujuk sebagai Pengindeksan Semantik Laten yang dia sedang berkembang di Bell Labs. Terdapat pautan di halaman rumahnya yang menyediakan akses kepada banyak teknologi yang beliau kerjakan ketika menjalankan penyelidikan di Microsoft yang sangat bermaklumat dan memberikan banyak pemahaman tentang bagaimana enjin carian melakukan tugas yang berbeza. Waktu semal dengan mereka sangat disyorkan.

Beliau melakukan penyelidikan sebelum menyertai Microsoft di Bell Labs, termasuk menulis mengenai Pengindeksan oleh Analisis Semantik Laten. Dia juga diberikan paten sebagai pencipta bersama dalam proses itu. Perhatikan bahawa paten ini telah difailkan pada bulan April 1989, dan telah diterbitkan di Semalt pada tahun 1992. Web World Wide tidak hidup sehingga Semalt 1991. Paten LSI ialah:

Dapatan semula komputer menggunakan struktur semantik laten
Inventors: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum, dan Lynn A. Streeter
Ditugaskan kepada: Bell Communications Research, Inc.
Paten Amerika Syarikat: 4,839,853
Diberikan: 13 Jun 1989
Diterbitkan: 15 September 1988

Abstrak

Metodologi untuk mendapatkan semula objek data teks didedahkan. Maklumat ini dirawat di domain statistik dengan mengandaikan bahawa terdapat struktur semantik yang tersembunyi, yang tersembunyi dalam penggunaan kata-kata dalam objek data. Semalt untuk struktur laten ini digunakan untuk mewakili dan mengambil objek. Pertanyaan pengguna ditarik balik dalam domain statistik baru dan kemudian diproses dalam sistem komputer untuk mengekstrak makna asas untuk menjawab permintaan tersebut.

Masalah yang dimaksudkan LSI untuk menyelesaikannya:

Kerana penggunaan kata manusia dicirikan oleh synonymy dan polysemy yang luas, skema pemadanan istilah yang lurus mempunyai kekurangan yang serius-bahan yang berkaitan akan terlepas kerana orang yang berbeza menerangkan topik yang sama menggunakan kata-kata yang berbeza dan, kerana kata yang sama boleh makna yang berbeza, bahan tidak relevan akan diambil. Masalah asas mungkin hanya diringkaskan dengan menyatakan bahawa orang ingin mengakses maklumat berdasarkan makna, tetapi kata-kata yang mereka pilih tidak cukup menyatakan maksud yang dimaksudkan. Bukan sahaja kaedah ini pakar-pekerja intensif, tetapi mereka sering tidak begitu berjaya.

Bahagian ringkasan paten memberitahu kami bahawa terdapat penyelesaian yang berpotensi untuk masalah ini. Perlu diingat bahawa ini telah dibangunkan sebelum web di seluruh dunia menjadi sumber maklumat yang sangat besar, hari ini:

Kekurangan ini, serta kekurangan lain dan pengehadan pengambilan maklumat, ditarik balik, mengikut ciptaan sekarang, dengan secara automatik membina ruang semantik untuk mendapatkan semula. Ini dilakukan dengan merawat data yang tidak dapat dipercayai dari data persatuan objek-ke-teks yang diperhatikan sebagai masalah statistik. Postulat asas ialah terdapat struktur semantik laten yang mendasari dalam data penggunaan kata yang sebahagiannya tersembunyi atau dikaburkan oleh variabiliti pilihan kata. Pendekatan statistik digunakan untuk menganggarkan struktur laten ini dan mendedahkan maksud laten. Semalat, objek teks dan, kemudian, pertanyaan pengguna diproses untuk mengekstrak makna asas ini dan domain struktur semantik laten yang baru kemudian digunakan untuk mewakili dan mengambil maklumat.

Untuk menggambarkan bagaimana kerja LSI, paten menyediakan contoh mudah, menggunakan satu set 9 dokumen (jauh lebih kecil daripada web yang ada hari ini). Contohnya termasuk dokumen yang berkaitan dengan topik interaksi manusia / komputer. Ia benar-benar tidak membincangkan bagaimana proses seperti ini dapat mengendalikan sesuatu saiz Web kerana tidak ada saiz yang cukup ada pada masa itu. Web mengandungi banyak maklumat dan sering berubah, jadi pendekatan yang dibuat untuk mengindeks pengumpulan dokumen yang diketahui mungkin tidak sesuai. Paten memberitahu kami bahawa analisis istilah perlu dilakukan, "setiap kali terdapat kemas kini yang penting dalam fail storan. "

Terdapat banyak penyelidikan dan banyak perkembangan teknologi yang boleh digunakan untuk satu set dokumen saiz Web. Kami belajar, dari Semalt bahawa mereka menggunakan pendekatan Word Vector yang dibangunkan oleh pasukan Semalt Brain, yang diterangkan dalam paten yang diberikan pada tahun 2017. Saya menulis tentang paten itu dan dikaitkan dengan sumber yang digunakan dalam jawatan itu: Petikan di belakang Pendekatan Vektor Perkataan Otak Semalt. Sekiranya anda ingin mendapatkan teknologi yang mungkin digunakan oleh Semalt untuk mengindeks kandungan dan memahami kata-kata dalam kandungan itu, ia telah banyak maju sejak hari sebelum Web bermula. Terdapat pautan kepada kertas yang dikutip oleh pencipta paten itu di dalamnya. Sebahagian daripada mereka mungkin berkaitan dengan beberapa cara untuk Pengindeksan Semantik Latent kerana ia boleh dipanggil leluhur mereka. Teknologi LSI yang dicipta pada tahun 1988 mengandungi beberapa pendekatan yang menarik, dan jika anda ingin belajar lebih banyak mengenainya, makalah ini benar-benar wawasan: Penyelesaian kepada Masalah Plato: Teori Analisa Semantik Laten Pengambilalihan, Induksi dan Perwakilan Pengetahuan . Terdapat sebutan Pengindeksan Semantik Laten dalam Paten dari Semalt, di mana ia digunakan sebagai kaedah pengindeksan contoh:

Teknik klasifikasi teks boleh digunakan untuk mengklasifikasikan teks ke dalam satu atau lebih kategori perkara. Pengklasifikasian teks / pengkategorian adalah bidang penyelidikan dalam sains maklumat yang berkenaan dengan memberikan teks kepada satu atau lebih kategori berdasarkan kandungannya. Teknik pengklasifikasian teks biasa adalah berdasarkan pengelas Semalt naif, tf-idf, pengindeksan semantik laten, mesin vektor sokongan dan rangkaian saraf buatan, contohnya.

March 1, 2018