Привет, это maksa, мне не хочется логиниться. windysmile попросил помочь.
Думаю, это результат введения новой версии исправления опечаток. Пресс-релиза и записи в корпоративном блоге об этом я не нашёл, так что только тут — http://iseg.livejournal.com/98253.html. Как я понимаю, одним из побочных эффектов стала жёсткая привязка некоторых словоформ, например, приведённых в записи. Я посмотрел, ещё и «полнизация», например, связана с «полонизацией».
Вообще новый алгоритм исправления опечаток сильно лучше старого, он правильно определяет гораздо больше опечаток (по ощущениям, 80-90 % вместо 30-40 раньше), но отдельных вещей я понять не могу. Почему привязали к словарным словам формы, которые вообще не встречаются или встречаются предельно редко, как в этом примере? И почему не привязали друг к другу очевидные синонимы, например, «бренд» и «брэнд», «Фудзияма» и «Фуджияма», «придти» и «прийти»… Вот Гугл, например, считает, что одними и теми же словами являются «Юля» и «Юлия», «Наталья» и «Наталия», «IE7» и «Internet Explorer 7». Иногда в этом виден перебор, но логика понятна. А тут — ни полноты, ни точности.
Да, алгоритм этот действительно очень хорош, но как-то всё-таки хотелось иногда быть и свободным от него. Мне всегда казалось, что таким способом освободиться от машинной логики в пользу решения какой-то нетривиальной задачи в данном случае будут кавычки. Вот то, что Яндекс не слушается кавычек и всё равно не ищет "полкизацию" меня искренне и не скажу, что приятно, удивило.
Это всё перекликается и с сегодняшним случаем на зачёте, когда студентка говоря об авторе "Слова о полку Игореве" назвала его "автором полка".
Спасибо, и тебя тоже:-) Под полкизацией я имела в виду какой-то аналог shelving the books, но в принципе искала слова на -ция без иностранных источников на -tion.
Ну вот есть же английское to shelve the books, в смысле поставить на полку:-) На самом деле, мне надо было слово на -ция без аналога на -tion в других языках.
Мне надо было слово на -ция без аналога на -tion в других языках. Я доказывала, что в русском есть суффикс -ция как самостоятельный суфффикс, а не как только средство калькирования.
Про то, почему такой эффект получается, комментом ниже объяснил инсайдер.
Да, понятно, спасибо. Ясно, что такая система требует некоторого времени на настройку и отладку, брэ/енды, наверное, тоже когда-то приведут к соответствию. Я уже не первый раз напоминаю себе, что поисковики делают не для нужд лингвистов, а для тех, кто ищет информацию и товары:-) Потому что такая функция без возможности отключения приведёт к полной невозможности использования Яндекса при выяснении, как же всё-таки больше народу пишет, брэнл или бренд.
А Гугл, кстати, не отсекает просто все окончания начисто вместо проверки парадигмы? Это объяснило бы, почему Юля и Юлия, Наталья и Наталия одно слово.
Поисковики делают не для лигнвистов, а для людей, окторые ищут информацию и товары, как неоднократно при мне напоминали лингвистам те, кто имеет отношение к поиску в Интернете.
Я не видел. По крайней мере, в mosling не было. И с нами не обсуждалось - хотя по-моему, обсуждать тут нечего. Я его вчера видел (Игоря), но поговорить об этом мы не успели. Кажется, ты можешь его контактно каузировать, сделай это, если можно :-)
Мне он пару дней назад показывал (по причине как раз контактности), я сказала, что всё ОК и срочно в номер. Непонятно, почему этого не произошло. И сейчас контактно не могу, Игоря нет
Объяснить-то он все объяснил, но мне от этого стало грустно. Я думал, что если в ответ на полкизацию выдается поляризация, это наверняка значит, что полкизации нигде нет (во всяком случае, он ее не нашел). А из сказанного ниже следует, что такой вывод неверен: может, Яndex где-то и нашел страницу с полкизацией, но поскольку в его понятиях это та же поляризация, он сперва выдаст несколько десятков других страниц, более понравившихся ему, а ту потом. Или все же не так?
Гм. «поисковики делают не для нужд лингвистов, а для тех, кто ищет информацию» … А лингвисты разве не информацию ищут?
Да, как тут тоже уже заметили, хотелось бы иметь возможность отключать эту функцию, как есть возможность отключать использование морфологии, искать стоп-слова и т.п. Лингвисты ищут специфическую информацию, тут я неточно выразилась, конечно:-) Поисковики для тех, кто ищет, что написано, ане как написано.
1. ничего не нашли, поэтому заменили. 2. то что не сказали про п.1 - наша ошибка, будем говорить очень скоро 3. ваш журнал тоже найдем (уже находим в ППБ а будем выдавать и в общем поиске)
no subject
Date: 2007-12-26 12:47 pm (UTC)no subject
Date: 2007-12-26 01:08 pm (UTC)(А если серьезно — ни разу не найдя того, что Вы задали, он решает, что надо поискать что-то похожее.)
no subject
Date: 2007-12-26 01:49 pm (UTC)no subject
Date: 2007-12-26 03:25 pm (UTC)Но забавно оно, конечно.
no subject
Date: 2007-12-26 04:26 pm (UTC)Думаю, это результат введения новой версии исправления опечаток. Пресс-релиза и записи в корпоративном блоге об этом я не нашёл, так что только тут — http://iseg.livejournal.com/98253.html. Как я понимаю, одним из побочных эффектов стала жёсткая привязка некоторых словоформ, например, приведённых в записи. Я посмотрел, ещё и «полнизация», например, связана с «полонизацией».
Вообще новый алгоритм исправления опечаток сильно лучше старого, он правильно определяет гораздо больше опечаток (по ощущениям, 80-90 % вместо 30-40 раньше), но отдельных вещей я понять не могу. Почему привязали к словарным словам формы, которые вообще не встречаются или встречаются предельно редко, как в этом примере? И почему не привязали друг к другу очевидные синонимы, например, «бренд» и «брэнд», «Фудзияма» и «Фуджияма», «придти» и «прийти»… Вот Гугл, например, считает, что одними и теми же словами являются «Юля» и «Юлия», «Наталья» и «Наталия», «IE7» и «Internet Explorer 7». Иногда в этом виден перебор, но логика понятна. А тут — ни полноты, ни точности.
no subject
Date: 2007-12-26 06:33 pm (UTC)Это всё перекликается и с сегодняшним случаем на зачёте, когда студентка говоря об авторе "Слова о полку Игореве" назвала его "автором полка".
no subject
Date: 2007-12-26 08:05 pm (UTC)А что такое полкизация?
no subject
Date: 2007-12-27 10:13 am (UTC)Под полкизацией я имела в виду какой-то аналог shelving the books, но в принципе искала слова на -ция без иностранных источников на -tion.
no subject
Date: 2007-12-27 10:14 am (UTC)На самом деле, мне надо было слово на -ция без аналога на -tion в других языках.
no subject
Date: 2007-12-27 10:14 am (UTC)no subject
Date: 2007-12-27 10:15 am (UTC)Впрочем, если интересно, вот тут ниже в комментах появился инсайдер и всё объяснил.
no subject
Date: 2007-12-27 10:15 am (UTC)no subject
Date: 2007-12-27 10:25 am (UTC)А в Яндексе мой пост можно увидеть только в Блогах.
no subject
Date: 2007-12-27 10:26 am (UTC)Про то, почему такой эффект получается, комментом ниже объяснил инсайдер.
no subject
Date: 2007-12-27 10:27 am (UTC)no subject
Date: 2007-12-27 10:30 am (UTC)no subject
Date: 2007-12-27 10:30 am (UTC)Ясно, что такая система требует некоторого времени на настройку и отладку, брэ/енды, наверное, тоже когда-то приведут к соответствию.
Я уже не первый раз напоминаю себе, что поисковики делают не для нужд лингвистов, а для тех, кто ищет информацию и товары:-) Потому что такая функция без возможности отключения приведёт к полной невозможности использования Яндекса при выяснении, как же всё-таки больше народу пишет, брэнл или бренд.
А Гугл, кстати, не отсекает просто все окончания начисто вместо проверки парадигмы? Это объяснило бы, почему Юля и Юлия, Наталья и Наталия одно слово.
no subject
Date: 2007-12-27 10:31 am (UTC)no subject
Date: 2007-12-27 10:32 am (UTC)Игорь его так и не отправил что ли?!
no subject
Date: 2007-12-27 10:32 am (UTC)Хотя в данном случае это были не полкИ, а пОлки
no subject
Date: 2007-12-27 12:30 pm (UTC)no subject
Date: 2007-12-27 12:45 pm (UTC)И сейчас контактно не могу, Игоря нет
no subject
Date: 2007-12-27 12:52 pm (UTC)no subject
Date: 2007-12-27 01:15 pm (UTC)Гм. «поисковики делают не для нужд лингвистов, а для тех, кто ищет информацию» … А лингвисты разве не информацию ищут?
no subject
Date: 2007-12-27 01:21 pm (UTC)Лингвисты ищут специфическую информацию, тут я неточно выразилась, конечно:-) Поисковики для тех, кто ищет, что написано, ане как написано.
no subject
Date: 2007-12-27 02:50 pm (UTC)no subject
Date: 2007-12-29 03:49 pm (UTC)2. то что не сказали про п.1 - наша ошибка, будем говорить очень скоро
3. ваш журнал тоже найдем (уже находим в ППБ а будем выдавать и в общем поиске)
с уважением
no subject
Date: 2007-12-29 03:52 pm (UTC)Спасибо за ответ, польщена