spamsink | Горе от LLM ума

Понадобилось мне в качестве хобби иметь в хозяйстве программу, которая должна уметь следующее:
по данным двум текстовым файлам, одному длиннее, другому короче, она должна находить такое смещение в первом файле, начиная с которого его строки наиболее точно совпадают со строками второго файла, причем строки последнего, состоящие из одной звёздочки, считаются совпадающими с любой строкой.

В моём случае более длинный файл - от силы десяток тысяч строк, более короткий - редко когда более тысячи строк, поэтому наивный O(n*m) алгоритм мне бы годился, просто писать было лень. Но я в промпте это не сказал, и получил от Cerebras программу на Питоне, которая пользовалась этим алгоритмом только в качестве крайнего случая, если не был доступен NumPy.

А если NumPy был доступен, то программа каждой уникальной строке, встретившейся в обоих файлах, ставила в соответствие случайное комплексное число длины 1, кроме *, для которой брался 0. Потом она строила соответствующие массивы чисел, удлиняя при необходимости до степени 2, причем для второго массива числа брались сопряжённые, и делала всему этому делу FFT со всеми возможными смещениями от 0 до разницы длин файлов.
В конкретных деталях алгоритма я не разбирался, но мотивировалось это тем, что для совпадающих строк произведение чисел будет равно в точности вещественному 1, а для несовпадающих - произвольным комплексным числам со случайным Re, в среднем равным нулю. Так как нас интересуют только нетривиальные совпадения, то совпадения со звёздочкой, сиречь умножения на 0, общий результат не изменяют.
Потом в массиве полученных результатов находился максимум, и его индекс объявлялся искомым смещением.

Этим всем делом Cerebras был очень горд, потому что вычислительная сложность получалась меньше, типа O((n+m)*log(nm)) или что-то в таком духе.

Ну и, короче, в тех случаях, когда реальное совпадение было стопроцентным, этот алгоритм с хорошей вероятностью выдавал правильное смещение, хотя и с рейтингом заметно меньше 1 (обычно около 0.8-0.9), а для совпадения с погрешностями результат был произвольным и непохожим на реальность. Пришлось подавить это безобразие, закомментировав "import math", и всё заработало ровно так, как я хотел.

Flat | Top-Level Comments Only

From:

vak

Ты пользуешься облачным сервисом от cerebras.ai? Ходишь к нему через Питон или как?

Можно сравнить с grok.com по программистским способностям. Если у тебя есть под рукой хороший промпт.

spamsink

Браузером, на cloud.cerebras.ai

juan_gandhi

Эко ИИ выдумывает.
(А что значит "наиболее точно"?

Вообще похоже на генетику. Вариант Укконена вполне бы годился, он линейный.

Это похоже на генетику. Нужно найти, где находятся известные гены (перемещаемые библиотечные объектники) на хромосоме (слинкованном бинарнике). Версии объектников, использованных для сборки бинарника, могут слегка отличаться от имеющихся.

krivye_ru4ki

У Cerebras-а же нет своих моделей, они опенсорсные выполняют. В правом верхнем углу можно выбрать (сейчас GPT-OSS, Qwen3, LLama3-4).
Cerebras разрабатывает специализированные железки для выполнения моделей, есть ещё один похожий стартап SambaNova.

Edited Date: 2025-08-24 01:35 am (UTC)

Я думал, они динамически выбирают в зависимости от system message.

vitr

А также в Уголовном кодексе – приравнять бандеровский символ к символам, которые соответствуют немецкому национал-социализму, общеизвестному как нацизм, советскому коммунизму, и внести изменения в закон об Институте национальной памяти – Комиссии по преследованию преступлений против польского народа в части, касающейся преступлений ОУН-УПА.

Шо за херня?

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Playing poohsticks in the Styx

For entertainment purposes only

Горе от LLM ума

Горе от LLM ума

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

February 2026

Most Popular Tags

Page Summary

Active Entries

Style Credit

Expand Cut Tags