spamsink | Почему есть LLM, но нет LMM?

Случилось мне задуматься, почему мы уже несколько лет видим в публичном доступе несколько разных ИИ, которые умеют в картинки (если у вас от этой - и этой - конструкции подгорает, ну извините дважды) разной степени весёлости, уже более года видим в публичном доступе несколько разных ИИ, которые умеют беседовать с разной степенью политкорректности и сообразительности, но что-то не видим ни одного ИИ, которое умело бы музицировать.

А то как хорошо бы было! Берём нейросеть - натренированную исключительно на опусах, находящихся в public domain, разумеется. Рабинович ей что-нибудь там напевает, что сам придумал, и просит скорректировать тональность, темпоритм, аранжировать в том или ином стиле и пр., после чего использует хоть для личных целей (тренировки, езда на машине и т.п.), хоть - после проверки Шазамом или эквивалентом, что ничего подобного раньше не было - для озвучки роликов, например. Не говоря уже о более профессиональных приложениях.

Или, наоборот, Рабинович напевает что-то, что вертится в голове, но не помнит, что - а Шазам его напевание без слуха и голоса не понимает. Тут ИИ смог бы предложить, как бы оно могло звучать на самом деле, в соответствии с теорией музыки - и это уже можно искать другими средствами, тем же Шазамом.

Что же этому мешает? Технические сложности оцифровки нотной записи (почти во второй четверти 21-го века, простите)? Проклятое лобби музыкальной индустрии, типа как дисней недавно заставил графические ИИ запретить промпты "в стиле диснея")? Неясность, как это можно в будущем монетизировать (а у чего сразу есть полная ясность в этом отношении)?

Flat | Top-Level Comments Only

From:

vak

Наверное, на музыке много денег не удаётся поднять, вот никто и не инвестирует.

spamsink

А на весёлых картинках с произвольным количеством конечностей и пальцев как удалось?

Наверное народ после массового увлечения фотографией переключился на массовую генерацию ИИ-картинок. Что логично. А вот массово музицировать как-то не вошло в моду.

fenikso

Как вариант, разнообразных картинок для контента нужно больше чем музыки, оттого и спрос больше.

dijifi

Оно?

https://www.nvidia.com/en-us/research/ai-art-gallery/artists/aiva/

Айва

Если познакомиться с деталями, то выяснится, что нет. Ему там нужен valid musical content длиной не менее минуты; и никаких текстовых промптов не предусмотрено. Т. е. до аналога MidJourney или ChatGPT ему далеко.

Жаль.

https://en.m.wikipedia.org/wiki/Music_and_artificial_intelligence

Google Magenta как-то приближается к желаемому - хоть текстовые промпты есть. Но хочется чего-нибудь, что умело бы даже без напевания, а как Левон Оганезов шутил, типа турецкий марш в китайском стиле, или Бах в грузинском.

sab123

А вот в этом может и кроется ответ: каким образом неспециалист сможет описать музыку текстовым промптом? Он для этого просто не знает слов. Я, кстати, не знаю, есть ли достаточно внятные слова и у специалистов.

Да вот хотя бы в точности как выше, "турецкий марш Моцарта в китайском стиле".

mikerrr

Да вроде полно таких

На вскидку
https://openai.com/research/jukebox
https://habr.com/ru/companies/sberdevices/articles/591441/

Которые к произвольным выдуманным текстам придумывают произвольные мелодии - это не то. Я имел в виду промпты типа "вот что я насвистел/намычал, гармонизировать, развить тему и исполнить на органе в стиле Баха" или "в лесу родилась ёлочка в джазовом стиле на саксофоне", или как (выше) Левон Оганезов шутил, и т. п.

Были и такие, но надо искать)

Вот именно. Т. е. в публичное сознание они не попали: или потому, что не работали достаточно хорошо, чтобы вызвать энтузиазм публики, или потому, что их задушили.

Ну или они просто никому не интересны)

bowhill

Проблема та же, что и у людей, долгие годы учившихся на скрипке и очень хорошо преуспевших в этом – негде играть, потому что не для кого.

А потом, у нас народ не очень хорошо понимает свою роль в этом большом эксперименте с Искусственным Идиотом (пока): многие себя считают субъектами, экзаменаторами, в то время как они как раз гине-пиги.

Edited Date: 2023-12-08 06:01 pm (UTC)

brumka

а так-же content validators/curators

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Playing poohsticks in the Styx

For entertainment purposes only

Почему есть LLM, но нет LMM?

Почему есть LLM, но нет LMM?

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Зайчики не в таргете

плюс оч много

Profile

November 2025

Most Popular Tags

Page Summary

Active Entries

Style Credit

Expand Cut Tags