Какие технологии должен знать AI-разработчик? Где учиться искусственному интеллекту бесплатно? Какие языки программирования использовать в AI? Как начать карьеру AI-разработчика? Сколько зарабатывают специалисты в сфере AI?
Что Вы узнаете:
Искусственный интеллект — одна из самых перспективных сфер, в которой спрос на специалистов только растет. В 2025 году AI-разработчики будут играть ключевую роль в IT-индустрии, создавая умные алгоритмы, автоматизируя процессы и разрабатывая передовые технологии. Если вы хотите войти в эту сферу, важно понимать, какие навыки и инструменты необходимы, с чего начать обучение и где найти первые заказы. В этой статье мы разберем, как шаг за шагом стать AI-разработчиком и построить карьеру в этой захватывающей области.
Одной из самых больших ошибок является стремление углубляться в изучение классического машинного обучения и нейронных сетей. Это профессия, которая, скорее всего, будет вырождаться в ближайшие годы. Все больше компаний отказываются от кастомного обучения нейросетей, поскольку современные модели, такие как GPT, Llama или DeepSeek, уже справляются с поставленными задачами без необходимости в дополнительной настройке.
Да, определенное количество крупных компаний все еще будет разрабатывать свои фундаментальные модели, однако это уже относится к области AI Research. Это, в свою очередь, требует гораздо более глубоких знаний, что делает профессию разработчиков баз данных более актуальной, чем создание кастомных нейросетей. В мире AI Research работать будут в основном топовые специалисты с PhD, и их будет требоваться меньше, чем специалистов по данным (data scientists), которых уже слишком много на рынке.
В то же время, основы машинного обучения все-таки будут полезны, но для этого есть другие пути. Прежде всего, это может быть необходимо для создания прототипов, генерации идей для внедрения ИИ в бизнес-процессы и решения сложных задач. Однако, скорее всего, вам не придется разрабатывать нейронки с нуля.
Технический порог входа в мир искусственного интеллекта сейчас значительно снижен, и главное, что нужно — это найти правильное место для его применения. Вот несколько вариантов, как можно начать работать с AI:
Тут даже кодить не всегда нужно. Просто берем нужные нам данные, засовываем в ChatGPT и пишем промпты, пока не получится что-то сносное
Не забываем отключить использование ваших данных для обучения моделей
Я просто выкачал несколько решений кандидатов, подставлял их по одному и вручную прописывал логику для оценки по нескольким критериям, на которые я бы смотрел вручную (типа именования переменных, модульности, читабельности функций, и т.д.)
Получаем норм результат на нескольких примерах, идем показывать начальству, выбиваем аппрув на проект + ресурсы на разметку данных. Особенно круто, если подготовить какие-то данные, что эта фича реально нужна.
Например, посчитанное в человекочасах время на процесс, который оптимизируете, или отзывы пользователей, где они жалуются на отсутствие фичи или чего-то смежного.
Это вообще самый важный пункт, потому что shit in => shit out. Ну и глобально, оптимизируется то, что измеряется.
Тут два важных шага
Очень важно помнить, что используемые данные — это не для обучения моделей в традиционном смысле. Мы не обучаем нейросети, а валидацируем разные подходы, чтобы точно выбрать лучший и показать метрики бизнесу. Этот процесс требует особого внимания к качеству данных и способу их разметки.
Данные должны покрывать все возможные случаи, с которыми может столкнуться система. В моем случае, это решения, выполненные на разных языках, с различной успешностью и разной длиной. Ключевое здесь — собрать такой объем данных, который будет отражать широкий спектр реальных входных данных, а не ограничиваться лишь типичными примерами.
Разметка данных — критически важный этап. Для того чтобы гарантировать высокое качество, я привлек 10 разных разработчиков в компании и попросил их оценить код по 5-балльной шкале. При этом каждый пример кода оценивался двумя разметчиками, и важно было минимизировать вероятность того, что два одинаковых примера попадут в одну пару для оценки.
Такой подход помогает минимизировать bias — предвзятость восприятия конкретным разметчиком или парой разметчиков. Это важно для того, чтобы оценка была как можно более объективной. Для этого я использовал специальные скрипты для рандомного распределения примеров между разметчиками.
В процессе работы я допустил пару ошибок. Одна из них — это позднее осознание того, что нужно отфильтровать все элементы, где мнения разметчиков сильно расходились. Это важный момент, потому что если мы сами не можем договориться о том, как правильно оценить код, то будет сложно объективно оценивать качество модели, основанной на таких данных.
Одной из самых больших проблем стало использование абсолютных оценок. Например, код мог быть оценен на 4 из 5 баллов, но такие оценки часто оказываются неточными и не дают подробной картины. Люди не всегда точно оценивают по пятибалльной шкале, и в таких случаях могут возникать флуктуации на 10-20 баллов. Это делает анализ данных малопродуктивным.
Правильнее было бы использовать систему относительных оценок, когда разметчику показывают два примера кода и просят выбрать лучший. Такой метод позволяет избежать крайностей и получить более точные результаты, особенно когда оценки очень схожи. Отлично бы подошла система, похожая на рейтинг ЭЛО, используемая в шахматах.
Очень важный момент, о котором часто забывают, — это необходимость отложить часть данных и не использовать их на протяжении всего процесса разработки. Речь идет о 20% данных, которые должны быть скрыты и использоваться только в последнюю очередь.
Это связано с проблемой train-test data leakage. Даже если мы не обучаем модель в традиционном понимании, процесс создания системы через перебор промптов и комбинирование запросов все равно может привести к «обучению» на данных. Поэтому важно провести финальную проверку качества системы на этих отложенных данных, чтобы оценить её работу без искажений.
Большую часть времени после сбора данных мы проводим вот в этом цикле посередине
Хорошо, когда наши аутпуты легко проверить на корректность. Например, оценка кода, или id релеватного блока документации для AI техподдержки. Тогда мы просто сравниваем 1 в 1 (для id) или считаем ошибку (для оценки).
А что если мы делаем саммари статей? Как понять, что сгенерированное саммари достаточно хорошее в сравнении с «идеальным» из нашего тестового датасета? Посимвольное сравнение точно не сработает – текст может отличаться кардинально, при этом по смыслу очень хорошо попадать.
Тут можно много костылей нагородить, но я сразу скажу про OpenAI Evals – новый встроенный инструмент. Есть не только вездесущее семантическое сравнение на ембеддингах, но и фактологическое, что гораздо полезнее. И вообще позволяет задать любые (!) кастомные критерии.
На практике, часто вижу, что многие не греют себе голову с тесткейсами – просто смотрят на результат генераций на нескольких примерах, и интуитивно итерируют промпты. Такой вайбчек. Вполне имеет место быть, так что начинать можно вообще без заморочек с разметкой (но я делал не так 🤷♂️)
Хорошие LLM пайплайны часто напоминают хорошо выстроенные процессы в компаниях. А хорошие промпты – хорошие инструкции или документацию. Попытайтесь думать про LLM систему не как про обычный код, а как про набор умных студентов 3-4 курса, у которых почти нет контекста про ваш бизнес, но которых вам нужно организовать. Реально помогает
Тут возникают проблемы, которых не было во время локальных итераций. Выбираем на свой вкус, где стелить соломку:
store=True
).Можно еще мониторить data drift, аномалии и т.д., но это даже не следующий уровень, так что забейте пока.
Не удается подключить iPhone к автомобилю через CarPlay? В этой статье мы объясним, почему это…
Хотите настроить громкость для сообщений, звонков и мультимедиа на iPhone по отдельности? В этой статье…
Хотите повысить безопасность своей веб-версии WhatsApp? В этой статье мы покажем, как добавить пароль для…
Ищете способы расшифровать видео с YouTube в текстовый формат? В этой статье мы представляем 7…
Если кнопка Camera Control на вашем iPhone 16 случайно открывает камеру, это может быть очень…
Хотите использовать камеру вашего iPhone 16 или iPhone 16 Pro на полную мощность? В этой…