НЕЙРОМЕРЕЖІ, МЕТРИКИ Й ДАТАСЕТИ ВІД APPLE.
02.09.2025
У 2025 році нейромережева “лихоманка” захопила корпорації й звела їх у затяжному протистоянні на полі ринкових рейтингів і бенчмарків.
Попри маркетингові зусилля, головною зброєю більшості гравців ринку є практичний бік використання нейромереж.
Нещодавній тріумф Google Veo3 у сфері генерації відео надовго окреслив напрям розвитку генераторів контенту та забезпечив пошуковому гіганту вдалу маркетингову кампанію художньої нейромережі NANOBANANA, а також багатьох інших ефективних проєктів.
Водночас найбільший нішевий гравець — компанія OpenAI — із моменту виходу ChatGPT-5 переживає певну невизначеність. Відчутне зниження лімітів використання прояснило ситуацію з можливостями OpenAI. Маркетингова кампанія з просування нової моделі показала, що навіть лідер може робити помилки. Із часів ChatGPT-3 (2022) компанія перебувала на піку технологій і була прикладом для інших.
Подібна ситуація зараз у xAI, Anthropic та Perplexity AI. Компанії час від часу потрапляють у скандали й втрачають перспективні контракти. Тим більше, що на п’яти наступають потужні китайські конкуренти — Alibaba, DeepSeek, Tencent, Baidu, Moonshot та інші.
Майже не бере участі в цій історії компанія, яка займає третє місце у світі за капіталізацією в рейтингах market cap.
Компанія Apple упевнено тримається на ринку преміум-смартфонів уже багато років. Попит на широку лінійку продукції компанії не знижується й сьогодні. Користувачі цінують ґаджети Apple за простоту та безпеку. Немає передумов до зниження попиту й у майбутньому.
Та технології рухаються вперед, і смартфон Google Pixel 10 на процесорах Tensor G5 хоч і показав не найкращі тестові результати, але впевнено зайняв нішу смартфонів із нейромережевою інтеграцією у вигляді голосового керування.
Втім, Apple теж не сидить, склавши руки. Ми вже чули і про інтеграцію ChatGPT у застосунки на iOS, і про угоду виробника з компанією Alibaba через велику нішу товарообігу останньої. Також в інтернет-пошук своїх пристроїв Apple планує інтегрувати пошуковик Perplexity, який у липні 2025 випустив уже скандальний браузер Comet.
Крім цього, Apple випустила низку нейромережевих моделей, орієнтованих головним чином на візуалізацію.
Свої публічні моделі компанія викладає на популярному ресурсі Hugging Face. Зараз там понад 140 моделей.
Зайшовши в колекції, ми побачимо, що моделі поділені на сімейства:
1. FastVLM: перетворюють зображення на набір компактних візуальних токенів. Це знижує затримку обробки та дозволяє пришвидшити генерацію відповіді. Використовують гібридний відеокодер FastViTHD, який скорочує затримки під час обробки візуальної інформації, зберігаючи високу точність у завданнях візуального розуміння та генерації текстів.
2. MobileCLIP2: зручні для мобільних пристроїв моделі для зв’язку зображень і тексту. Вони навчені так, щоб картинка та її опис мали близькі векторні представлення (ембеддинги). Це дозволяє їм розуміти й знаходити схожість смислів зображення і тексту.
3. DiffuCoder: дифузійні великі мовні моделі, орієнтовані на генерацію коду. Замість звичного побудови тексту зліва направо, вони починають із «шумної» версії коду та поступово очищують її, створюючи кінцевий результат паралельно для всього коду, а не токен за токеном. Підхід дозволяє моделям формувати структуру коду відразу, а не будувати її построково, що особливо цінно для складного коду.
4. AIMv2: великі візуальні енкодери з мультимодальним авторегресивним переднавчанням: одночасно генерують фрагменти зображення і текстові токени в єдиній послідовності. Такий підхід покращує взаємодію «зображення-текст» і дозволяє досягати високої точності у завданнях класифікації об’єктів на зображеннях і в тексті.
5. Core ML: візуальні моделі детекції об’єктів за стандартом YOLOv3 від Ultralytics та оцінки глибини зображень. Також coreml-FastViT призначені для класифікації об’єктів на зображеннях. Усі моделі розроблені для запуску на фреймворку Core ML для on-device інференсу, тобто роботи безпосередньо на пристроях Apple з автоматичним задіянням доступних блоків CPU і GPU.
6. OpenELM Instruct Models (Efficient Language Models): трансформерні мовні моделі, здатні розуміти та виконувати інструкції. Прискорені завдяки спеціальному донавчанню на інструкціях, завдяки чому краще розуміють формулювання завдання і роблять менше помилок при виконанні конкретних вказівок. За описом моделей ELM у релізній статті на arXiv, група розробників представила не лише ваги, а й повну платформу для навчання та оцінки мовної моделі на загальнодоступних наборах даних, включаючи логи навчання, кілька контрольних точок та конфігурації попереднього навчання.
7. OpenELM Pretrained Models: ті ж трансформерні мовні моделі, що й попередні, навчені на великих корпусах тексту (просто текст без розмітки), але не донавчені на інструкціях.
8. MobileCLIP Models + DataCompDR Data: мультимодальні моделі, призначені для ефективної роботи з зображеннями та текстами на мобільних пристроях. Вони забезпечують високу продуктивність при мінімальних вимогах до ресурсів. Завдяки своїм згортковим та лінійним шарам можуть розпізнавати класи об’єктів на зображеннях, яких ще не бачили. Розбиття зображення виконують згорткові шари — ділять зображення на маленькі шматочки (патчі), наприклад по 16×16 пікселів для виділення ознак (колір, форма, текстура) та перетворюють патчі на вектори. До кожного вектора додається позиційне вбудовування (embedding) — список координат ознак у багатовимірному просторі, щоб модель розуміла розташування кожного патча на зображенні. У трансформерній частині нейромережі патчі взаємодіють один з одним і формують загальний контекст зображення. Після цього вектори патчів об’єднуються в загальний вектор із контекстом у лінійному шарі. Цей контекст (загальна ознака класу) і є фактором зближення вектора зображення з векторами тексту схожого контексту. Так модель розуміє, що зображення, якого вона ніколи не бачила, може бути описане текстом, найбільш близьким до контексту зображення.
9. TiC-CLI: моделі, призначені для безперервного навчання (зображення + текст) з урахуванням часової еволюції даних за часовими мітками у датасетах. Вони можуть ефективно донавчатися на даних, що надходять з часом, без потреби у повному перенавченні. Також у цій колекції представлені бенчмарки для перевірки часової стійкості, забування, швидкості адаптації нейромереж до донавчання.
10. DepthPro: спеціалізовані нейромережі для високоточого генерування 3D-карт глибини (відтінки сірого) на зображеннях. Карти глибини використовуються у доповненій реальності, медичних та автомобільних технологіях.
11. Core ML Stable Diffusion: оптимізовані для різних пристроїв під фреймворк Core ML дифузійні моделі, що перетворюють текстові описи у зображення. Вони використовують латентний простір (стислу карту налаштування ознак, а не пікселів) для генерації зображень, що дозволяє досягати високої деталізації при відносно низьких обчислювальних витратах.
12. Core ML FastViT: гібридні мережі, що працюють на поєднанні архітектури згорткових шарів із великими ядрами та структурної репараметризації (об’єднання кількох навчальних шарів в один оптимізований шар). Це критично для навчання, але на етапі використання нейромереж у пристроях прискорює її роботу.
13. Core ML Depth Anything: ще моделі для створення карти глибини зображень, у даному випадку одного зображення (AR та інші застосунки для оцінки відстані до об’єктів).
14. DFN Models + Data: ще моделі CLIP, навчені на відфільтрованих даних, призначених для класифікації зображень за текстовими запитами без додаткового навчання. Під час їх навчання використовувалась фільтрація даних Data Filtering Networks – за допомогою невеликих нейромереж автоматично відбираються якісні пари зображення/текст із величезних наборів даних. Колекція розширює вибір моделей з позиції швидкість/точність.
15. AIM: ще авторегресивні моделі для класифікації зображень, навчені з використанням неанотованих даних (без міток). При збільшенні числа параметрів добре адаптуються під різні завдання.
16. DCLM: мовні моделі, навчені на якісному автоматично анотованому датасеті.
17. Core ML Segment Anything 2: адаптовані для роботи з фреймворком Core ML моделі маскування об’єктів на зображеннях та відео Segment Anything Model 2 від Meta.
Як бачимо, основний акцент Apple робить на нейромережах, що працюють із готовими зображеннями та захопленням у реальному часі. Видно тенденцію розвитку у напрямку створення універсальних мовних моделей для обробки візуальних та текстових даних.
Серед датасетів Apple пропонує великі колекції анотованих зображень, колекції пар зображення/текст, колекції завдань з математичного міркування, колекцію очищених мовних даних, текстовий корпус (неанотований текст), колекцію текстів з високою щільністю інформації, колекцію синтетичних підписів, ембеддингів та метаданих, колекцію фінансових даних про акції Apple за 2025 рік.
Також представлено бенчмарк для тестування можливостей нейромережевих агентів у різних сферах. Корисний для тестування універсальних агентів. На даний момент генератор Hugging Face не дозволяє завантажити бенчмарк через помилку в таблиці – деякі стовпці відсутні, що не дозволяє привести дані до єдиного формату. Але ви можете знайти цей бенчмарк у репозиторії Apple на GitHub, як і багато інших розробок компанії.
Там можна знайти, наприклад, бібліотеку AXLearn, що працює в екосистемі машинного навчання JAX – бібліотеці Python для прискорених обчислень масивів і трансформації програм, розробленій Google за участю Nvidia та інших учасників спільноти, для високопродуктивних чисельних обчислень і масштабного машинного навчання.
JAX розширюється у напрямку модульності, щоб забезпечити роботу на всіх процесорах. На даний момент команда JAX розробила та планує додати в екосистему уніфікований API пристроїв у середовищі виконання PJRT – плагіни PJRT, адаптовані під конкретні пристрої. Такий підхід забезпечить універсальність JAX, який для додаткового функціоналу на певному пристрої викликатиме відповідний цьому пристрою плагін PJRT.
Це безпосередньо пов’язано з розробкою плагіна PJRT командою Apple для специфіки виконання JAX на всіх пристроях Apple. Більш того, Apple зазначає прискорення роботи JAX на платформах Mac завдяки використанню нового плагіна Metal, що працює на компіляторі машинного навчання OpenXLA від Google з відкритим вихідним кодом.
Перспектива використання новітніх технологій навчання та роботи нейромереж може дозволити Apple покращити архітектуру власних нейромереж, а також оптимізувати пристрої й екосистему, остаточно розв’язавши проблеми інтеграції та фрагментації, які спостерігаються сьогодні у сфері машинного навчання.
Якими б не були подальші плани Apple, такі новини вселяють надію, що компанія з величезними ресурсами зробить свій відчутний внесок у розвиток нейромереж для досягнення спільної мети – створення AGI.
Можна побажати Apple успіху в цьому напрямку, а її прихильникам – терпіння.
Пройдіть SAID-Test, щоб натренуватись відрізняти фейкові генерації.
said-корреспондент🌐
Ви можете створити окрему тему на форумі спільноти.
Коментарі