Apollo – osobisty asystent głosowy DIY oparty na Raspberry Pi

mcjk · Lipiec 30, 2025

Projekt Apollo to samodzielne urządzenie, które pełni funkcję osobistego asystenta głosowego. Wykorzystuje ono zaawansowane modele LLM oraz integracje z popularnymi usługami online. Całość została zbudowana z myślą o estetycznym wyglądzie, możliwości dalszej rozbudowy oraz praktycznym zastosowaniu jako codzienny pomocnik. Projekt tworzyliśmy wspólnie z kolegą.

Wspólnie prezentowaliśmy Apollo w naszym technikum na dniu projektów zawodowych, a we wrześniu wystąpimy również na Politechnice Poznańskiej. Wspominam o tym dlatego, że jesteśmy w trakcie wprowadzania przed przyszłą prezentacją radykalnych zmian i ulepszeń do projektu, więc w niektórych miejscach będę podawać dwie wersje specyfikacji, a na aktualnych zdjęciach obudowa może nie być w pełni kompletna.

Obudowa i wykonanie

Zaprojektowaliśmy własną obudowę w programie Blender, a następnie wydrukowaliśmy ją z białego filamentu PLA+ na drukarce 3D. W celu lepszego dopasowania konstrukcji do podłoża oraz zapewnienia odpowiedniego rozkładu ciężaru, dolna część urządzenia została wykonana ze sklejki 4 mm. Całość obudowy planujemy wykonać na nowo w celu poprawienia estetyki i minimalizmu designu.

Jednostka obliczeniowa

Jako jednostkę obliczeniową zastosowaliśmy Raspberry Pi 4B 4GB RAM, które w miarę dobrze sprawdziło się w roli głównego sterownika systemu. Z uwagi na spore obciążenie (głównie graficzne) jesteśmy w trakcie migracji projektu na Raspberry Pi 5 8GB RAM. Urządzenie działa na systemie Raspberry Pi OS Desktop ale z ograniczonymi przez nas możliwościami graficznymi. Do tego zastosowaliśmy autorską nakładkę graficzną wykonaną w HTMLu (Electron) i działającą w trybie kiosku.

Interfejs graficzny opiera się na widgetach i aplikacjach, a sam system łączy się z internetem w celu synchronizacji danych, pobierania aktualizacji i integracji z zewnętrznymi usługami.

Obsługa głosowa i dźwięk

Aby umożliwić rejestrację dźwięku, urządzenie wyposażone zostało w nakładkę HAT – ReSpeaker 2-Mics Pi HAT. Do odtwarzania dźwięków (np. mowy wygenerowanej przez AI lub odtwarzanej muzyki) wykorzystaliśmy prosty miniaturowy głośnik 8Ω 0,5W, który został podłączony do złącza JST na HAT-cie. Mimo kompaktowego rozmiaru, jego głośność jest wystarczająca do pracy w typowym pomieszczeniu. Planujemy jednakże wymianę go na inny model z uwagi na względnie jednak cichą głośność.

Wyświetlacz i interfejs użytkownika

Apollo został wyposażony w 7-calowy ekran dotykowy LCD, który pełni funkcję głównego interfejsu urządzenia. Dzięki technologii dotykowej możliwa jest pełna interakcja z asystentem: uruchamianie aplikacji, zmiana ustawień czy przeglądanie informacji.

Ekran podłączony został zarówno do złącz sygnałowych, jak i zasilających – konieczne było dolutowanie zasilania do HAT-a, ponieważ jego obecność blokuje standardowe piny GPIO.

Oprogramowanie i funkcjonalność
System działa w całości lokalnie (poza usługami chmurowymi, z których korzysta asystent). Funkcje obejmują:

rozpoznawanie i generowanie mowy (STT i TTS) przez użycie API firm Google i OpenAI,
obsługę kalendarza Google oraz dziennika mobiDziennik,
wyświetlanie prognozy pogody (OpenWeatherMap),
czytanie aktualności (kanały RSS: TVN24, WP, Interia itd.),
podgląd danych giełdowych (Yahoo Finance),
sterowanie muzyką poprzez API Spotify.

Do integracji kont użytkownika służy system Apollo Link – urządzenie generuje kod QR, który można zeskanować telefonem i autoryzować dostęp bez konieczności wpisywania danych na samym urządzeniu.

Kod i więcej informacji

Apollo jest bez wątpienia zbyt skomplikowany, żeby opisać go w jednym poście. Poniżej znajduje się kilka linków w których uzyskacie więcej informacji. Kod źródłowy obu części systemu jest dostępny publicznie pod otwartymi licencjami na GitHubie, aczkolwiek nie udostępniamy jeszcze żadnych schematów i poradników odpalenia Apollo samodzielnie:

Dziękuję za przeczytanie opisu. Projekt rozwijamy hobbystycznie i chętnie odpowiemy na wszelkie pytania techniczne

Edytowano Lipiec 31, 2025 przez mcjk
Poprawa linków

SOYER · Sierpień 18, 2025

Cześć, na początek gratulacje świetnego pomysłu, wykonania, dużego zaangażowania w pracę, a przede wszystkim tego, że Wam chłopaki się chce coś ciekawego zrobić.

Teraz moje pytanie do Was, ale i innych użytkowników tego forum, jeśli pozwolicie trochę mojej prywaty w Waszym temacie. Jak się rozwinie to obiecuję się przenieść do własnego wątku.

Interesuje mnie ten punkt:

rozpoznawanie i generowanie mowy (STT i TTS) przez użycie API firm Google i OpenAI,

ale bez generowania mowy(na razie?).

Czy w moim projekcie, opartym na esp32s3 dało by się dołożyć takie rozpoznawanie mowy i reakcję na komendy. Czy to przekracza możliwości esp32.

To bardziej byłby projekt szkoleniowy(dla mnie) niż użyteczny, ale fajnie byłoby powiedzieć „hej 32, otwórz bramę garażową”, jednocześnie wiedząc, że wielki brat nie podsłuchuje mnie przez kolejne urządzenie w domu;)

ethanak · Sierpień 18, 2025

@SOYER niestety - esp32 potrafi niewiele poza przekazaniem tego co powiedziałeś do serwera googla (i tak działa opisywany w wątku system). Jest co prawda możliwość rozpoznawania pewnych słów kluczowych, ale bardzo ograniczona. Poza tym zrozumienie zdania nawet po transkrypcji przekracza jego możliwości.

Jeśli masz jakąś większą maszynę działającą non stop możesz spróbować - do transkrypcji vosk (whisper to overkill), rozpoznanie znaczenia zdania da się zrobić bez AI.

Ale na "gołym" esp nie ma szans.

SOYER · Sierpień 18, 2025

Wiem, że, być może, wyraziłem się niezbyt precyzyjnie. Piszę z telefonu i nie chciałem się rozpisywać. Ja nie chcę by esp32 samo rozpoznawało mowę i reagowało na to „rozpoznanie”.

Chcę by, tak samo(?) jak w projekcie autorów wątku, jeśli dobrze go rozumiem, esp32s3 wysyłało to co „usłyszało” na serwer(google?) i po zwrocie z serwera rozpoznania tego co usłyszało, wyedy już samo esp32 zareagowało na wynik.

voaom · Sierpień 27, 2025

Gratulacje macie jakieś plany rozwoju

mcjk · Wrzesień 2, 2025

Dnia 18.08.2025 o 17:25, SOYER napisał:

Cześć, na początek gratulacje świetnego pomysłu, wykonania, dużego zaangażowania w pracę, a przede wszystkim tego, że Wam chłopaki się chce coś ciekawego zrobić.

Teraz moje pytanie do Was, ale i innych użytkowników tego forum, jeśli pozwolicie trochę mojej prywaty w Waszym temacie. Jak się rozwinie to obiecuję się przenieść do własnego wątku.

Interesuje mnie ten punkt:

rozpoznawanie i generowanie mowy (STT i TTS) przez użycie API firm Google i OpenAI,

ale bez generowania mowy(na razie?).

Czy w moim projekcie, opartym na esp32s3 dało by się dołożyć takie rozpoznawanie mowy i reakcję na komendy. Czy to przekracza możliwości esp32.

To bardziej byłby projekt szkoleniowy(dla mnie) niż użyteczny, ale fajnie byłoby powiedzieć „hej 32, otwórz bramę garażową”, jednocześnie wiedząc, że wielki brat nie podsłuchuje mnie przez kolejne urządzenie w domu;)

Dziękujemy za docenienie projektu! Przepraszam też za późną odpowiedź. Przesyłanie danych to jedno, ale nagrywanie danych z mikrofonu może być większym problemem dla ESPa. Plus, wtedy "duży brat" może Cię podsłuchiwać, bo w końcu ten nagrany dźwięk jest przetwarzany przez Google.

mcjk · Wrzesień 2, 2025

Dnia 27.08.2025 o 21:07, voaom napisał:

Gratulacje macie jakieś plany rozwoju

Dziękujemy za komentarz! Tak, w tym momencie przygotowujemy się do konferencji SPA IEEE 2025, która odbędzie się 17 września w Centrum Mechatroniki, Biomechaniki i Nanoinżynierii Politechniki Poznańskiej. Przygotowujemy do tego czasu dużo nowych opcji, całkowicie nowy system wybudzania głosowego z dedykowanym modelem od DaVoice (działający w pełni lokalnie), więcej wspieranych modeli z wielu dostawców (w tym z serii Gemini oraz Claude), oraz przede wszystkim całkowicie nową obudowę, która będzie znacznie bardziej przemyślana, smukła i dopracowana. A następnie zobaczymy, możliwe, że po prostu odłożymy projekt do portfolio i przejdziemy do następnych.

_LM_ · Wrzesień 2, 2025

Skupiłbym się na utrzymaniu własnego serwera z wytrenowanym AI na potrzeby rozpoznawania głosu. Wtedy, jeśli urządzenia są odizolowanie od sieci zewnętrznej jest to do zrobienia. Na przykład:

https://alphacephei.com/en/

Edytowano Wrzesień 2, 2025 przez _LM_

ethanak · Wrzesień 2, 2025

@_LM_ wspominałem o tym wcześniej ale mogłeś nie zauważyć Vosk działa bardzo ładnie na zwykłym pececie bez gpu, podobno na większym rpi też się da uruchomić (tego akurat nie sprawdzałem). Ale pamiętaj, że transkrypcja to dopiero początek, teraz trzeba zrobić coś co zrozumie treść polecenia. To akurat da się od biedy zrobić bez AI... ale to nie temat do dyskusji w tym miejscu.

_LM_ · Wrzesień 2, 2025

No tak z głupotę napisałem, chciałem to kiedyś uruchomić na jakimś zalegającym złomie z androidem. Z resztą ostatnie aktualizacje były w 2022

Apollo – osobisty asystent głosowy DIY oparty na Raspberry Pi

Pomocna odpowiedź

mcjk

SOYER

ethanak

SOYER

voaom

mcjk

mcjk

_LM_

ethanak

_LM_

Bądź aktywny - zaloguj się lub utwórz konto!

Utwórz konto w ~20 sekund!

Zaloguj się

Quizy

Najnowsze posty w innych tematach

model fizyczny , wykonanie z jakich elementów wykonać prototyp odzwierciedlający

jak przesłac tablice przez rf24L01 1 2

Przeróbka TV z 230 V na 12 V

Projekt AICAT 1 2 3 4 7

Naprawa wkrętarki sieciowej EUROTEK ED229 - Problem z obracaniem wirnika

Inne