Skocz do zawartości

Apollo – osobisty asystent głosowy DIY oparty na Raspberry Pi


Pomocna odpowiedź

  • 3 tygodnie później...

Podoba Ci się ten projekt? Zostaw pozytywny komentarz i daj znać autorowi, że zbudował coś fajnego!

Masz uwagi? Napisz kulturalnie co warto zmienić. Doceń pracę autora nad konstrukcją oraz opisem.

Cześć, na początek gratulacje świetnego pomysłu, wykonania, dużego zaangażowania w pracę, a przede wszystkim tego, że Wam chłopaki się chce coś ciekawego zrobić.

Teraz moje pytanie do Was, ale i innych użytkowników tego forum, jeśli pozwolicie trochę mojej prywaty w Waszym temacie. Jak się rozwinie to obiecuję się przenieść do własnego wątku.

Interesuje mnie ten punkt:

  • rozpoznawanie i generowanie mowy (STT i TTS) przez użycie API firm Google i OpenAI,

ale bez generowania mowy(na razie?).

Czy w moim projekcie, opartym na esp32s3 dało by się dołożyć takie rozpoznawanie mowy i reakcję na komendy. Czy to przekracza możliwości esp32. 

To bardziej byłby projekt szkoleniowy(dla mnie) niż użyteczny, ale fajnie byłoby powiedzieć „hej 32, otwórz bramę garażową”, jednocześnie wiedząc, że wielki brat nie podsłuchuje mnie przez kolejne urządzenie w domu;)

 

  • Lubię! 1

@SOYER niestety - esp32 potrafi niewiele poza przekazaniem tego co powiedziałeś do serwera googla (i tak działa opisywany w wątku system). Jest co prawda możliwość rozpoznawania pewnych słów kluczowych, ale bardzo ograniczona. Poza tym zrozumienie zdania nawet po transkrypcji przekracza jego możliwości.

Jeśli masz jakąś większą maszynę działającą non stop możesz spróbować - do transkrypcji vosk (whisper to overkill), rozpoznanie znaczenia zdania da się zrobić bez AI.

Ale na "gołym" esp nie ma szans.

Wiem, że, być może, wyraziłem się niezbyt precyzyjnie. Piszę z telefonu i nie chciałem się rozpisywać. Ja nie chcę by esp32 samo rozpoznawało mowę i reagowało na to „rozpoznanie”.

Chcę by, tak samo(?) jak w projekcie autorów wątku, jeśli dobrze go rozumiem, esp32s3 wysyłało to co „usłyszało” na serwer(google?) i po zwrocie z serwera rozpoznania tego co usłyszało, wyedy już samo esp32 zareagowało na wynik.

 

  • 2 tygodnie później...
Dnia 18.08.2025 o 17:25, SOYER napisał:

Cześć, na początek gratulacje świetnego pomysłu, wykonania, dużego zaangażowania w pracę, a przede wszystkim tego, że Wam chłopaki się chce coś ciekawego zrobić.

Teraz moje pytanie do Was, ale i innych użytkowników tego forum, jeśli pozwolicie trochę mojej prywaty w Waszym temacie. Jak się rozwinie to obiecuję się przenieść do własnego wątku.

Interesuje mnie ten punkt:

  • rozpoznawanie i generowanie mowy (STT i TTS) przez użycie API firm Google i OpenAI,

ale bez generowania mowy(na razie?).

Czy w moim projekcie, opartym na esp32s3 dało by się dołożyć takie rozpoznawanie mowy i reakcję na komendy. Czy to przekracza możliwości esp32. 

To bardziej byłby projekt szkoleniowy(dla mnie) niż użyteczny, ale fajnie byłoby powiedzieć „hej 32, otwórz bramę garażową”, jednocześnie wiedząc, że wielki brat nie podsłuchuje mnie przez kolejne urządzenie w domu;)

 

Dziękujemy za docenienie projektu! Przepraszam też za późną odpowiedź. Przesyłanie danych to jedno, ale nagrywanie danych z mikrofonu może być większym problemem dla ESPa. Plus, wtedy "duży brat" może Cię podsłuchiwać, bo w końcu ten nagrany dźwięk jest przetwarzany przez Google.

Dnia 27.08.2025 o 21:07, voaom napisał:

Gratulacje macie jakieś plany rozwoju

Dziękujemy za komentarz! Tak, w tym momencie przygotowujemy się do konferencji SPA IEEE 2025, która odbędzie się 17 września w Centrum Mechatroniki, Biomechaniki i Nanoinżynierii Politechniki Poznańskiej. Przygotowujemy do tego czasu dużo nowych opcji, całkowicie nowy system wybudzania głosowego z dedykowanym modelem od DaVoice (działający w pełni lokalnie), więcej wspieranych modeli z wielu dostawców (w tym z serii Gemini oraz Claude), oraz przede wszystkim całkowicie nową obudowę, która będzie znacznie bardziej przemyślana, smukła i dopracowana. A następnie zobaczymy, możliwe, że po prostu odłożymy projekt do portfolio i przejdziemy do następnych.

  • Lubię! 1
(edytowany)

Skupiłbym się na utrzymaniu własnego serwera z wytrenowanym AI na potrzeby rozpoznawania głosu. Wtedy, jeśli urządzenia są odizolowanie od sieci zewnętrznej jest to do zrobienia. Na przykład:

https://alphacephei.com/en/

Edytowano przez _LM_

@_LM_ wspominałem o tym wcześniej ale mogłeś nie zauważyć 🙂 Vosk działa bardzo ładnie na zwykłym pececie bez gpu, podobno na większym rpi też się da uruchomić (tego akurat nie sprawdzałem). Ale pamiętaj, że transkrypcja to dopiero początek, teraz trzeba zrobić coś co zrozumie treść polecenia. To akurat da się od biedy zrobić bez AI... ale to nie temat do dyskusji w tym miejscu.

  • Lubię! 1

No tak z głupotę napisałem, chciałem to kiedyś uruchomić na jakimś zalegającym złomie z androidem. Z resztą ostatnie aktualizacje były w 2022 

Bądź aktywny - zaloguj się lub utwórz konto!

Tylko zarejestrowani użytkownicy mogą komentować zawartość tej strony

Utwórz konto w ~20 sekund!

Zarejestruj nowe konto, to proste!

Zarejestruj się »

Zaloguj się

Posiadasz własne konto? Użyj go!

Zaloguj się »
×
×
  • Utwórz nowe...