TTS Powtórka z rozrywki czyli gadające narzędzia w wersji odnowionej

ethanak · Kwiecień 29, 2025

Kolejny gadający sprzęt... ale może od początku.

Zaczęło się od tego, że moje (dość prowizoryczne) konstrukcje odmówiły wreszcie współpracy i trzeba to zrobić porządnie. A konkretniej - suwmiarka (chyba trzeci kolejny eksperymentalny model) i metrówka (to była straszna prowizora). Niestety - te "porządne" egzemplarze poszły w ludzi i trzeba usiąść i zrobić to od początku.

Postanowiłem zacząć od suwmiarki. Przede wszystkim - zgubiłem gdzieś klapkę od baterii, dodrukowana potrzebuje podkładania jakichś papierków żeby bateria chciała stykać - stwierdziłem więc, że będę suwmiarkę zasilać z akumulatora przystawki. W razie czego zawsze szybciej podładować akumulator niż zamawiać baterie w necie

Druga sprawa to synteza mowy. O ile stary dobry syntezator Klatta działa, jednak warto to trochę uwspółcześnić. Początkowo chciałem zastosować microlenę, ale zastosowanie pełnego systemu TTS to czytania paru cyferek uznałem za overkill.

Zrobiłem parę prób z nagraniem słów za pomocą RHVoice. Wyniki opiszę następnym razem razem z jakimś plikiemk dźwiękowym, ale próbna wersja gada całkiem nieźle.

Jednocześnie chcę umożliwić użycie smartfona do syntezy mowy. Co prawda Android 14 rządzi się jakimiś swoimi dziwnymi prawami jeśli chodzi o wybór silnika TTS przez aplikację, ale użycie nawet syntezy Samsunga może dla osoby widzącej być wygodniejsze niż wsłuchiwanie się w rachityczny głośniczek przystawki.

Postanowiłem zastosować XIAO S3 z uwagi na wielkość płytki (i wbudowaną ładowarkę). Kilka problemów jeszcze muszę rozwiązać, ale na początek zasilanie.

Chcę to zrobić w ten sposób jak na schemacie poniżej.

Diody D1 i D2 (akurat wyciągnięte z szuflady małe diody Zenera, ale mogą być normalne prostownicze) służą do obniżenia napięcia zasilania suwmiarki do ok. 1.5V. Diody D3 i D4 to powinny być Schottky z uwagi na niski spadek napięcia - akurat mam takie jednoamperowe, powinny wystarczyć. Układ służy do zasilania wzmacniacza MAX98357 albo z akumulatora, albo (jeśli podłączony jest kabel USB) z napięcia wejściowego. MAX ma dość szeroki zakres napięcia zasilania, działa zarówno z 3V (np. z dwóch ogniw AA) jak i za 5V z USB.

Tyle wstępu - na razie prośba: jeśli ktoś mógłby sprawdzić czy ten pomysł z zasilaniem nie ma jakichś błędów będę wdzięczny. A dalej spróbuję opisać moje boje z syntezą mowy - może komuś się przyda?

Na razie!

ethanak · Maj 2, 2025

No to teraz kolej na zabawę z syntezą.

Jak wspomniałem, nie chcę tu używać pełnego syntezatora, a po prostu nagrać pojedyncza komunikaty lub ich fragmenty. Robiłem to już kiedyś, ale tamta aplikacja nie mogła być publikowana z przyczyn licencyjnych - licencja Ivony do prywatnego użytku nie pozwalała na publikację wygenerowanych przez nią komunikatów.

Na szczęście dzisiaj sytuacja jest inna: RHVoice nie ma takich obostrzeń i mogłem go użyć do nagrań.

Teoretycznie sprawa jest prosta: nagrywamy komunikaty pozwalające złożyć z nich odczyt np. liczby, i odtwarzam we właściwej kolejności. Tyle, że to nie zawsze wystarczy.

Jako użytkownik "firmowych" gadających urządzeń mogę powiedzieć co mnie denerwuje. Np. mówiąca waga łazienkowa - mało, że strasznie ślamazarzy, to jeszcze wymawia poszczególne wyrazy bez najmniejszej próby jakiejkolwiek intonacji, robiąc przy tym potężne pauzy między wyrazami.

Postanowiłem więc zrobić coś lepiej.

Po pierwsze, potrzebna jest kontrola prędkości odtwarzania dźwięku. Bo przecież komuś może odpowiadać piękny głos lektora odczytującego powoli wynik pomiaru, ktoś inny będzie preferować dwukrotnie przyspieszony odczyt bo chce jak najszybciej poznać wynik.

Tu akurat skorzystałem z gotowego rozwiązania: Sonic, a konkretniej wersji sonic_lite. Niestety - nie wiem czemu funkcja sonicFlushStream kończy się sygnałem jedenastym na pececie lub restartem ESP32, postanowiłem nie wnikać w szczegóły i zamiast tego wrzucić do strumienia wejściowego fragment ciszy. Oczywiście bez flush Sonic utnie jakiś ostatni fragment, ale w tej sytuacji po prostu utnie ciszę (co będzie w praktyce niezauważalne).

Po drugie - intonacja. Teoretycznie da się stworzyć pełną melodię zdania, ale wymagałoby to nagrania każdego słowa w kilku różnych wersjach. Oczywiście to mało realne - przede wszystkim zabrakłoby pamięci, poza tym nie uśmiecha mi się ręczna obróbka kilkuset plików dźwiękowych. Na szczęście kiedyś ćwiczyłem to właśnie na Ivonie, i zastosowałem tu uproszczony sposób.

Słowa zapisuję w dwóch wersjach: z melodią opadającą i wznoszącą. Melodię wznoszącą uzyskuję poprzez dodanie pytajnika - nie jest to super doskonały sposób, ale na potrzeby odczytywania wyników pomiarów wystarczający. Teraz wystarczy tak skonstruować frazę, aby kończyła się wyrazem z melodią opadającą, a poprzedzające wyrazy miały na przemian melodię wznoszącą i opadającą. Efekt w załączniku - ciekawe, kto uzna to za lepszy sposób generowania zdania. W załączniku dwa konkretne przykłady: demovoice.zip

Oczywiście nie każdy musi to lubić - w gotowym urządzeniu będzie możliwość wyboru czy chcemy stosować skorygowaną melodię, czy nie.

Dla chętnych kod w Pythonie użyty przeze mnie do tworzenia plików dźwiękowych. Działa na Linuksie, wymaga:

zainstalowanego RHVoice z polskimi głosami (z githuba)
modułu rhvoice_wrapper (przez pip)
programu sox (z dystrybucji, może być konieczne dodanie formatów z libsox)

#!/usr/bin/env python3

import sys, struct, subprocess,os
args=sys.argv[1:]
dtrim = True
arg=args.pop(0)

if arg == '-n':
    arg=args.pop(0)
    dtrim=False
if arg not in ['natan','alicja','magda']:
    raise Exception("Zły głos %s" % arg)
voice = arg
fname=os.path.join(voice,args.pop(0))
if not os.path.exists(voice):
    os.mkdir(voice)
txt=args[0]
from rhvoice_wrapper import TTS
tts=TTS(threads=1,quiet=True)
tts.set_params(relative_rate=1.3)
vox=[]
vox=tts.get(text=txt,voice=voice,format_='pcm')
tts.join()
le=int(len(vox) / 2)
vox=struct.unpack('%dh' % le, vox)
    
if dtrim:
    for i in range(2,le):
        if abs(vox[i]) > 128:
            break
    beg=max(i-200,2)
#    print(beg,i)
    for i in range(le-10,beg,-1):
        if abs(vox[i]) > 128:
            break
    fin = min(i+200,le-10)
    print(fin,i,le)
else:
    beg=100
    fin=len(vox) - 100
vox=vox[beg:fin]
le=len(vox)
vox=struct.pack('%dh' % le, *vox)
p=subprocess.Popen(['sox','-t','raw','-e','signed-integer','-r','24000','-b','16',
    '-','-t','raw','-e','u-law','-r','16000',fname,'norm'],stdin=subprocess.PIPE)
p.communicate(vox)

Oczywiście to taka wstępna wersja programu, ale może komuś się przydać. Sposób wywołania:

python3.py [-n] głos nazwa 'komunikat'

Podanie parametru -n spowoduje, że nie będzie ucinana cisza przed i po komunikacie.

Jak widać, zrezygnowałem z głosu Cezary. Mówi bardzo ładnie, ale na koniec mówienia wydziela z siebie jakieś głębokie westchnienie i absolutnie nie miałem zamiaru bawić się w jego ucinanie, szczególnie że męski głos Natan jest dużo wyraźniejszy, szczególnie przy przyspieszeniu,.

I jeszcze jedno - już nie związane z syntezą.

Suwmiarka Vorel (do której jest przeznaczona przystawka) ma automatyczny wyłącznik. Program wykrywa że suwmiarka się wyłączyła, i co jakiś czas informuje 'brak sygnału'.

Ponieważ nie chcę tu wprowadzać żadnej dodatkowej automatyki typu usypianie (musiałbym dodać odcinanie napięcia od suwmiarki i wzmacniacza, bo nawet w trybie wyłączenia prąd jest za duży jak na urządzenie bateryjne). Zamiast tego jeśli suwmiarka nie jest używana, program prosi o wyłączenie urządzenia.

I tu pojawia się problem: po podłączeniu USB (do naładowania akumulatora) suwmiarka darłaby się informując o braku sygnału prosząc o wyłączenie...

Postanowiłem obejść to w najprostszy możliwy sposób: podłączyć pin 5V przez dzielnik do któregoś pinu (najbardziej by pasował GPIO4) i na num pojawiłoby się napięcie, zostałoby wyłączone anonsowanie braku sygnału i prośby o wyłączenie.

Ciekawe, co o tym sądzicie?

Tyle na dziś.

ethanak · Maj 3, 2025

Miało być o błędzie... a więc krótko.

Na razie kod jest jeszcze daleki od końcowej wersji, ale wszystko (w teorii) ładnie powinno działać. Oczywisście w pierwszej wersji wszystko się kręciło w loop, ale to tylko tak do sprawdzenia działania. Konkretniej:

Potrzebny mi jest czas zakończenia ostatniego gadania. Między innymi dlatego, że w trybie odczytu ciągłego powinny być jakieś pauzy mięzy kolejnymi odczytami.

Aby poznać czas zakończenia, użwsywam dwóch dodatkowych zmiennych. Pierwsza to msgSent ustawiana zawsze przy wysłaniu okmunikatu do syntezatora, druga to isSpeaking ustawiana przez sam syntezator. Czyli taki kod działał bezbłędnie:

if (msgSent && !isSpeaking) {
  msgSent = false;
  lastSpoken = millis();
}

Oczywiście była to tylko jedna z pierwszych wersji: pchanie wszystkiego do jednej pętli: odczyt klawisza, odczyt suwmiarki, syntezator, i (na razie nie zaimplementowany BLE) utkowało tym, że wszystko działało tak mniej więcej (czyli jak mały Kazio jeździł na łyżwach, mniej na łyżwach a więcej na d...)

Oczywistą rzeczą było rozdzielenie tego na dwa rdzenie. Napisanie kodu poszło szybko - w końcu trzba było dodać drugą pętlę a rdzeniu zero, obsługującą klawisz i syntezator. Jako że była to wersja bardzo wstępna pominąłem możliwość odebrania komunikatu jeśli mówiony jest poprzedni, po prostu zrobiłem w tym miejscu "stop".

I oczywiście wszystko przestało działać. Program przerywał mówienie dokładnie po sekundzie...

Ciekawe, czy ktoś się już zorientował gdzie popełnilem błąd...

Po prostu zmienna isSpeaking była ustawiana przez syntezator. W pojedynczej pętki nie mialo o znaczenia, ale ponieważ przesłanie komunikatu przez kolejkę i uruchomienie syntezatora zajmuje trochę czasu - główna pętla zdążyła już się przewinąć, i program potraktował isSpeaking ustawiony na false (bo syntezator nie zdążył jej jeszcze ustawić) jako koniec mówienia frazy.

Ocyzywiście poprawienie błędu było trywialne, ale chciałem po prostu pokazać jakie pułapki czyhają na programistów - i to nie tylko początkujących

ethanak · Maj 13, 2025

Prace idą do przodu.

Wczoraj udało mi się zmieścić to w obudowie razem z oryginalną anteną. Głośniczek 24x15x4 mm działa nadspodziewanie dobrze, głos jest nadspodziewanie wyraźny, musiałem dodać regulację głośności bo na pełnej strasznie się darł

Urządzenie jest na razie przypięte recepturką do suwmiarki - paski samoprzylepne są jednorazowe, a przewiduję jeszcze kilka razy dobrać się do wnętrza obudowy.

Nie podłączałem na razie zasilania samej suwmiarki - przy testach jest wygodniejsze zasilanie z wbudowanej baterii, poza tym muszę opracować coś co nie pozwoli na włożenie baterii do suwmiarki (może się to dla niej smutno skończyć).

Przy okazji powstaje wersja z językiem angielskim (dwa głosy, męski i żeński). Wersja polskojęzyczna operuje trzema możliwymi głosami (magda, michal, natan). Przy okazji: @romanro, Twoja Magda świetnie się sprawdza w takim zastosowaniu! Zrobiliście kawał dobrej roboty!

Ponieważ urządzenie pobiera zaledwie 36 mA jeśli nie gada i nie ma włączonego BLE - muszę kupić mniejszy akumulator (w tej chwili mam 450 mAh wyjęty z poprzedniej wersji, myślę że jakiś 250 - 300 mAh powinien wystarczyć).

Zastanawiam się jeszcze nad możliwością zablokowania BLE. Nie każdy tego potrzebuje, szczególnie że w ostatnich wersjach Androida nie da się ustawić takiego głosu jak chcę. Bez BLE konstrukcja się upraszcza bo nie trzeba kombinować z anteną...

Niestety nie mogłem dopaść elementów aby zrobić porządną płytkę. O ile regulator napięcia dla suwmiarki mogę zrobić na tranzystorze (akurat mam potrzebne w wersji SMD) - nie mam diod Schottky potrzebnych do zasilenia wzmacniacza. Szkoda - ale w wolnej chwili postaram się zrobić przynajmniej projekt, a sprawdzenie i wykonanie pozostawię chętnym

No nic, trzeba skończyć program, opublikować gotowy projekt i myśleć nad ulepszeniami

ethanak · Maj 19, 2025

Ale się ładnie nabrałem!

Zrobiłem piękny końcowy projekt obudowy, wydrukowałem, wsadziłem elektronikę, zamknąłem, przykleiłem, i...

...i okazało się, że po podłączeniu kabla USB nie mam praktycznie dostępu do wyłącznika. Znaczy się... dostęp niby jest, ale mniej więcej taki jak w XIAO S3 do przycisków r/b. Czyli tak jakby zgodnie z zastosowaną płytką

Na szczęście gdzieś na dnie szuflady został jeszcze jeden pasek samoprzylepny - po przeniesieniu wyłącznika na drugą stronę obudowy zrobiło się jakoś wygodniej

Może podesłać pomysł kolesiom z Seeeeeeeedstudio?

No cóż - tu już w elektronice grzebać nie będę, trzeba lecieć dalej z programem. Ciekawostka: RHVoice z głosem kilkanaście MB brzmi jakieś dziesięć razy naturalniej i czytelniej niż piper-tts z prawie 200 MB. Zdaje się że ta fascynacja AI zaczyna wychodzić bokiem...

ethanak · Maj 20, 2025

No cóż - trzeba zacząć się chwalić czymś gotowym.

Postanowiłem nie czekać aż dopieszczę program: nie wiem kiedy skończę, ale dziś mogę pokazać coś działającego.

Przypominam: przystawka pasuje do suwmiarki Vorel oraz do tejże firmy miernika głębokości bieżnika.

Ale przede wszystkim kod: demosuw.zip

Kod zawiera dwie wersje językowe, wybierane w pliku i18n.h poprzez zakomentowanie linii:

#define VOICE_IS_PL

Zakomentowanie tej linii spowoduje skompilowanie angielskiej wersji.

Obie wersje zawierają po dwa głosy (męski i żeński).

Czujnik ładowania jest wyłączony, jeśli ktoś koniecznie chce może w pliku common.h zakomentować/odkomentować linie:

// wyłącznie czujnika ładowania
#define DISABLE_CHARGER

// wyłączenie bluetooth
#define DISABLE_BLE

Potrzebna jest jedynie biblioteka ESP8266Audio (najlepiej w najnowszej wersji). Program został skompilowany z wersją board 3.2.0, ale powinien działać z dowolną wersją 3.x (powinien... nie znaczy że będzie). Ustawienia powinny być następujące:

Układ został uproszczony do celów demonstracyjnych. Zamieszczam zarówno schemat, jak i słitaśną focię sztucznym sposobem Frtzlingiem uczynioną Układ pinów został tak dobrany, aby można było w prosty sposób zmieścić układ na najmniejszej płytce stykowej 170 otworów.

Kondensatory C1 i C2 mogą mieć od 10 do 100 nF, w moim urządzeniu zastosowałem 8.2 nF (bo takie miałem w szufladzie) i nie zauważyłem błędów odczytu.

W załączniku znajduje się plik STL wtyczki - powinna być wydrukowana z TPU, najlepiej z warstwą mniejszą niż 0.2mm. Osadzenie końcówek przewodów we wtyczce pokazują zdjęcia (przepraszam za jakość, ale nie mam czym zrobić lepiej). Ja po prostu odizolowałem dłuższe końce taśmy AWG28, pocynowałem, włożyłem w otwory i po podgięciu odciąłem zbędne fragmenty. Wtyczka działa bez problemu od dłuższego czasu.

I jeszcze o przycisku.

Układ reaguje na pojedyncze kliknięcie, przytrzymanie, podwójne kliknięcie oraz kliknięcie z przytrzymaniem. W przypadku przytrzymania reakcja następuje po przekroczeniu czasu a nie dopiero po puszczeniu klawisza, co w przypadku pojedynczego przycisku jest wygodniejsze (nie trzeba się zastanawiać czy wystarczająco długo trzymamy klawisz). W normalnym trybie:

kliknięcie - wyzwolenie odczytania w trybie odczytu zmian i odczytu na żądanie;
przytrzymanie - zmiana trybu: czytanie ciągłe, czytanie zmian, czytanie na żądanie, tryb ładowania (cichy)
podwójne kliknięcie - odczyt stanu akumulatora
kliknięcie z przytrzymaniem - wejście w tryb ustawień.

W trybie ustawień:

kliknięcie - zmiana wartości
podwójne kliknięcie - zmiana ustawienia
przytrzymanie - zapis wybranych ustawień

Jeśli po 10 sekundach od ostatniego wciśnięcia przycisku nie nastąpi polecenie zapisania, zostaną przywrócone poprzednie wartości.

To chyba tyle z najważniejszych informacji...

Obudowa następnym razem!

ethanak · Maj 25, 2025

Specjalnie dla kolegi @Santiago fragment filmu. Wersja bardzo robocza oczywiście.

ethanak · Czerwiec 2, 2025

No cóż - suwmiareczka jest skończona, teraz trzeba tylko jakiś ładny opis zrobić i wrzucić na githuba. Pewnie do końca tygodnia sobie z tym poradzę.

Oczywiście temat gadających urządzeń jest cały czas aktualny, równocześnie z dokumentacją suwmiarki powstaje projekt metrówki z poziomicą, a jeśli mi starczy cierpliwości to jeszcze wagi

ethanak · Czerwiec 14, 2025

Właśnie stwierdziłem, że w plikach .scad będę komentował każdą linijkę... metrówka i rozstaw śrub

ethanak · Czerwiec 20, 2025

No to połowa obudowy do metrówki już jest (na razie w postaci STL). Co prawda korzystałem ze starego projektu, ale modyfikacje były dość poważne...

Co takiego wyszło:

Przy okazji - gadająca suwmiarka okazała się niezastąpiona!

ethanak · Czerwiec 23, 2025

No i udany wydruk dolnej części obudowy. Już za drugim razem - jak się robi przedział na akumulator to warto uwzględnić że tam są jeszcze jakieś ścianki, a włożenie ESP32 jest możliwe o ile uwzględni się, że którędyś to nieszczęsne gniazdko USB trzeba upchać a 2 mm PLA nie jest specjalnie elastyczny

Klawiaturka pasuje (musiałem użyć śrubek M2x12 bo planowane M2x10 co prawda pasowały, ale za nic nie dało się nakrętki nakręcić). Działa rolka pomiarowa do metrówki i oczywiście klawiatura.

Na dziś dość! Trzeba kończyć płytkę z tzw. elektroniką

H1M4W4R1 · Czerwiec 23, 2025

Dnia 20.06.2025 o 15:13, ethanak napisał:

Tak z ciekawości: fazujesz brzegi obudowy czy nie? Z doświadczenia wiem, że lepiej to robić, bo inaczej rogi potrafią całkiem dobrze robić za nóż... Nie mogę tego wywnioskować z fotki...

Edytowano Czerwiec 23, 2025 przez H1M4W4R1

ethanak · Czerwiec 23, 2025

21 minut temu, H1M4W4R1 napisał:

fazujesz brzegi obudowy czy nie?

To zależy - w tym przypadku akurat nie, ale jak wspominałem korzystałem z poprzedniego projektu i nie chciało mi się kombinować. Zresztą i tak gratownik się przydaje, tu akurat nie musiałem używać.

Poza tym dwie linijki więcej w kodzie... za dużo pisania

ethanak · Lipiec 18, 2025

No - cała konstrukcja ukończona i sprawdzona. Teraz tylko dopieścić kod...

Tak to wygląda z założonym zwijakiem:

ethanak · Lipiec 30, 2025

No i cóż - znów rabatu z Botlandów nie dostanę (na szczęście w tym miesiącu kupuję u konkurencji). Powód prosty: za mało miałem czasu na zrobienie porządnego opisu... szczególnie na githuba.

Ale może to projektowi wyjdzie na zdrowie

TTS Powtórka z rozrywki czyli gadające narzędzia w wersji odnowionej

Pomocna odpowiedź

ethanak

ethanak

ethanak

ethanak

ethanak

ethanak

ethanak

ethanak

ethanak

ethanak

ethanak

H1M4W4R1

ethanak

ethanak

ethanak

Bądź aktywny - zaloguj się lub utwórz konto!

Utwórz konto w ~20 sekund!

Zaloguj się

Quizy

Najnowsze posty w innych tematach

Model fizyczny - wykonanie z jakich elementów wykonać prototyp... 1 2 3 4 6

Jaka drukarkę 3d do drukowania figurek

Ładowanie akumulatora 18V adapterem 12V 1 2

Kurs Arduino - #3 - UART (komunikacja z PC), zmienne 1 2 3 4 47

Ciekawe filmy (elektronika, mechanika, robotyka) 1 2 3 4 62

Inne