ElevenLabs – „Sztuczna Inteligencja” czyta, tłumaczy i dubbinguje filmy?
W publikacji „Sztuczna Inteligencja w klonowaniu ludzkiego głosu i kreacji wirtualnych gwiazd muzycznych” przedstawiłem kilka skryptów, które mogą Wam pomóc w klonowaniu głosu oraz tworzeniu treści audio na podstawie podanego tekstu. Tym razem jednak skupimy się na jednym, lecz ciekawym, stworzonym przez Polaków narzędziu, które pozwala zamieniać tekst na mowę z wykorzystaniem komputerowych czy wygenerowanych przez nas głosów – również na podstawie naszych własnych próbek. Dodatkową opcją jest automatyczne tworzenie dubbing filmów na 29 dostępnych w systemie języków. Niestety część z tych funkcji wchodzi jedynie w pakiet subskrypcyjny, dziś jednak zajmiemy się tymi, które możemy uzyskać za darmo!
Mimo komercyjnego charakteru projektu, część całkiem przydatnych rozwiązań dostępna jest za darmo – dla celów niekomercyjnych. Są nimi m.in. konwersja tekstu na mowę i mowy na mowę z wykorzystaniem dostępnych w bazie modeli głosów (obsługujących 29 języków, w tym także język polski), ograniczony automatyczny dubbing filmów oraz wykrywanie czy dany głos był wygenerowany przez „AI”. Co najważniejsze, jakość wymowy może być satysfakcjonująca, a w przeciwieństwie do innych rozwiązań tego typu, wygenerowany głos nie posiada aż tak mocnego pogłosu. Całość zamknięta jest w postaci strony internetowej, dlatego nie będą wymagane dodatkowe instalacje. Poniżej pełen opis rozwiązania.
Rejestrować się czy nie?
Z oprogramowania można korzystać w ograniczonym zakresie bez rejestracji – po prostu wchodząc na stronę producenta. Niestety wtedy jesteśmy ograniczeni czasowo jedynie do wygenerowania limitowanej ilości zapytań (sumarycznie do około 2000 znaków), z maksymalną granicą 333 znaków na zapytanie. Po przekroczeniu limitu naszym oczom ukaże się komunikat o blokadzie IP na ten dzień i zachęcie do rejestracji darmowego konta. Dzięki niemu możemy wykorzystać więcej narzędzi czy zwiększyć miesięczny limit. By się zarejestrować:
- Wchodzimy na stronę projektu https://elevenlabs.io/.
- W prawym górnym rogu wybieramy przycisk „Sign Up”.
- Wypełniamy formularz o email i hasło, następnie potwierdzamy rejestrację na e-mailu.
Rejestracja nie wymaga podawania numeru telefonu.
Zamiana tekstu na mowę bez rejestracji:
Tak jak wspomniałem, podstawowego narzędzia przemiany tekstu na mowę z wykorzystaniem preinstalowanych modeli głosu możemy używać bez konieczności rejestracji. W tym celu musimy wejść na stronę https://elevenlabs.io/, w polu tekstowym wprowadzić interesującą nas treść, którą lektor ma przeczytać, z dostępnej puli wybrać imię cyfrowego lektora i kliknąć przycisk odtwarzania.
Gdy wypowiedź się wygeneruje, automatycznie zostanie odtworzona, a my będziemy mogli pobrać ją w postaci pliku *.mp3. Bez rejestracji niestety jesteśmy ograniczeni czasowo do generowania maksymalnie około 2000 znaków, z maksymalną ilością 333 znaków na zapytanie. Po ich wykorzystaniu dostaniemy blokadę dla naszego IP.
Poniżej próbka wygenerowana bez rejestracji:
Zamiana tekstu na mowę i mowy na mowę po rejestracji:
Po rejestracji, do dyspozycji otrzymamy nieco większy wachlarz narzędzi oraz pełną bazę wygenerowanych lub „profesjonalnych” głosów do wykorzystania. Pierwszą ze zmian będzie rozszerzona wersja zamiany tekstu na mowę (Text to Speech) oraz mowy na mowę (Speech to Speech). Funkcja ta znajduje się pod przyciskiem „Speech” w lewym górnym menu. Na początku pracy z narzędziem wybieramy czy naszą bazą wejściową będzie tekst czy plik audio/nagranie z mikrofonu, a następnie ustawiamy parametry głosu, który przeczyta naszą treść.
Do dyspozycji mamy zwiększony limit znaków do 2500 na zapytanie oraz miesięczny limit znaków do 10000. Co jednak jest istotne, tym razem poza preinstalowanymi głosami możemy w darmowym modelu wykorzystać także wcześniej stworzone profesjonalne lub generowane głosy (w przypadku płatnego abonamentu możemy także wygenerować własny model na podstawie próbek naszego głosu). Dodatkowo po rejestracji zyskujemy większą liczbę ustawień preferencji głosu lektora. Zmienić możemy zarówno spójność wymowy, jej przejrzystość i prędkość – opcje te dostępne są w zakładce „Voice Settings”.
Po wybraniu parametrów, w przypadku zamiany tekstu na mowę, w polu tekstowym wpisujemy interesującą nas treść lub dla zamiany mowy na mowę dostarczamy plik audio z wypowiedzią – ewentualnie nagrywamy ją mikrofonem. Na koniec klikamy „Generate” i czekamy na efekt. Wygenerowaną wypowiedź możemy odsłuchać albo pobrać z panelu historii nagrań umieszczonego po prawej stronie.
Poniżej próbka wygenerowana po rejestracji:
Wybieranie głosów z gotowej biblioteki oraz generowanie własnych modeli:
W darmowym pakiecie możemy skorzystać z gotowej bazy głosów udostępnionych przez innych użytkowników lub wygenerować własny model na podstawie wybranych parametrów. Do wyboru mamy zarówno głosy generowane, jak i profesjonalne, by z nich skorzystać, klikamy „Voices” w lewym górnym menu.
Głosy dzielimy na generowane – w pełni wygenerowane przez skrypt strony na podstawie podanych parametrów oraz profesjonalne – bazujące na próbkach dźwięku pobranych od realnych lektorów. Niestety profesjonalne głosy nie zawsze dobrze radzą sobie z językiem polskim, dlatego generowane mogą być lepszym wyborem.
By dodać do listy jeden z głosów z biblioteki, musimy w menu „Explore” wyszukać interesujący nas głos, a następnie klikamy przycisk „Add to VoiceLab”. Możemy też stworzyć własny model wybierając w menu „Create”, a następnie ustalając płeć, wiek, akcent oraz jego siłę, po czym klikamy „Generate”. Gdy efekt nas zadowoli, wybieramy „Use Voice”, by dodać go do naszej listy. W darmowym pakiecie możemy przypisać jednoczasowo jedynie 3 generowane lub wybrane z biblioteki głosy. Jeżeli chcemy skorzystać z kolejnych, będziemy musieli usunąć poprzednie.
Dubbing, czyli automatyczne dźwiękowe tłumaczenie filmów wideo:
Kolejnym narzędziem jest tzw. „Dubbing”. Służy ono do automatycznego dźwiękowego tłumaczenia filmów wideo. Niestety w wersji darmowej jest ono mocno ograniczone i pozwala jedynie na wygenerowanie nagrania, które oznaczone będzie znakiem wodnym programu oraz głosowymi wstawkami informującymi o kupnie subskrypcji. Koszt każdej wygenerowanej minuty nagrania, to 2000 znaków z naszego licznika. Niestety w moim przypadku zmiana z języka polskiego na angielski wykonała się bardzo źle, gdyż słowa były źle czytane, a akcent był mocno „rosyjski”.
Wykrywanie mowy wygenerowanej przez AI:
Ostatnim darmowym narzędziem jest wykrywanie mowy AI, znajdziemy je w pozycji „AI Speech Classifier”, pod menu „Tools”. Pozwala na sprawdzenie, czy dane nagranie audio-wideo, które prześlemy jest wygenerowane przez „Sztuczną Inteligencję”. Niestety w moim przypadku próby wgrania nagań, które wygenerowałem podczas tworzenia poprzedniego artykułu przy pomocy „Real-Time-Voice-Cloning” wskazywały bardzo małe prawdopodobieństwo, że zostały one wygenerowane przez AI lub zmanipulowane. Program określił to prawdopodobieństwo na poziomie 2%. Co niestety niepokoi, gdy mowa o nagraniu, które zaraz po uruchomieniu brzmi jak wygenerowane. Osobiście nie przywiązywałbym do tego narzędzia dużej wagi w poszukiwaniu manipulacji.
Autor: Daniel 'zoNE’ Gabryś