Whisper GUI, czyli „Sztuczna Inteligencja” automatycznie generuje i tłumaczy napisy do filmów
„Sztuczna Inteligencja” chyba na dobre zadomowiła się w naszych środowiskach, a my przy jej pomocy zaczynamy coraz bardziej ułatwiać sobie życie. Ostatnimi czasy bardzo popularne stało się automatyczne generowanie i tłumaczenie napisów do filmów przy pomocy tzw. „AI”. Na początku proces ten wymagał instalacji środowiska Python oraz podstawowej jego znajomości, co w przypadku średnio zaawansowanych użytkowników mogło budzić obawy. Teraz jednak sprawa staje się prostsza dzięki gotowym aplikacjom, które nie wymagają nawet instalacji. Jedną z nich jest Whisper GUI, dzięki któremu w kilka kliknięć możemy wykonać naszą pracę związaną z tworzeniem napisów do filmów. Jak sama nazwa wskazuje, wykorzystuje ona znany model Whisper.
Pamiętać musimy jednak, że obojętnie jak wytrenowane by nie były obecne modele, to często popełniają błędy lub „halucynują”. W przypadku generatorów tekstu problem dotyczyć może zarówno błędnego rozpoznania słów, złego tłumaczenia, jak i zastosowanej interpunkcji. Podstawą pracy z automatycznymi skryptami jest więc kontrola człowieka, bo nic bardziej nie irytuje, jak napisy ze słowami, których w ogóle nie powinno tam być. Niestety większość osób nie zwraca na to uwagi, dlatego przestrzegam, że opisane tutaj narzędzie jest wyłącznie pomocą w tworzeniu napisów, a nie rozwiązaniem wszystkich problemów. Poniżej pełen opis pobierania oraz wykorzystania programu.
Pobieranie:
Aplikacja nie wymaga instalacji, by zacząć jej używać musimy wykonać następujące czynności:
- Pobierz program „Whisper GUI” ze strony producenta: https://grisk.itch.io/whisper-gui – klikając przycisk „Download”.
- Po pobraniu rozpakuj plik „Whisper GUI 0_1.zip”, a program będzie już gotowy do pracy.
Użytkowanie:
Whisper GUI to mocno intuicyjna aplikacja, dzięki czemu zapoznanie się z jej funkcjonalnością nie zajmie wiele czasu. UWAGA! Do poprawnego działania wymagane jest posiadanie karty graficznej firmy NVIDIA. Poniżej instrukcja jak wykonać swoje pierwsze napisy.
- Gdy mamy już rozpakowany program, z folderu aplikacji uruchamiamy plik „Whisper GUI.exe”.
- W oknie aplikacji wybieramy opcję „Input Video(s)”, a następnie wskazujemy ścieżkę do nagrania, dla którego chcemy wykonać napisy.
- Po wyborze nagrania, zaznaczamy model, z którego będziemy korzystać. Tworząc napisy w języku polskim, z listy „Model to use” najlepiej wybrać model „medium: Medium Model. Required VRAM ~5 GB” lub wyższy, natomiast jeżeli w języku angielskim, to „medium.en: Medium Model. English-Input-only. Required VRAM ~5 GB” lub oczywiście wyższy. Kiedy nasz komputer nie spełnia wymagań danego modelu, to zmieniamy go na niższy, lecz obniży to jego dokładność.
- W polu „Original Language” wybieramy język nagrania – w przypadku języka polskiego wybieramy „polish”, dla angielskiego „english”. Jeżeli po prostu chcemy wykonać transkrypcję w tym samym języku, w którym jest nagranie, to opcja „Translate Output to English” powinna być odznaczona, jeżeli natomiast chcemy dokonać translacji, to dodatkowo zaznaczamy powyższe pole.
- Na koniec wybieramy format, w jakim mają być zapisane napisy, czyli *.txt, *.vtt albo *.srt – polecam ten ostatni, gdyż jest najbardziej popularny.
- Po wybraniu wszystkich parametrów klikamy „Generate Text from Video/Audios” i czekamy, aż proces się zakończy. Aplikacja automatycznie pobierze pliki modelu (jeżeli wcześniej ich nie pobraliśmy), a następnie rozpocznie proces generowania napisów. Przy ponownym uruchomieniu program zapamiętuje wcześniejsze ustawienia. Czas generowania napisów zależnie od sprzętu może trwać od kilkunastu minut do kilku godzin.
Poniżej fragment przykładowych napisów wygenerowanych przy pomocy modelu Whisper.
Autor: Daniel 'zoNE’ Gabryś