Google heeft zijn Lyra audiocodec bètabroncode vrijgegeven op GitHub, waardoor audioverwerking van ongelooflijke kwaliteit met lage bitsnelheid beschikbaar is voor alle ontwikkelaars. De codec is vooral handig in ingesloten situaties en situaties met beperkte bandbreedte waarin zoveel mogelijk gegevens moeten worden opgeslagen.
Lyra: Bijna niets klonk nog nooit zo goed
De audiocodec werkt volgens het principe van het leveren van de meest natuurlijk klinkende spraak met de laagst mogelijke gegevenssnelheid. Het slaagt erin bijna griezelige niveaus van audioweergave te creëren met bitrates van slechts 3 kbps. Google gebruikt al real-time Lyra-compressie in zijn Duo-app, hoewel het je niet kan worden verweten dat je je niet eens een verschil realiseert met gewone bandbreedteaudio.
Om aan te tonen hoeveel beter Lyra is dan andere codecs, geeft Google voorbeelden via een blogpost door de door Machine Learning aangedreven compressiecodec te vergelijken met andere 3 en 6 kbps alternatieven.
Het is een nacht per dag verschil, en ontwikkelaars de wereld over deze tools geven, zal een belangrijke drijfveer zijn voor het verbeteren van de communicatiekwaliteit waar bandbreedte schaars is. Het is ook een uitstekende motivator voor ontwikkelaars die nieuwe apps willen maken in opkomende markten, iets dat Google dit jaar zeker zal behandelen gratis virtuele Google I / O online conferentie.
De bètabroncode is momenteel ontworpen met 64-bits Arm-apparaten in gedachten, hoewel de voorbeelden ook op 64-bits x86 Linux-systemen zullen draaien. De broncode wordt volledig gedocumenteerd geleverd, hoewel het in bèta is, en de GitHub-pagina biedt installatie-instructies en hoe Lyra op Linux te bouwen voor Arm 64-bit-doelen.
Ga naar het Lyra GitHub-pagina.
Hoe werkt Lyra?
Hoewel het feitelijke proces dat Lyra gebruikt een ongelooflijk complexe combinatie is van machine learning-modellen waarop is getraind duizenden uren spraakgegevens en optimalisaties van bestaande audiocodec-technologie, de theorie is vrij gemakkelijk.
Elke 40 ms worden functies uit spraak gehaald en gecomprimeerd tot 3 kbps. Deze kenmerken vertegenwoordigen spraakenergiepunten over het frequentiespectrum die het dichtst bij de menselijke auditieve spraakrespons liggen - de dingen die we moeten herkennen en begrijpen wanneer iemand spreekt.
Het belangrijkste onderdeel van wat Lyra speciaal maakt, is hoe het deze informatie gebruikt:
Maar traditionele parametrische codecs, die eenvoudig uit spraak-kritische parameters halen die dan kunnen zijn gebruikt om het signaal aan de ontvangende kant opnieuw te creëren, lage bitsnelheden te bereiken, maar klinkt vaak robotachtig en onnatuurlijk. Deze tekortkomingen hebben geleid tot de ontwikkeling van een nieuwe generatie hoogwaardige audiogeneratieve modellen die dat wel hebben zorgde voor een revolutie in het veld door niet alleen onderscheid te kunnen maken tussen signalen, maar ook volledig nieuwe signalen te genereren degenen.
Na verzending bouwt Lyra de golfvorm opnieuw op door in te vullen wat er ontbreekt met behulp van dit proces, terwijl het op de een of andere manier niet al te computationeel complex is.
Aan de ene kant is het een technologisch wonder dat bijna overal kan worden gebruikt. Aan de andere kant ben ik er nog steeds niet 100% van overtuigd dat het geen hekserij is.
Google Duo is een van de beste apps voor videogesprekken die er zijn. Het heeft veel functies en hier zijn degenen waarvan we denken dat je ze echt zou moeten gebruiken.
Lees Volgende
- Tech Nieuws
- Android
- Machine leren
Ian Buckley is een freelance journalist, muzikant, performer en videoproducent en woont in Berlijn, Duitsland. Als hij niet aan het schrijven is of op het podium staat, knutselt hij aan doe-het-zelf-elektronica of code in de hoop een gekke wetenschapper te worden.
Abonneer op onze nieuwsbrief
Word lid van onze nieuwsbrief voor technische tips, recensies, gratis e-boeken en exclusieve deals!
Nog een stap…!
Bevestig uw e-mailadres in de e-mail die we u zojuist hebben gestuurd.