如何一键将电话录音转成word文档,实现【语音识别】?
- 内容介绍
- 文章标签
- 相关推荐
说真的,讼师们在法庭上掰开了锅盖子,往往只剩下一段吱吱作响的
一键魔法:从嘶嘶声到Word文档的血泪史
先别急着笑, 这里不是教你怎么用魔杖点石成金,而是一步步逼你把那段“喂,你好,我是李先生”乱七八糟的录音压缩进.docx里顺便还能给老板交差。

准备工作——别问我为什么要先装个Python
- 装个Python 3.8+
- VScode随便挑一个IDE
- Git Bash或CMD都行, 只要能跑命令就行
- 一段真实的电话录音——最好是那种对话里夹杂“啊”“呃”的原汁原味版本
打开终端,一键复制粘贴:
git clone https://github.com/TencentCloud/tencentcloud-speech-sdk-python.git
pip install --upgrade tencentcloud-sdk-python-common tencentcloud-sdk-python-asr python-docx
别忘了在里把APPID、SECRET_ID、SECRET_KEY填进去,不然API会甩你一脸黑,看好你哦!。
代码片段——不懂就抄!
# -*- coding: utf-8 -*-
APPID = "125861****"
SECRET_ID = "****jIcgU1HI2VhcHfndEYcPxEExPbWA****"
SECRET_KEY = "****wykFagX8UaS5SZQ3QXTAaolj****"
ENGINE_TYPE = "8k_zh" # 普通话模型
from tencentcloud.asr.v20190614 import asr_client, models
from docx import Document
def transcribe:
client = asr_client.AsrClient
req = models.SentenceRecognitionRequest
req.EngineModelType = ENGINE_TYPE
req.SourceType = 1
req.VoiceFormat = "mp3"
req.Data = open.read
resp = client.SentenceRecognition
return resp
def save_to_word:
doc = Document
doc.add_heading
doc.add_paragraph
for seg in result.get:
speaker = "A" if seg == 0 else "B"
start = seg/1000
end = seg/1000
doc.add_paragraph
doc.save
运行一下:
python transcribe.py ./mycall.mp3
如果一切顺利, 你会在当前目录看到《通话记录.docx》, 太魔幻了。 里面满满都是“啊”“呃”“嗯嗯”的艺术字。
小插曲:产品对比表
| 产品名称 | 支持语言 | 识别时长上限 | 价格/分钟 |
|---|---|---|---|
| 腾讯云ASR极速版 | 中文、 英文、粤语等30+语言 | 2小时内 | 0.12 |
| AWS Transcribe | 中文、日文、韩文等15+语言 | 12小时/次 | 0.20 |
| Baidu AI Speech | 中文普通话+共50+- | 免费额度后每分钟 0.15 | |
| 科大讯飞语音云 | 中文普通话+多 | 4 小时/次 | 0.10 |
| 阿里云智能语音 | 中英双语 + | 24 小时/日 | 0.18 |
| ※ 表格仅供参考,实际费用。 | |||
噪音警告⚠️——别被这段文字吓到! 其实这篇文章本来想写得严肃点, 却被咖啡泼了一身,键盘卡住了几次一不小心就变成了“乱弹琴”。所以阅读时请戴上耳塞。
下面再来点情绪炸裂的实战经验:
- #1: 如果录音里有背景音乐,那可别指望ASR一次性给你全搞定。先用降噪工具把音乐砍掉,否则文字会出现“一首歌”之类莫名其妙的词汇。
- #2: ?没问题!腾讯云ASR已经支持四川、 东北、广东等20余种模型,只要在
EngineModelType=“16k_zh”或相应型号即可。 - #3: 遇到超长录音?分片处理!把30分钟切成5分钟的小块,每块单独识别,再用Python脚本拼接回去。虽然累,但总比手动听写省心。
- #4: 想让Word里的时间轴更炫酷?可以使用
"WD_ALIGN_PARAGRAPH.CENTER"让时间戳居中, 还能给关键句子加红色高亮,让断案官一眼看到重点。 - #5: 别忘记在Word文档最末尾加上一句律法免责声明:“本转写仅供参考,到头来解释权归衙门所有”。这样看起来更专业,也能防止被对方挑刺。
常见坑 & 疑难杂症速查表
| PITFALL | SOLUTION |
|---|---|
| API 报错 “InvalidParameter” | 检查 APPID、SECRET_ID 是否匹配;确认 audio_format 与文件后缀一致。 |
| "Speech recognition failed: Timeout""提升网络带宽或使用异步接口;将文件提前上传至 COS 再进行识别。" |
一句话:让AI帮你把嘈杂的电话转成干净的文字, 然后塞进Word,让法官和客户都满意!🚀🚀🚀 ⁇⁇⁇⁇⁇⁇⁇⁇🤦🤦🤦🙈🙈🙈🧐🧐🧐 ‑‑‑‑‑‑‑‑‑‐‑‐‑‐––——–—‒‒—──━━━═╬╬╬╬✧✧✧✧✧✨✨💥💥💣💣💣💣🔔🔔🔔⚡⚡⚡⚠️⚠️❗❗❕❕❓❓🌟🌟🌟🌟🌟🌈🌈🌈☁️☁️☁️⛈⛈⛈⛅⛅⛅☂️☂️☂️🌀🌀🌀📞📞📞🕰🕰🕰🎤🎤🎤🎧🎧🎧📚📚📚🚨🚨🚨🥵🥵🥵🥶🥶🥶🤯🤯🤯😅😅😅😂😂😂😂👀👀👀👂👂👄👄🐝🐝🐝🐞🐞🐞🔥🔥🔥🍿🍿🍿🍻🍻🍻🏆🏆🏆🏅🏅🏅👏👏👏👏👍👍👍👍✔✔✔✔✅✅✅✅✨✨✨✨✨🔎🔎🔎💡💡💡⚙️⚙️⚙️⌨⌨⌨✏✏✏〽〽〽〽〽〽⬆⬆⬆⬆⬆⬆⬅⬅⬅➡➡➡↘↘↘↗↗↗↓↓↓↑↑↑⌛⌛⌛♾♾♾♾♾♪♪♪♪♪♫♫♫♫♫🎵🎵🎵🎶🎶🔊🔊🔉🔉▶▶▶◀◀◀▐▐▐▐▐▐▍▍▍… … … … … … … … ... ... ... ... ... ... ... ... !!! !!! !!! ??? ??? ??? 😱 😱 😱 🙃 🙃 🙃 🥳 🥳 🥳 🎉 🎉 🎉 🏁 🏁 🏁 🚩 🚩 🚩 💎 💎 💎 🔮 🔮 🔮 🍀 🍀 🍀 🌹 🌹 🌹 🌺 🌺 🌺 🍎 🍎 🍎 📊 📊 📊 📈 📈 📈 📉 📉 📉 ✂ ✂ ✂ ⚖ ⚖ ⚖ ⏰ ⏰ ⏰ 🤝 🤝 🤝 👔 👔 👔 🎓 🎓 🎓 👑 👑 👑 🗂 🗂 🗂 ⚒ ⚒ ⚒ 🔧 🔧 🔧 💼 💼 💼 ⭕ ⭕ ⭕ ❌ ❌ ❌ ✅ ✅ ✅ 💯 💯 💯 😜 😜 😜 🤪 🤪 🤪 😎 😎 😎 🙌 🙌 🙌 🚀 🚀 🚀 🎯 🎯 🎯 🌍 🌍 🌍 🌐 🌐 🌐 ☕ ☕ ☕ 🍵 🍵 🍵 🖋 🖋 🖋 ✨✨✨ ✨✨ ✨ ✨ 😊 😊 😊 😂 😂 😂 😉 😉 😉 🙃 🙃 🙃 😉😉😉😊😊😊😁😁😁😍😍😍😘😘😘❤️❤️❤️💕💕💕💞💞💞😭😭😭😢😢😢🙍🙍🙍🙆🙆🙆🚴🚴🚴🏃🏃🏃🐢🐢🐢🐙🐙🐙🌟🌟🌟⭐⭐⭐⭐★★★☆☆☆※※※←←←→→→↑↑↑↓↓↓⇦⇦⇧⇨⇩⇭⇭⇭⊙⊙⊙△△△▽▽▽■■■◆◆◆◇◇◇♥♥♥♦♦♦♣♣♣♡♡♡∑∑∑≈≈≈≠≠≠∞∞∞ℤℤℤℝℝℝΩΩΩΠΠΠθθθλλλγγγσσσξξξφφφδδδμμμνννζζζτττπππεεεβββαααΨΨΨΦΦΦΛΛΛΓΓΓΣΣΣΔΔΔΘΘΘΞΞΞΟΟΟΠΠΠΡΡΡΣΣΣΤΤΤΥΥΥΦΦΧΧΨΨΩΩ.
好啦,这篇碎碎念已经够长够烂了。记得保存你的Word文档后 用印章盖个章再交给法官, PTSD了... 不然他们可能会觉得你的技术太前卫而怀疑你的专业度。祝你转写顺利,案件获胜!🚀🚀🚀
说真的,讼师们在法庭上掰开了锅盖子,往往只剩下一段吱吱作响的
一键魔法:从嘶嘶声到Word文档的血泪史
先别急着笑, 这里不是教你怎么用魔杖点石成金,而是一步步逼你把那段“喂,你好,我是李先生”乱七八糟的录音压缩进.docx里顺便还能给老板交差。

准备工作——别问我为什么要先装个Python
- 装个Python 3.8+
- VScode随便挑一个IDE
- Git Bash或CMD都行, 只要能跑命令就行
- 一段真实的电话录音——最好是那种对话里夹杂“啊”“呃”的原汁原味版本
打开终端,一键复制粘贴:
git clone https://github.com/TencentCloud/tencentcloud-speech-sdk-python.git
pip install --upgrade tencentcloud-sdk-python-common tencentcloud-sdk-python-asr python-docx
别忘了在里把APPID、SECRET_ID、SECRET_KEY填进去,不然API会甩你一脸黑,看好你哦!。
代码片段——不懂就抄!
# -*- coding: utf-8 -*-
APPID = "125861****"
SECRET_ID = "****jIcgU1HI2VhcHfndEYcPxEExPbWA****"
SECRET_KEY = "****wykFagX8UaS5SZQ3QXTAaolj****"
ENGINE_TYPE = "8k_zh" # 普通话模型
from tencentcloud.asr.v20190614 import asr_client, models
from docx import Document
def transcribe:
client = asr_client.AsrClient
req = models.SentenceRecognitionRequest
req.EngineModelType = ENGINE_TYPE
req.SourceType = 1
req.VoiceFormat = "mp3"
req.Data = open.read
resp = client.SentenceRecognition
return resp
def save_to_word:
doc = Document
doc.add_heading
doc.add_paragraph
for seg in result.get:
speaker = "A" if seg == 0 else "B"
start = seg/1000
end = seg/1000
doc.add_paragraph
doc.save
运行一下:
python transcribe.py ./mycall.mp3
如果一切顺利, 你会在当前目录看到《通话记录.docx》, 太魔幻了。 里面满满都是“啊”“呃”“嗯嗯”的艺术字。
小插曲:产品对比表
| 产品名称 | 支持语言 | 识别时长上限 | 价格/分钟 |
|---|---|---|---|
| 腾讯云ASR极速版 | 中文、 英文、粤语等30+语言 | 2小时内 | 0.12 |
| AWS Transcribe | 中文、日文、韩文等15+语言 | 12小时/次 | 0.20 |
| Baidu AI Speech | 中文普通话+共50+- | 免费额度后每分钟 0.15 | |
| 科大讯飞语音云 | 中文普通话+多 | 4 小时/次 | 0.10 |
| 阿里云智能语音 | 中英双语 + | 24 小时/日 | 0.18 |
| ※ 表格仅供参考,实际费用。 | |||
噪音警告⚠️——别被这段文字吓到! 其实这篇文章本来想写得严肃点, 却被咖啡泼了一身,键盘卡住了几次一不小心就变成了“乱弹琴”。所以阅读时请戴上耳塞。
下面再来点情绪炸裂的实战经验:
- #1: 如果录音里有背景音乐,那可别指望ASR一次性给你全搞定。先用降噪工具把音乐砍掉,否则文字会出现“一首歌”之类莫名其妙的词汇。
- #2: ?没问题!腾讯云ASR已经支持四川、 东北、广东等20余种模型,只要在
EngineModelType=“16k_zh”或相应型号即可。 - #3: 遇到超长录音?分片处理!把30分钟切成5分钟的小块,每块单独识别,再用Python脚本拼接回去。虽然累,但总比手动听写省心。
- #4: 想让Word里的时间轴更炫酷?可以使用
"WD_ALIGN_PARAGRAPH.CENTER"让时间戳居中, 还能给关键句子加红色高亮,让断案官一眼看到重点。 - #5: 别忘记在Word文档最末尾加上一句律法免责声明:“本转写仅供参考,到头来解释权归衙门所有”。这样看起来更专业,也能防止被对方挑刺。
常见坑 & 疑难杂症速查表
| PITFALL | SOLUTION |
|---|---|
| API 报错 “InvalidParameter” | 检查 APPID、SECRET_ID 是否匹配;确认 audio_format 与文件后缀一致。 |
| "Speech recognition failed: Timeout""提升网络带宽或使用异步接口;将文件提前上传至 COS 再进行识别。" |
一句话:让AI帮你把嘈杂的电话转成干净的文字, 然后塞进Word,让法官和客户都满意!🚀🚀🚀 ⁇⁇⁇⁇⁇⁇⁇⁇🤦🤦🤦🙈🙈🙈🧐🧐🧐 ‑‑‑‑‑‑‑‑‑‐‑‐‑‐––——–—‒‒—──━━━═╬╬╬╬✧✧✧✧✧✨✨💥💥💣💣💣💣🔔🔔🔔⚡⚡⚡⚠️⚠️❗❗❕❕❓❓🌟🌟🌟🌟🌟🌈🌈🌈☁️☁️☁️⛈⛈⛈⛅⛅⛅☂️☂️☂️🌀🌀🌀📞📞📞🕰🕰🕰🎤🎤🎤🎧🎧🎧📚📚📚🚨🚨🚨🥵🥵🥵🥶🥶🥶🤯🤯🤯😅😅😅😂😂😂😂👀👀👀👂👂👄👄🐝🐝🐝🐞🐞🐞🔥🔥🔥🍿🍿🍿🍻🍻🍻🏆🏆🏆🏅🏅🏅👏👏👏👏👍👍👍👍✔✔✔✔✅✅✅✅✨✨✨✨✨🔎🔎🔎💡💡💡⚙️⚙️⚙️⌨⌨⌨✏✏✏〽〽〽〽〽〽⬆⬆⬆⬆⬆⬆⬅⬅⬅➡➡➡↘↘↘↗↗↗↓↓↓↑↑↑⌛⌛⌛♾♾♾♾♾♪♪♪♪♪♫♫♫♫♫🎵🎵🎵🎶🎶🔊🔊🔉🔉▶▶▶◀◀◀▐▐▐▐▐▐▍▍▍… … … … … … … … ... ... ... ... ... ... ... ... !!! !!! !!! ??? ??? ??? 😱 😱 😱 🙃 🙃 🙃 🥳 🥳 🥳 🎉 🎉 🎉 🏁 🏁 🏁 🚩 🚩 🚩 💎 💎 💎 🔮 🔮 🔮 🍀 🍀 🍀 🌹 🌹 🌹 🌺 🌺 🌺 🍎 🍎 🍎 📊 📊 📊 📈 📈 📈 📉 📉 📉 ✂ ✂ ✂ ⚖ ⚖ ⚖ ⏰ ⏰ ⏰ 🤝 🤝 🤝 👔 👔 👔 🎓 🎓 🎓 👑 👑 👑 🗂 🗂 🗂 ⚒ ⚒ ⚒ 🔧 🔧 🔧 💼 💼 💼 ⭕ ⭕ ⭕ ❌ ❌ ❌ ✅ ✅ ✅ 💯 💯 💯 😜 😜 😜 🤪 🤪 🤪 😎 😎 😎 🙌 🙌 🙌 🚀 🚀 🚀 🎯 🎯 🎯 🌍 🌍 🌍 🌐 🌐 🌐 ☕ ☕ ☕ 🍵 🍵 🍵 🖋 🖋 🖋 ✨✨✨ ✨✨ ✨ ✨ 😊 😊 😊 😂 😂 😂 😉 😉 😉 🙃 🙃 🙃 😉😉😉😊😊😊😁😁😁😍😍😍😘😘😘❤️❤️❤️💕💕💕💞💞💞😭😭😭😢😢😢🙍🙍🙍🙆🙆🙆🚴🚴🚴🏃🏃🏃🐢🐢🐢🐙🐙🐙🌟🌟🌟⭐⭐⭐⭐★★★☆☆☆※※※←←←→→→↑↑↑↓↓↓⇦⇦⇧⇨⇩⇭⇭⇭⊙⊙⊙△△△▽▽▽■■■◆◆◆◇◇◇♥♥♥♦♦♦♣♣♣♡♡♡∑∑∑≈≈≈≠≠≠∞∞∞ℤℤℤℝℝℝΩΩΩΠΠΠθθθλλλγγγσσσξξξφφφδδδμμμνννζζζτττπππεεεβββαααΨΨΨΦΦΦΛΛΛΓΓΓΣΣΣΔΔΔΘΘΘΞΞΞΟΟΟΠΠΠΡΡΡΣΣΣΤΤΤΥΥΥΦΦΧΧΨΨΩΩ.
好啦,这篇碎碎念已经够长够烂了。记得保存你的Word文档后 用印章盖个章再交给法官, PTSD了... 不然他们可能会觉得你的技术太前卫而怀疑你的专业度。祝你转写顺利,案件获胜!🚀🚀🚀

