Tag: 文本处理

打印“C”字符的模式

我想从file.tsv中给出的每一行打印Cys残留图案。 file.tsv有两个coloumns作为sequenceID和Sequence。 从第二列序列开始,第一个字符“C”应打印为C,如果下一个立即残留不是C则代码应打印C#。 对于n种不同的氨基酸发生,#应该只发生一次。 因此,当在列中,如果“C”后跟另一个字符,我想在“C”之后打印#。 因此,如果序列列具有值DCFRCGHCC,那么它应该在第三列C#C#CC中打印。 示例输入: c32_g1_i1_ 3GQKAKLKVPVFFLHRRGSICSSFYLMFSFEIKKK*TSKN*CFVCVRVRNRERAGVKCAHVYCPMFNGTQTH*IIISSLNS c32_g1_i1_ 6AV*TADDDLVRLCSIEHGTIHMCTLYTCCTLTVTHTYTHKTLIFACLFFFNFKGEHQIERAANRTSSM*KKHRNF*LGLLAX 输出应该是三列:sequenceID,Sequence,Cys模式 c32_g1_i1_3,GQKAKLKVPVFFLHRRGSICSSFYLMFSFEIKKK*TSKN*CFVCVRVRNRERAGVKCAHVYCPMFNGTQTH*IIISSLNS,C#C#C#C#C c32_g1_i1_6,AV*TADDDLVRLCSIEHGTIHMCTLYTCCTLTVTHTYTHKTLIFACLFFFNFKGEHQIERAANRTSSM*KKHRNF*LGLLAX,C#C#CC#C

删除以特定字符开头的行中空格后的所有字母

我有一个大的fasta文件,我想删除标题行中以特定字符/符号( > )开头的第一个空格后的所有字母。 这是一个示例输入文件: >AB3446 human helix ACGTGAGATGGATAGA GATAGATAGATAGACACA >AH4567 human beta sheet ACGTGATAGATGAGACGATGCCC CACGGGTATATAGCCCAA

如何通过终端自动安装.txt文件中的程序列表

我相信我已经看到了如何做到这一点的说明,不幸的是几个月前它已经忘记了它们。 提前感谢任何回答的人。

使用bash用随机数据填充文本文件列

我有一个格式的文件 .. .. 我试图使用sed用随机数据替换第三列字符串。 第三列字符串长度是固定的,是48位数 我能够使用read来修复解决方案 while read abc; do echo $a $b $(cat /dev/urandom | tr -dc ‘0-1’ | fold -w 48 | head -n 1) done output 然而,循环过程需要太长时间。 我怎么能用sed这样做。

对文本文件的特定编辑(awk?)

我有一个看起来像的文件 TITLE 1.000000000000000 10.0000000000000000 0.0000000000000000 0.0000000000000000 0.0000000000000000 10.0000000000000000 0.0000000000000000 0.0000000000000000 0.0000000000000000 10.0000000000000000 UU XX C 0.2000000000000028 0.2000000000000028 0.2000000000000028 0.2967599999999990 0.0641000000000034 0.1551499999999990 0.1033699999999982 0.3361099999999979 0.244990000000001 我需要一个脚本来修改底部数字块( C到30以下比原始值少。有这样的方法吗? 到目前为止,我得到的最好的是 $ awk ‘{if(NR>1){for(i=2;i<=NF;i++){$(i)=$(i)-10;}}print;}' data.txt | column -t 但是,这是来自互联网,我不知道如何自己操纵它达到预期的效果。 然而,这不会打印/覆盖当前data.txt ,这就是我想要的。 谢谢您的帮助!

根据两列重新排列文件内容

输入:文件包含数据: ID Location Domaind 1 20 X 1 5 y 1 25 Z 2 1 L 2 150 N 2 50 M 3 50 J 4 33 k 4 3 I 我必须根据ID和位置安排这些数据。 平均首先按位置的升序排列ID = 1,然后从左到右打印域与位置相同的顺序。 输出如: 1 YXZ 2 LMN 3 J 4 IK

如何从行转换为列?

我有一个.txt文件,其数字排序如下(在同一行): 106849_01373 106849_01967 106850_00082 23025.7_01059 我想像他们那样转换它们: 106849_01373 106849_01967 106850_00082 23025.7_01059 我不知道使用哪个命令。 有人可以帮我这个吗?

在输出中打印特定部件

让我们假设有一个命令如: cat /boot/config-3.19.0-32-generic | grep CONFIG_ARCH_DEFCONFIG 输出如下: CONFIG_ARCH_DEFCONFIG=”arch/x86/configs/x86_64_defconfig” 现在,我的问题是:是否有任何命令只能打印引号内的内容,即” ” ? 你能解释一下这个命令吗? 谢谢! 提前。

在列中获取唯一值及其计数

我有一个这样的专栏。 Streptococcus Ecoli Bcoli Ecoli streptococcus Streptococcus Mycobacterium Ecoli 我想要一个这样的文件(包括所有唯一值及其相应的计数) Streptococcus 3 Ecoli 3 Bcoli 1 Mycobacterium 1 有人可以帮助你在ubuntu 12.04中获取它吗?

用vim删除第一列

我有一个文本文件。 number 1_1 \t number1_2 \t etc number 2_1 \t number2_2 \t etc 我想删除此文件的第一列(对应于number1_1,number2_1等,即每行的第一个选项卡之前的数字)。 我读过这篇文章 ,建议删除第一列的解决方案(参见Peter的回答)。 但是,它对我不起作用,因为数字有不同的大小,我不能重复删除第一列的操作。 那怎么办?